如今的 AI 看起来已经无所不能,不仅能够胜任感知、学习、推理、决策等不同层面的任务,甚至可以打造虚拟数字分析,为人类带来多模态AI交互体验。近日, 新型社交平台Soul App 在GITEX GLOBAL海湾信息技术博览会上展出了其最新自研的多模态大模型,该模型具备多模态理解、真实拟人、文字对话、语音通话、多语种等特性,实现打破次元壁的互动,让现场的观众们惊艳不已。
3D数字孪生,虚拟与现实的创新交互
Soul作为国内较早将AI引入社交关系的互联网平台代表之一,此次携最新自研的多模态大模型参展GITEX GLOBAL 2024,向世界展现了中国企业在社交领域的最新应用实践和数字娱乐的创新方案。此次是Soul首次亮相国际大型展会,其自研的多模态大模型集合文字、语音、动作交互等多模态方向,实现更接近人类模式的互动体验和更高效、自然、丰富维度的信息传递。
大会上,现场观众可以实现高相似度的3D虚拟人的AI建模,通过包含人脸的90余个形状参数和6个属性参数,于几秒钟内,快速在3D世界精细化还原真实人脸的特征 ,打造专属的虚拟化身。同时,基于实时的人体动作识别、数字还原以及多模态对话交互能力,实现3D虚拟人与真人的沉浸式互动。
多模态端到端大模型,超拟人的情感体验
事实上,自成立以来Soul便一直聚焦于多模态大模型方向持续深耕。
在推出智能推荐引擎“灵犀”、以AI算法助力社交关系的发现沉淀环节后,2020年,Soul正式启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作,并推动AI能力在社交场景的快速落地。
目前,Soul已先后上线了自研语言大模型Soul X,以及语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。今年6月,Soul还在社交行业中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。
多模态端到端大模型的推出标志着Soul对人机交互体验的创新突破,同时,从文字、语音到视觉的模态升级,也意味着交互方式的颠覆式改变。在未来,Soul将持续加大对AI技术的投入,致力于通过AI技术更好地帮助用户进行社交破冰,助力人设搭建和认知决策,提升社交沟通效率。