星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式

6月27日，科大讯飞发布讯飞星火大模型V4.0及相关落地应用。该模型基于全国首个国产万卡算力集群“飞星一号”训练，模型能力全面对标GPT-4 Turbo，并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现超越。在图文识别能力方面，已领先GPT-4o。

星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式第1张

科大讯飞董事长刘庆峰在发布会上表示，这标志着完全自主可控的大模型进入了一个阶段，有重要意义。

他表示，在中美科技人工智能最激烈的博弈之下，国产大模型底座的能力和支撑，决定了行业能在这条路上走多远，决定了能否在这一波人工智能浪潮中享受更多红利，在他看来，只有自主可控的繁荣生态，才有中国通用人工智能的大未来。

同时他谈到了在GPT-4o发布后，全世界都在进一步关注语音，他表示语音将成为万物互联时代人机交互的主要方式，人机交互最重要的场景是远场、噪声、多人说话、多语言，因此万物互联时代的AIUI（人工智能用户界面）要满足远场高噪声、多语言多方言、全双工、多模态等标准。

日前，科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目，获得国家科学技术进步奖一等奖。项目通过深度学习、大数据分析等前沿技术，实现了多语种语音识别、语音合成、语音翻译等多项关键技术的突破。

星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式第2张

这些突破包括但不限于：

通过复杂语音信号解耦建模技术，实现了内容、韵律、音色等多种属性充分解耦，很好地解决了语音识别研究中最具挑战性的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。使得复杂场景下语音识别准确率和语音合成表现力得到重大突破，语音转写准确率首次超过专业速记员水平。

通过多语种共享建模技术，解决了小语种知识匮乏、训练数据稀缺的难题，打破了国外技术垄断，显著提升了小语种语音系统性能。相关技术在2021年在国际低资源多语种语音识别竞赛 OpenASR 中获得15个语种受限赛道和7个语种非受限赛道的冠军。在奇瑞、一汽等的交互评测中，科大讯飞的技术效果全面领先国际车载语音技术竞品赛伦思（原Nuance车载公司），在华为的评测中也领先谷歌。

通过语音语义联合建模技术，很好地解决了复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。相关技术于2018年在业内首次达到首次达到CATTI考试英语二级《口译实务(交替传译类)》合格标准；并在2021-2023 年连续三届获得国际权威机器口语翻译评测比赛 IWSLT冠军，覆盖同传、离线、方言翻译等多类任务。技术成果应用在多个方面：如英语口语评测首次达到人类专家水平，是唯一满足高考应用要求的技术，累计服务超1.3亿考生；智能客服系统规模应用，累积服务超8亿人，多行业对话成功率超90%。

国产异构硬件平台训练及推理加速技术，首次实现智能语音在国产芯片上的训练和推理性能达到国际主流芯片水平，构建形成自主可控的智能语音技术体系。基于该技术，2023年，科大讯飞与华为联合攻关大模型国产化算力底座核心难题，建设首个万卡全国产算力平台“飞星一号”，填补了国产超大模型训练平台空白。

星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式第3张

正是源于在全球语音领域持续领先的深厚底蕴，今年1月30日，科大讯飞正式发布国内首个语音大模型——星火语音大模型。首批37个主流语种效果超过OpenAI Whisper V3，在多语种语音合成方面，星火语音大模型的首批40个语种拟人度超83%，赋能讯飞翻译机迎来全新升级助力更自由沟通，推动万物互联时代下客服、汽车、机器人等场景人机交互变革。

此次发布会，星火语音大模型再次升级，支持37个语种和37种方言免切换“自由对话”，识别准确率远超Whisper V3。在发布会现场，演示人员演示了在讯飞输入法连续用上海话等多种方言以及日语等多个语种进行对话，都能被精确识别。

星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式第4张