中新网5月24日电 人工智能技术的突破,让我们确信,未来正在迎面而来。在可预见的未来,我们与机器的关系究竟是怎样?人类是否会被机器取代?这可能是大多数人都想过的问题。
搜狗CEO王小川在2019年5月24日,“BMW • 极客公园 Rebuild 2019”科技商业峰会上,发表了题为“人与机器的共创未来”的主题演讲,面对大众对人工智能技术的好奇与担忧,他说我们不用妄自菲薄,也不用狂妄自大,人与机器的关系最终是协同进化。而王小川在峰会现场展示的“语音变声”黑科技,也让观众们领略到了人工智能的力量。
在峰会现场,王小川展示了一款由搜狗自主研发的语音变声功能。王小川用语音变声功能说了一段话,出乎意料的是,大家听见的却是知名音乐人高晓松的声音。它的实时逼真引来现场一片惊叹,观众意犹未尽,于是王小川又演示了一次方言之间的瞬时转换,将普通话实时转换成了东北话,表达的内容也完全不受影响。
大家拿出手机跃跃欲试,发现搜狗输入法“变声”功能中为用户准备的语音角色非常丰富,横跨互联网、明星类、动漫类等多个类别,有近20种大类的声音,包含了大家耳熟能详的无厘头星爷、蜡笔小新、小猪佩奇等多个不同年龄、不同性别甚至是不同“次元”的角色。在固定的人物和角色之外,还有大叔音、萝莉音、公子音、御姐音等基础声音,聊天过程中,可以在这些角色中自由转换、无缝对接。
语音变声功能,正是一种人工智能
语音变声功能,是搜狗团队人工智能技术的最新突破。据王小川介绍,语音变声功能对用户本身的音色没有任何限制,任何一个用户只要在语音输入中输入想说的话,再选择一个喜爱的角色,声音就会瞬间被转换成该角色的声音,真正实现了“任意人变声到同一人”的神奇变化。
尤其令观众感到不可思议的是,搜狗的这个变声功能不仅可以将用户说话的音色实现惟妙惟肖的转换,同时语速、停顿、情感等说话的韵律习惯均可被转换为超高逼真度的指定角色声音习惯,实现了更自然的变声沟通。更加令大家振奋的是,目前这项前沿技术已被应用到手机版的搜狗输入法中,这是行业内首次将变声能力落实到大众消费品中。
让机器实现人工智能,首先要解决的就是机器对人类语言的理解处理能力,而表征学习是机器学习的根本,此次搜狗能实现如此惊人的变声功能,就是源于他们在语音表征学习和语音合成等领域的突破性进展。
从好玩到颠覆,语音变声的大未来
“我们为什么会花费大量资源打造出这样一个功能?大家现在可能觉得它只是好玩”,王小川在台上发言道:“可当我跟网络教育行业进行沟通的时候,整个行业沸腾了。在远程的直播行业当中,我们遇到有些老师带有口音,我刚才是把一个普通话转成带有东北腔,但倒过来你口音能转成正常的语音,在知识付费的这种远程教育当中,这些学校的老师,或者说之前找的导游,会对他们有一个新的颠覆。”
众所周知,搜狗拥有中国最大的输入法产品,而现在,搜狗是中国今天To C领域语音识别量最大的引擎,每天有超过6亿次语音识别请求,这为搜狗进行语音相关的人工智能研发提供了丰富的数据基础,成为搜狗专注自然语言处理研究的独有优势。目前,搜狗在人工智能上的研发主要集中于声音识别和分析、图像识别、语义理解及机器翻译几大部分,基于机器同传、人脸迁移、唇语识别等方面的突破进展,已经推出了问答机器人汪仔、搜狗地图“智能副驾”、语音实时转文字工具“搜狗听写”、虚拟主播、旅行翻译宝、录音翻译以及结合分诊和医疗搜索功能的“搜狗明医”等多个采用了人工智能的产品。
在演讲最后,王小川说:“未来人跟机器会有一种新的合体,跟技术在一块我们会变得更加强大,形成新的生态,这是人与机器协同进化的未来。”显然,科技的发展,正在改变我们与周边环境的交互习惯,机器与人类的关系,也不再只是简单的工具与使用者,它会更加智能地帮助人类延伸自身能力,以触达更加广阔的领域。