这年头,哪有人上班不发疯的(doge)。
就拿PPT来说,赵晓卉“PPTSD”这词儿一出,那真是戳到了打工人心坎上。
对啊,PPT是什么高贵的东西啊!都大模型时代了,就没有哪个AI能又好又快地帮我搞定这事儿吗!
还真别说,打工人是会心疼打工人的。就在编辑们孜孜不倦寻找解放双手的大模型工具的日常中,诶嘿,最近还真又挖到了新神器——
通义直接在网页版里上新了“效率”版块,功能很直给:实时记录、阅读助手,还有PPT创作。
其中,PPT创作属于是新鲜出炉。
简单来说,主打一个功能是大模型给的,但并没多大“AI味”。
最关键的是,免费。
这咱不得抓紧测试一波——
拒绝PPTSD
具体来说,通义PPT创作主要提供了两种PPT制作方式。
一句话主题生成PPT:
如果你啥思路没有,只有一句话主题,那么可以把主题当成Prompt直接扔给大模型。
当然,如果你已经有完整的思路大纲,它也支持最多10万字的超长文本输入。
上传文件生成PPT:
文档、音视频文件都支持。
那么就,先给又菜又爱玩的手残党同事们,搞一份《黑神话:悟空》攻略(PPT版)吧。
提示词很简短,就是:《黑神话:悟空》游戏攻略。
一份像模像样的PPT大纲秒速生成:
哪里看不顺眼可以上手修改,懒人党也可以直接下一步——选模板。
在不提供任何背景资料的情况下,通义生成的PPT能达到什么样的效果?
点击“生成PPT”,等待不到1分钟,答案即刻揭晓。
应该是基于通义大模型的联网搜索能力,生成的游戏介绍里,《黑神话》的制作方、游戏引擎等重点信息都没出错。
不过大模型本身看上去并没有被“剧透”,在具体游戏内容上,有点脑洞大开。
但话术组织,设计排版,还真可圈可点。
单看这文案,确实没什么AI味儿,说得上是言之有物。
人机协作修改起来也很方便:
点击文本框既能直接修改文字,也可以一键召唤大模型帮忙一起优化文案。
配图同样可以交给AI生成。
不会写提示词也没关系,通义PPT内置“咒语书”,点击即用,也可以作为参考。
看样子,日常用来糊弄老板妥妥够用了(不是)。
上传文件生成PPT
咳咳,还是回到正经用途上,如果喂给通义PPT更详细的文档资料,它又会表现如何?
比如,投喂一份内部培训资料,让通义PPT来帮忙搞定培训PPT。
效果上be like:妈妈再也不用担心我开会前做不完PPT。
PPT生成的内容和上传文件关联性很高,基本上把文档重点都划出来了,直接拿来用问题也不大。
简单总结一下,通义这波上新的PPT创作,具有以下几个优点:
言之有物:做到了生成文本更像人话(去AI味),并且不是片汤话,能结合用户需求和上传文件输出有信息量的PPT内容。
模板丰富:提供了各个不同场景、行业适用的PPT模板,设计美观,大学生到上班族都能用。
智能编排:提供了全流程智能编排的能力,可在线实时调整PPT模板编排、PPT配图智能生成、PPT文本智能改写等。
进一步扒拉了一下,通义PPT背后的基础模型是通义千问大模型2.5,相比上一版本,Qwen 2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,性能超越GPT-4 Turbo。
在对长文档的支持方面,通义PPT支持1000万字长文档,包括PPT、PDF和网页。
多模态方面,支持上传最长6小时的音频、视频,也可以输入链接导入线上音视频。
文生图功能,则是引入了通义万相的能力。
三合一“通义效率”
值得一提的是,与PPT创作共同存在于通义效率版块的,还有另外两个功能:
实时记录,以及阅读助手。
不说不知道,这两者其实都是通义用户的老朋友。
实时记录,原通义听悟,是音视频内容方面的AI助手。
应用场景聚焦课堂记录、会议记录,能完成的工作,包括语音转文字、发言人区分、智能总结等。
界面非常简洁,选择语言(能识别中、英、日三种语言),确定需不需要实时翻译成中文,即可开始在线录音。
外教课or国际会议,不用愁了。
在通义实时记录,录音是实时的,语音转文字是实时的,英文/日语录音转译成中文是实时的。
连边转文字边修正错别字,也是实时的。
是真的很实时(手动狗头)。
不仅可以很好地区分发言人,根据不同发言人整理核心观点,而且,用户可以边听边选中文段,自己划重点。
边开会边做会议纪要,不是梦。
整个界面的右侧板块,是用来写写画画自个儿做笔记的部分。
当录音结束后,这一板块会划分成三个区域:
导读:对录音内容进行AI总结,包括摘要、章节速览、待办事项等;
脑图:根据录音内容整理出思维导图,帮助快速掌握会议要点和脉络;
笔记:顾名思义,是录音过程中用户自己记录下的内容。
关于实时记录,最后来划个重点:支持每天20小时的录制撰写时长,使用免费!还是免!费!
阅读助手,功能等同于原来的通义智文。
上来就先告诉你,与实际记录一样,它同样是免费的。
在阅读助手,各种格式的文档/论文/图书,包括PDF(含扫描件)、word、图片、HTML、Markdown、EPUB、Mobi,无论是网页链接还是播客链接,都能被精准速读。
而且,超多格式伴随着超大容量——
文档,可以是长达1000万字的;音频视频,可以是6小时起步的。
非常Nice。
上手测试过程中,我们喂给了它两本书,分别是193页、英文版的《我们赖以生存的隐喻》,和500页、中文版的《埃隆·马斯克传》。
首先,很关键的一个功能是阅读助手支持全文翻译,翻译速度还很快,几乎不用等。
对经常读外文文献的朋友们来说,真的非常友好。
其次,AI提炼出的导读部分,也会翻译成中文呈现。
这一部分由全文概述、关键要点、速度导览等组成;如果丢给它的是论文,还会有论文速读(核心要点总结)、论文总结(文章优点、方法创新点、未来展望),帮助用户快速理解内容。
如果嫌弃导读还是太长?
没关系,指路旁边的脑图,分分钟厘清主要脉络。
更有意思的是,在阅读助手里,用户能针对原文划词解读,辅助理解关键点。
可以选择在板块底部的对话框,问出所有你不明白不理解的文档相关问题。
这个功能约等于“让死的论文活过来交流探讨”。
如此这般,实时记录、阅读助手、PPT创作,形成了三合一的通义效率。
实时记录功能能够迅速捕捉并保存每一个重要信息;
阅读助手则是辅助位,帮助在知识中筛选、提炼,让用户短时间内掌握核心要义;
而PPT创作则能借用大模型的AI能力将散落的信息整理成富有逻辑性和视觉冲击力的展示材料。
这三者相辅相成,共同构成了一个从信息整理、阅读理解到内容创作的完整工作学习流程;每一步环环相扣,不管是面对工作还是学习,都能事半功倍。
大模型应用想卷,得靠技术和体验
上面提到的三个功能,都可以在PC端丝滑使用。
多说一嘴,除了PPT创作,另外两个功能还能在手机端体验。
“我们希望通过这些工具帮助用户节省时间,提升工作学习效率,激发无限创意。”通义效率产品经理王晓明表示,未来围绕工作学习场景,通义会持续帮用户用AI技术提效。
通义效率背后,正是基于强大的通义大模型。
阿里旗下通义千问大模型聚焦开源路线,家族阵容庞大,是国内的头部梯队玩家,在多个全球评测榜单上也常常名列前茅。
通义近期发布了全球性能最强的开源模型Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。多个国内外榜单显示,Qwen2-72B成为排名第一的中国大模型,也是全球最强的开源模型。
长期耕耘得来的技术优势,为通义效率提供了源源不断的创新动力。
而三合一整合后推出的通义效率,精准地围绕工作学习流程,将信息整理、阅读理解到内容创作这三大功能进行了无缝打通,形成了一个高效的工作学习闭环。
这一闭环不仅能够激发用户的创意思维,还能够显著提升工作效率。
更为重要的是,通义效率率先将这些功能全部实现在PC端,真正做到了“需求在哪里,效率就在哪里发挥作用”。
这种以用户需求为导向的设计理念,使得通义效率在提升用户工作效率的同时,也极大地增强了用户体验。
当然了,换个视角来看,通义上线“效率”的背后,其实反映了市场的选择和趋势——
大模型的应用正在朝着智能化、个性化、一站式、高效率、少人工的方向发展。
这正是大模型在应用层面的本质体现。
随着大模型日益融入大众的日常生活,用户在入门上手之后,追求的便是更加卓越的体验。
如果技术不够先进,体验不够优秀,那么就容易被用户和市场所抛弃。
因此,大模型的应用落地和推广,必须走向更实用、更好用的方向。
实际上,我们正在见证这一趋势的发生,通义效率的选择,就是最好的证明之一。
它告诉我们,应用落地和推广,只有真正满足用户需求,提供优质体验的产品,才能在AI 2.0的模型与应用大潮中站稳脚跟。