说实话,有点受不了这些公司,老是半夜丢个大的了。

尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第1张
之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天

结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字OpenAI o1 模型

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第2张

这玩意已经号称 openAI 的天顶星科技,奥特曼直接发帖明说了,这就是他们到现在为止最强、最一致的模型。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第3张

跟往次不同的是,这玩意到底多牛 OpenAI 实际也没多吹,但是轻飘飘甩出了几张图,就有点让人头皮微麻。

像下面的图里,三个测试项目的结果就能说明了,分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。

这里面最左边为 GPT-4o ,中间是目前已经开放了的预览版 o1 ,最右边高高的红色柱子为满血 o1 。

你瞅瞅,基本每一项, o1 比起自己的前辈来说,都是接近 8 倍的提升。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第4张

要是把这些测试结果拆开来,这新 o1 也几乎是在各种学科、各种领域,都全量、全面、全方位地超越 4o 。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第5张

真正可怕的是, OpenAI 说自己专门请了博士专家一起答题。

结果在博士级别的测试结果上,我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ,人类得分 69.7 。

连博士都输了,那我和它比算什么?

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第6张

敏感的网友们,直接就炸了呀,又开始喊着,新的神已经出现。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第7张

随便一翻,都是带着【 最 】字的超高评价,什么 “ 简直太棒了! ” 、 “ 最接近人类推理的东西 ” 

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第8张

甚至有不少差友跑到咱们后台,感慨 o1 你小子确实有点东西啊。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第9张

听起来是不是很牛逼?OpenAI 他们自己很显然也是这么觉着的

具体 OpenAI 在它上面花了多少钱还没公布,但从用户使用上,就能明显看到这玩意多耗钱了。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第10张
o1 预览版每百万输入 15 美元,每百万输出 60 美元

这次对用户开放的甚至不是满血版本,就是一个早期的预览版和一个小型阉割版。

哪怕只是抢先尝鲜,不仅不免费,哪怕你掏钱开了会员,也卡你问答次数。

预览版每周只有 30 条, mini 每周只有 50 条。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第11张

虽然有点贵,但我们肯定不可能让 OpenAI 吹什么就是什么。

他们不是说超过博士了吗?我就冲了几个账号,去找了几个博士来亲测了一下

为了保证专业性和客观性,我们专门邀请了理综三科的博士参与测评,有生物学、固体物理学、材料化学等等。

其中,南京大学在读的固体物理学崔博士给出的评价,算是几个人里最高的。他觉得 o1 已经达到了 60 - 80 分( 满分 100 )的水平。

甚至,部分回答也可以给到 90 分。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第12张

崔博士给的第一个问题:远距离纠缠光子分发,有什么克服白噪声的办法?

大概 9 秒钟左右, o1 就给出了 10 点可行的措施。

当然了,没一个点是我看得明白的。

不过,崔博士的评价还可以:答案列举全面,符合现有的最新研究进展,属于科普级别的答案。

其中,提到的自适应光学的方向甚至是今年最新的 science 成果。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第13张

和老版 4o 一比,马上高下立判了。

就别说新方向提没提到,光是给出的措施数量上,就差了不少

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第14张

于是后面,我们就专门对自适应光学这个船新方向进行了追问:利用了量子纠缠的什么原理来提高信噪比?能否拓展到量子自适应光学?

几轮答案之后,崔博士给出了 80 - 90 分的高分,还大方地和我承认,部分思考是他的薄弱点,对他的方向有提示作用。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第15张

不过,后续我们再深入追问之后,它问题就暴露出来了。

当追问到更难的实验细节部分, o1 的回答效果就会降低。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第16张

但总体来说,在物理方面, o1 的表现算是不错的。和老版比下来,提升基本在 20 分左右。

不过,在 OpenAI 的测试里,物理本来就是分数最高的。

所以我们又拉来一位北大在读材料化学的 K 博士,想对它评分最低的化学,来几个狠问题。

K 博士围绕Fe-N4 问了一系列的问题, o1 给了很长的一串回答,为了精简篇幅我们这里只展示了部分问题和结果。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第17张

整体测试之后, K 博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力,比较虚,主要还是针对已知内容作答。

比如问到如何调节 Fe-N4 , o1 可以说出基于电子态调节,但你要是问它那该咋调节,它就有点卡壳了。

虽然相比 gpt4o 没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版是丧失细节乱说,新版能力有限就会词穷。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第18张

除了这俩,理综三科那肯定也少不了生物。

我们还咨询了来自清华,在读生物学的信博士,他的问题是: “ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰? ” 

虽然我听不懂,但是 o1 也给了一段非常长的回答,跟论文综述似的,后面还贴了参考文献。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第19张

但出乎意料的是,当我们把这个回答交给信博士,人家看完就发现不对路了,而且是一眼丁真的问题。

倒不是这 AI 回答的全错,而是 AI 在参考文献里乱编,这论文压根不存在!

虽然编了,但也没完全编,总体来说人家清华博士还是觉得比之前的 AI 能强不少,起码理解能力是肉眼可见了,编也编的很像。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第20张

不过,不同方向的博士评价有所区别,这或许也跟 o1 自己擅长的领域有关。

拿官方给出的理综分数来看,虽然 gpt4o 在生物学上的评分要比化学和物理高,但这回的 o1 就完全不一样。

o1 在物理上的分数达到了 92.8 ,已经远超其他两门学科,这或许就是崔博士对它比较看好的原因。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第21张

总体而言,真要说到超越专业博士水平,博士们认为还得缓缓。

崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手, AI 只能提供大致方向,因此花钱要这样的细致 AI 意义不大。

他更推荐本科生选择这个 AI ,要是硕博阶段,那这个 AI 的回答其实并不符合导师标准,组会上肯定要挨批。

清华的信博士也同样持这种看法,且不说 AI 的幻觉编造文献问题,就专业程度而言, AI 的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,专业研究这个方向的人眼里, AI 的毛病还是非常明显的。

北大 K 博士则谈的更深入,他认为这个 AI 只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说, AI 是远远比不上硕博的水平的,这也是 AI 需要解决的重要问题。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第22张

在博士们的评价里,我们似乎能抓到一个重点:o1 模型之所以相对更强,是因为他有了更高维的认知和思考模式。

这,也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章,他们在文中表示,主要是他们用上了长思维链 (  CoT , Chain of thought  ) ,而不是传统的提示链( Prompt chain )。

第一眼看上去有点懵,说人话就是,这个大模型改变了以往那种你问我答的思考方式。

在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。

但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第23张

这就需要 AI 得有实打实的构建逻辑,推理论证的能力,换句话说,他不仅要长脑子,还要动脑子。

尽管思维链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个实现的。

实操过程中,现在你与 o1 模型对话,除了收获答案,还可以看选择展开看他解答问题时的思维逻辑,他的思考是具象化的而不是黑盒。

比如我们拿崔博士提问的 “ 远距离纠缠光子分发,有什么克服白噪声的办法? ” 这一问题为例, o1 模型的思考过程如下:

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第24张

不过,就像专业领域的问题它也会翻车一样,有些日常场景的简单题似乎也有可能难住它。

拿之前那个经典 9.11 和 9.8 比大小例子来说,小红书网友 @ 小水刚醒 就发现这玩意 “ 一上难度就崩溃……无限循环发疯般推思维链( CoT ) ” 

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第25张

我们编辑部自己评测时也发现了这个问题,不过当询问它为什么的时候,它也会马上反应过来自己推理出现了错误,然后再重新推导一番。

好好好,不愧是博士,善于发现错误是吧。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第26张

整轮测试下来,不得不承认,它确实是大大提升了。士别三日,也的确应当刮目相看。

在效果上,也确实相比前代确实更好,而且长思维的应用,对未来 AI 发展都是好事。

但在几位博士轮番鞭打完以后,它的问题也暴露得挺明显的,在创造力等某些方面,还替代不了人类博士专家。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧 第27张

不过 OpenAI 的研究人员 Noam Brown 透露,未来版本的 o1 将会思考几个小时、几天甚至几周,虽然这样烧钱会更多,但像在研发抗癌药这些任务上,这种花费也是值得的。

另外,差评君觉得 GPT o1 实现的思维链模式,也很有可能会像之前的 Transformer 架构、 DiT 架构那样,又会引领全世界的大模型的方向

所以说,通往 AGI 之路说近不近,但说远也不远,期待接下来各家的选手轮番登场了。

收藏(0)