OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

说实话，有点受不了这些公司，老是半夜丢个大的了。

尤其点名 OpenAI ，这回又毫无预告地发布了那个大家惦记了很久的新模型。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第1张-热点新闻-河北元硕人力资源服务有限公司
之前说什么草莓不草莓的，一张草莓的照片遛了大家好几天

结果，这回新模型根本跟草莓毛关系没有，而是起了一个全新的名字OpenAIo1模型。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第2张-热点新闻-河北元硕人力资源服务有限公司

这玩意已经号称 openAI 的天顶星科技，奥特曼直接发帖明说了，这就是他们到现在为止最强、最一致的模型。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第3张-热点新闻-河北元硕人力资源服务有限公司

跟往次不同的是，这玩意到底多牛 OpenAI 实际也没多吹，但是轻飘飘甩出了几张图，就有点让人头皮微麻。

像下面的图里，三个测试项目的结果就能说明了，分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。

这里面最左边为 GPT-4o ，中间是目前已经开放了的预览版 o1 ，最右边高高的红色柱子为满血 o1 。

你瞅瞅，基本每一项， o1 比起自己的前辈来说，都是接近 8 倍的提升。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第4张-热点新闻-河北元硕人力资源服务有限公司

要是把这些测试结果拆开来，这新 o1 也几乎是在各种学科、各种领域，都全量、全面、全方位地超越 4o 。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第5张-热点新闻-河北元硕人力资源服务有限公司

真正可怕的是， OpenAI 说自己专门请了博士专家一起答题。

结果在博士级别的测试结果上，我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ，人类得分 69.7 。

连博士都输了，那我和它比算什么？

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第6张-热点新闻-河北元硕人力资源服务有限公司

敏感的网友们，直接就炸了呀，又开始喊着，新的神已经出现。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第7张-热点新闻-河北元硕人力资源服务有限公司

随便一翻，都是带着【最】字的超高评价，什么“简直太棒了！”、“最接近人类推理的东西”。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第8张-热点新闻-河北元硕人力资源服务有限公司

甚至有不少差友跑到咱们后台，感慨 o1 你小子确实有点东西啊。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第9张-热点新闻-河北元硕人力资源服务有限公司

听起来是不是很牛逼？OpenAI 他们自己很显然也是这么觉着的。

具体 OpenAI 在它上面花了多少钱还没公布，但从用户使用上，就能明显看到这玩意多耗钱了。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第10张-热点新闻-河北元硕人力资源服务有限公司
o1预览版每百万输入15美元，每百万输出60美元

这次对用户开放的甚至不是满血版本，就是一个早期的预览版和一个小型阉割版。

哪怕只是抢先尝鲜，不仅不免费，哪怕你掏钱开了会员，也卡你问答次数。

预览版每周只有 30条， mini 每周只有 50条。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第11张-热点新闻-河北元硕人力资源服务有限公司

虽然有点贵，但我们肯定不可能让 OpenAI 吹什么就是什么。

他们不是说超过博士了吗？我就冲了几个账号，去找了几个博士来亲测了一下。

为了保证专业性和客观性，我们专门邀请了理综三科的博士参与测评，有生物学、固体物理学、材料化学等等。

其中，南京大学在读的固体物理学崔博士给出的评价，算是几个人里最高的。他觉得 o1 已经达到了 60 - 80分（满分 100）的水平。

甚至，部分回答也可以给到 90分。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第12张-热点新闻-河北元硕人力资源服务有限公司

崔博士给的第一个问题：远距离纠缠光子分发，有什么克服白噪声的办法？

大概 9 秒钟左右， o1 就给出了 10点可行的措施。

当然了，没一个点是我看得明白的。

不过，崔博士的评价还可以：答案列举全面，符合现有的最新研究进展，属于科普级别的答案。

其中，提到的自适应光学的方向甚至是今年最新的 science 成果。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第13张-热点新闻-河北元硕人力资源服务有限公司

和老版 4o 一比，马上高下立判了。

就别说新方向提没提到，光是给出的措施数量上，就差了不少。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第14张-热点新闻-河北元硕人力资源服务有限公司

于是后面，我们就专门对自适应光学这个船新方向进行了追问：利用了量子纠缠的什么原理来提高信噪比？能否拓展到量子自适应光学？

几轮答案之后，崔博士给出了 80 - 90分的高分，还大方地和我承认，部分思考是他的薄弱点，对他的方向有提示作用。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第15张-热点新闻-河北元硕人力资源服务有限公司

不过，后续我们再深入追问之后，它问题就暴露出来了。

当追问到更难的实验细节部分， o1 的回答效果就会降低。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第16张-热点新闻-河北元硕人力资源服务有限公司

但总体来说，在物理方面， o1 的表现算是不错的。和老版比下来，提升基本在 20分左右。

不过，在 OpenAI 的测试里，物理本来就是分数最高的。

所以我们又拉来一位北大在读材料化学的K博士，想对它评分最低的化学，来几个狠问题。

K博士围绕Fe-N4问了一系列的问题， o1 给了很长的一串回答，为了精简篇幅我们这里只展示了部分问题和结果。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第17张-热点新闻-河北元硕人力资源服务有限公司

整体测试之后， K 博士给出的评价也差不多：可能有研究生水平，但是深入的认知和给方案的能力，比较虚，主要还是针对已知内容作答。

比如问到如何调节Fe-N4，o1可以说出基于电子态调节，但你要是问它那该咋调节，它就有点卡壳了。

虽然相比 gpt4o 没那么胡说八道，但具体的问题上他俩都给不了太多建议，老版是丧失细节乱说，新版能力有限就会词穷。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第18张-热点新闻-河北元硕人力资源服务有限公司

除了这俩，理综三科那肯定也少不了生物。

我们还咨询了来自清华，在读生物学的信博士，他的问题是：“如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰？”

虽然我听不懂，但是 o1 也给了一段非常长的回答，跟论文综述似的，后面还贴了参考文献。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第19张-热点新闻-河北元硕人力资源服务有限公司

但出乎意料的是，当我们把这个回答交给信博士，人家看完就发现不对路了，而且是一眼丁真的问题。

倒不是这 AI 回答的全错，而是 AI 在参考文献里乱编，这论文压根不存在！

虽然编了，但也没完全编，总体来说人家清华博士还是觉得比之前的 AI 能强不少，起码理解能力是肉眼可见了，编也编的很像。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第20张-热点新闻-河北元硕人力资源服务有限公司

不过，不同方向的博士评价有所区别，这或许也跟 o1 自己擅长的领域有关。

拿官方给出的理综分数来看，虽然 gpt4o 在生物学上的评分要比化学和物理高，但这回的 o1 就完全不一样。

o1 在物理上的分数达到了 92.8 ，已经远超其他两门学科，这或许就是崔博士对它比较看好的原因。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第21张-热点新闻-河北元硕人力资源服务有限公司

总体而言，真要说到超越专业博士水平，博士们认为还得缓缓。

崔博士直言，在现实科研工作中，多数情况学者们都还得自己动手， AI 只能提供大致方向，因此花钱要这样的细致 AI 意义不大。

他更推荐本科生选择这个 AI ，要是硕博阶段，那这个 AI 的回答其实并不符合导师标准，组会上肯定要挨批。

清华的信博士也同样持这种看法，且不说 AI 的幻觉编造文献问题，就专业程度而言， AI 的回答也只能糊弄大同行，也就是同一大学科里面方向不同的人群；而在小同行，专业研究这个方向的人眼里， AI 的毛病还是非常明显的。

北大 K 博士则谈的更深入，他认为这个 AI 只能说在认知上有了硕士生的水平，但也只是作为一个缝补匠，谈不上说出什么创造性的成果。就创造性这一点来说， AI 是远远比不上硕博的水平的，这也是 AI 需要解决的重要问题。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第22张-热点新闻-河北元硕人力资源服务有限公司

在博士们的评价里，我们似乎能抓到一个重点：o1 模型之所以相对更强，是因为他有了更高维的认知和思考模式。

这，也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章，他们在文中表示，主要是他们用上了长思维链( CoT ， Chain of thought )，而不是传统的提示链（ Prompt chain ）。

第一眼看上去有点懵，说人话就是，这个大模型改变了以往那种你问我答的思考方式。

在以前的模式下，大模型的问答就跟下意识出答案一样，比如你问我天是啥颜色，这问题我想都不想，秒答蓝色。这实际上需要我本来就知道这个知识点，然后给你直接反应就完了。

但这个长思维链就相当于，我不仅要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第23张-热点新闻-河北元硕人力资源服务有限公司

这就需要AI得有实打实的构建逻辑，推理论证的能力，换句话说，他不仅要长脑子，还要动脑子。

尽管思维链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个实现的。

实操过程中，现在你与 o1 模型对话，除了收获答案，还可以看选择展开看他解答问题时的思维逻辑，他的思考是具象化的而不是黑盒。

比如我们拿崔博士提问的“远距离纠缠光子分发，有什么克服白噪声的办法？”这一问题为例， o1 模型的思考过程如下：

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第24张-热点新闻-河北元硕人力资源服务有限公司

不过，就像专业领域的问题它也会翻车一样，有些日常场景的简单题似乎也有可能难住它。

拿之前那个经典9.11和9.8比大小例子来说，小红书网友@小水刚醒就发现这玩意“一上难度就崩溃……无限循环发疯般推思维链（CoT）”

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第25张-热点新闻-河北元硕人力资源服务有限公司

我们编辑部自己评测时也发现了这个问题，不过当询问它为什么的时候，它也会马上反应过来自己推理出现了错误，然后再重新推导一番。

好好好，不愧是博士，善于发现错误是吧。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第26张-热点新闻-河北元硕人力资源服务有限公司

整轮测试下来，不得不承认，它确实是大大提升了。士别三日，也的确应当刮目相看。

在效果上，也确实相比前代确实更好，而且长思维的应用，对未来 AI 发展都是好事。

但在几位博士轮番鞭打完以后，它的问题也暴露得挺明显的，在创造力等某些方面，还替代不了人类博士专家。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧-第27张-热点新闻-河北元硕人力资源服务有限公司

不过 OpenAI 的研究人员 Noam Brown 透露，未来版本的 o1 将会思考几个小时、几天甚至几周，虽然这样烧钱会更多，但像在研发抗癌药这些任务上，这种花费也是值得的。

另外，差评君觉得 GPT o1 实现的思维链模式，也很有可能会像之前的 Transformer 架构、 DiT 架构那样，又会引领全世界的大模型的方向。

所以说，通往 AGI 之路说近不近，但说远也不远，期待接下来各家的选手轮番登场了。

免责声明：本文章由会员“极目新闻”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

相关推荐