OpenAI 发布全新模型 OepnAIo1，号称最强最一致，实力究竟如何？_社会热点_资讯

说实话，我受不了这些公司。他们总是在半夜丢掉大东西……

OpenAI 尤其被提及，因为它在没有任何预告的情况下发布了大家思考已久的新模型。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

之前我还在讨论这到底是不是草莓，但是一张草莓的照片让我们聊了好几天。

因此，这个新模型和Strawberry Hair没有任何关系，而是有一个全新的名字，OepnAIo1模型。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

而这个东西现在已经被称为openAI的Zenith技术了，而奥特曼直接发文说这是他们目前为止最强大、最一致的模型。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

与以往不同的是，OpenAI 这次并没有真正吹嘘这个东西有多牛逼，而只是抛出了几张足以让人头皮发麻的图片。

如下图所示，三个测试项目的结果可以说明这一点：国际数学奥林匹克、编程竞赛和博士级科学问题。

最左边的是 GPT-4o，中间的是目前可用的预览版 o1，右边那一排高高的红色柱子才是满血版的 o1。可以看到，几乎在各个方面，o1 都比前辈们优秀了近 8 倍……

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

如果我们分解这些测试结果，新的o1几乎在各个学科和领域都超过了4o。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

真正让我害怕的是，OpenAI 说它专门邀请了博士专家一起回答问题。

结果在博士级别的测试结果中，我们可以看到o1的答题分数全部超过了博士级专家，o1得分78，人类得分69.7……

连医生都输了，我又拿什么跟它相比呢？

敏感的网友顿时愤怒，开始高呼“新神出现了”。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

只要翻阅它，你就会发现带有“最佳”字样的极高评价，例如“绝对惊人！”和“最接近人类推理的东西”。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

甚至有不少朋友来到我们的后台说，“O1，你真是太棒了。”

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

这听起来不是很棒吗？OpenAI 显然也这么认为。

OpenAI 具体花了多少钱还没有公布，但是从用户的体验来看，这东西值多少钱是显而易见的。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

o1 预览版每百万输入 15 美元，每百万输出 60 美元

此次提供给用户的甚至不是完整版，而是一个早期预览版和一个小型阉割版。

即使你只是想先试用一下，它也不是免费的。即使你付费成为会员，你的问答次数也会受到限制。预览版每周只有 30 个问题，迷你版每周只有 50 个问题……

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

虽然有点贵，但我们当然不能让 OpenAI 夸耀这一点。

不是说比 PhD 好吗？我建了几个账号，自己去找了几个 PhD 来测试一下。

为了保证专业性和客观性，我们特别邀请了生物学、固体物理学、材料化学等三个综合理科学科的博士参与评测。

其中，南京大学固体物理专业崔博士给予了最高评价，他觉得O1已经达到了60到80分（满分100分）的水平。

甚至有的答案可以给90分。

崔博士提出的第一个问题是：在长距离分发纠缠光子时，有没有办法克服白噪声？

大概9秒的时间，o1给出了10条可行的措施。

当然，我完全没听懂，但崔博士的评价还行：解答的很全面，符合最新的研究进展，属于科普水平。

其中提到的自适应光学方向更是今年最新的科学成果。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

与旧版4o相比，差异立刻就显现出来。

且不论是否提到新方向，单是给出的措施数量就有很大差别。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

所以后来我们专门针对自适应光学这个新方向问了：利用量子纠缠的什么原理来提高信噪比？能不能推广到量子自适应光学？

经过几轮解答，崔博士给了我80至90分的高分，并大方地向我承认他的一些思路是他的弱点，有助于提示他的方向。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

然而，当我们问更多的问题时，它的问题就暴露出来了。当我们问到更困难的实验细节时，o1的回答变得不那么有效了。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

但总体来说，在物理方面，o1的表现还是不错的，相比老款，提升了20分左右。

然而，在 OpenAI 的测试中，物理得分最高。所以我们请北京大学材料化学专业的 K 博士出题，问了一些有关化学的难题，因为化学的得分最低。

K博士问了一系列关于Fe-N4的问题，o1给出了一长串的答案。为了节省篇幅，我们在这里只展示部分问题和结果。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

整体测试之后，K博士的评价也差不多：他可能有研究生的水平，但是对问题的深入理解和解决问题的能力比较模糊，主要根据已知内容回答问题。

比如问它Fe-N4怎么调，o1能告诉你是根据电子状态来调的，但如果你问它怎么调的话，它就有点卡了。

虽然比起gpt4o来说废话少了点，但都无法针对具体问题给出太多建议，老版本废话连篇，没有细节，新版本则因为功能有限而无话可说。

除了这两个之外，综合科学三门学科里肯定少不了生物学。

我们也咨询了清华大学生物专业的辛博士，他的问题是：“如何从质谱数据中区分赖氨酸残基的乳酸化和羧乙基化修饰？”

虽然没看懂，但是o1也给了很长的回答，就像论文综述一样，最后还附上了参考文献。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

但令人吃惊的是，当我们把这个答案交给辛博士后，他看完却发现不对劲，一看就是一个与丁真有关的问题。

并不是说AI的答案全都错了，而是AI在参考文献中编造了无稽之谈，而且这篇论文根本不存在！

虽然剪辑了，但剪辑得不是完全一样，总体来说，清华博士还是觉得比之前的AI好太多了，至少理解能力是肉眼可见的，剪辑也很像……

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

不过不同方向的博士学位评价是不一样的，这可能也和o1本身的专业领域有关。

从官方公布的科学成绩来看，虽然gpt4o的生物成绩比化学、物理要高，但这次的o1就完全不一样了。

o1的物理成绩达到了92.8，远高于其他两门科目，这或许也是崔博士看好它的原因。

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

总体来说，说到超越专业博士生的水平，博士生们认为还需要一定的时间。

崔博士直言，真正的科研，大部分情况下还是要学者们自己动手，AI只能提供一个大方向，花钱搞这么细致的AI没什么意义。

他建议本科生选择这个AI，如果是硕士、博士阶段，AI的答案肯定达不到导师的标准，在组会上肯定会受到批评。

清华大学的辛博士也持同样的观点。且不说AI的幻听、捏造文献的问题，单从专业性上讲，AI的答案也只能糊弄其主修同行，也就是同一专业学科不同方向的人；但在辅修同行，也就是专门从事该方向研究的人眼里，AI的问题还是很明显的。

北京大学的K博士则讲得更加深入，他认为AI在认知方面只能说拥有硕士生的水平，只是拼凑起来的，无法产生什么创造性的成果，在创造力方面，AI远远不如硕士生或者博士生的水平，这也是AI需要解决的重要问题。

在对医生的评价中，我们似乎能够抓住一个关键点：o1模型之所以相对更强，是因为它有更高维的认知和思维模式。

这也是o1这次更新的重点，我们在OpenAI官网找到了Learning to Reason with LLMs这篇文章，文中他们说主要用了长思维链（CoT）来代替传统的提示链。

乍一看可能有点让人困惑，但简单来说，这个大模型改变了以前你问我我答的思维方式。

在之前的模型中，大模型的问答就像是下意识的给出答案，比如你问我天空是什么颜色，我会不假思索的回答蓝色，这其实是要求我已经知道这个知识点，然后直接给你答案。

但这个漫长的思考链相当于我不仅需要知道什么是蓝色，还要考虑到大气散射和光谱波长，推断出为什么它是蓝色。

_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下

这就要求人工智能必须具备构建逻辑和推理、证明事物的能力。换句话说，它不仅需要有大脑，还需要使用大脑。

虽然思维链的概念早在2022年就由谷歌提出，但这次却是OpenAI率先将其实现。

在实际操作过程中，当你和o1模型对话的时候，除了得到答案之外，还可以选择展开，看看它在回答问题时的思维逻辑，它的思维是具体的，而不是黑箱的。

比如，我们以崔博士的问题“长距离纠缠光子分布中，有哪些方法可以克服白噪声？”为例，o1模型的思考过程如下：

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

不过，就像它无法解决专业领域的问题一样，日常场景中的一些简单问题似乎也能难倒它。

拿9.11、9.8的经典例子来说，小红书网友@小水刚醒发现这玩意“一增加难度就崩溃了……无限循环狂推Chain of Tales（CoT）”

OpenAI新模型达博士水平？我们找清北博士品鉴了一下__OpenAI新模型达博士水平？我们找清北博士品鉴了一下

我们编辑部自己评审的时候也发现了这个问题，但是问为什么的时候，马上就意识到自己的推理有误，然后重新推理。

好好好，你不愧是医生，很会找茬儿啊？

OpenAI新模型达博士水平？我们找清北博士品鉴了一下_OpenAI新模型达博士水平？我们找清北博士品鉴了一下_

经过整轮测试之后，我不得不承认它确实有了很大的改进。

从效果上来说，确实比上一代要好，而且长远的思考应用，对未来AI的发展是有益的。

但经过几位医生轮番鞭策，它的问题就显现出来了，在创造力等方面，它无法取代人类博士专家。

不过，OpenAI 研究员 Noam Brown 透露，o1 的未来版本将能够思考数小时、数天甚至数周。虽然这会花费更多金钱，但对于开发抗癌药物等任务而言，这是值得的。

另外我觉得GPT o1实现的思维链模型很有可能会引领全球大模型的方向，就像之前的Transformer架构、DiT架构一样。

所以，AGI之路并不近也不远，期待下一轮选手的登场。