推广 热搜: 三农  工业机器人  乙方  二手数控车床  上海进口报关公司  二手工程机械  二手挖掘机  二手反应釜  2022  二手机械进口报关 

OpenAI 发布全新模型 OepnAIo1,号称最强最一致,实力究竟如何?

   2024-09-16 网络整理佚名1750
核心提示:说实话,有点受不了这些公司,老是半夜丢个大的了……尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型。之前说什么草莓不草莓的

说实话,我受不了这些公司。他们总是在半夜丢掉大东西……

OpenAI 尤其被提及,因为它在没有任何预告的情况下发布了大家思考已久的新模型。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

之前我还在讨论这到底是不是草莓,但是一张草莓的照片让我们聊了好几天。

因此,这个新模型和Strawberry Hair没有任何关系,而是有一个全新的名字,OepnAIo1模型。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

而这个东西现在已经被称为openAI的Zenith技术了,而奥特曼直接发文说这是他们目前为止最强大、最一致的模型。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

与以往不同的是,OpenAI 这次并没有真正吹嘘这个东西有多牛逼,而只是抛出了几张足以让人头皮发麻的图片。

如下图所示,三个测试项目的结果可以说明这一点:国际数学奥林匹克、编程竞赛和博士级科学问题。

最左边的是 GPT-4o,中间的是目前可用的预览版 o1,右边那一排高高的红色柱子才是满血版的 o1。可以看到,几乎在各个方面,o1 都比前辈们优秀了近 8 倍……

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

如果我们分解这些测试结果,新的o1几乎在各个学科和领域都超过了4o。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

真正让我害怕的是,OpenAI 说它专门邀请了博士专家一起回答问题。

结果在博士级别的测试结果中,我们可以看到o1的答题分数全部超过了博士级专家,o1得分78,人类得分69.7……

连医生都输了,我又拿什么跟它相比呢?

敏感的网友顿时愤怒,开始高呼“新神出现了”。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

只要翻阅它,你就会发现带有“最佳”字样的极高评价,例如“绝对惊人!”和“最接近人类推理的东西”。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

甚至有不少朋友来到我们的后台说,“O1,你真是太棒了。”

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

这听起来不是很棒吗?OpenAI 显然也这么认为。

OpenAI 具体花了多少钱还没有公布,但是从用户的体验来看,这东西值多少钱是显而易见的。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

o1 预览版每百万输入 15 美元,每百万输出 60 美元

此次提供给用户的甚至不是完整版,而是一个早期预览版和一个小型阉割版。

即使你只是想先试用一下,它也不是免费的。即使你付费成为会员,你的问答次数也会受到限制。预览版每周只有 30 个问题,迷你版每周只有 50 个问题……

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

虽然有点贵,但我们当然不能让 OpenAI 夸耀这一点。

不是说比 PhD 好吗?我建了几个账号,自己去找了几个 PhD 来测试一下。

为了保证专业性和客观性,我们特别邀请了生物学、固体物理学、材料化学等三个综合理科学科的博士参与评测。

其中,南京大学固体物理专业崔博士给予了最高评价,他觉得O1已经达到了60到80分(满分100分)的水平。

甚至有的答案可以给90分。

崔博士提出的第一个问题是:在长距离分发纠缠光子时,有没有办法克服白噪声?

大概9秒的时间,o1给出了10条可行的措施。

当然,我完全没听懂,但崔博士的评价还行:解答的很全面,符合最新的研究进展,属于科普水平。

其中提到的自适应光学方向更是今年最新的科学成果。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

与旧版4o相比,差异立刻就显现出来。

且不论是否提到新方向,单是给出的措施数量就有很大差别。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

所以后来我们专门针对自适应光学这个新方向问了:利用量子纠缠的什么原理来提高信噪比?能不能推广到量子自适应光学?

经过几轮解答,崔博士给了我80至90分的高分,并大方地向我承认他的一些思路是他的弱点,有助于提示他的方向。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

然而,当我们问更多的问题时,它的问题就暴露出来了。当我们问到更困难的实验细节时,o1的回答变得不那么有效了。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

但总体来说,在物理方面,o1的表现还是不错的,相比老款,提升了20分左右。

然而,在 OpenAI 的测试中,物理得分最高。所以我们请北京大学材料化学专业的 K 博士出题,问了一些有关化学的难题,因为化学的得分最低。

K博士问了一系列关于Fe-N4的问题,o1给出了一长串的答案。为了节省篇幅,我们在这里只展示部分问题和结果。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

整体测试之后,K博士的评价也差不多:他可能有研究生的水平,但是对问题的深入理解和解决问题的能力比较模糊,主要根据已知内容回答问题。

比如问它Fe-N4怎么调,o1能告诉你是根据电子状态来调的,但如果你问它怎么调的话,它就有点卡了。

虽然比起gpt4o来说废话少了点,但都无法针对具体问题给出太多建议,老版本废话连篇,没有细节,新版本则因为功能有限而无话可说。

除了这两个之外,综合科学三门学科里肯定少不了生物学。

我们也咨询了清华大学生物专业的辛博士,他的问题是:“如何从质谱数据中区分赖氨酸残基的乳酸化和羧乙基化修饰?”

虽然没看懂,但是o1也给了很长的回答,就像论文综述一样,最后还附上了参考文献。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

但令人吃惊的是,当我们把这个答案交给辛博士后,他看完却发现不对劲,一看就是一个与丁真有关的问题。

并不是说AI的答案全都错了,而是AI在参考文献中编造了无稽之谈,而且这篇论文根本不存在!

虽然剪辑了,但剪辑得不是完全一样,总体来说,清华博士还是觉得比之前的AI好太多了,至少理解能力是肉眼可见的,剪辑也很像……

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

不过不同方向的博士学位评价是不一样的,这可能也和o1本身的专业领域有关。

从官方公布的科学成绩来看,虽然gpt4o的生物成绩比化学、物理要高,但这次的o1就完全不一样了。

o1的物理成绩达到了92.8,远高于其他两门科目,这或许也是崔博士看好它的原因。

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

总体来说,说到超越专业博士生的水平,博士生们认为还需要一定的时间。

崔博士直言,真正的科研,大部分情况下还是要学者们自己动手,AI只能提供一个大方向,花钱搞这么细致的AI没什么意义。

他建议本科生选择这个AI,如果是硕士、博士阶段,AI的答案肯定达不到导师的标准,在组会上肯定会受到批评。

清华大学的辛博士也持同样的观点。且不说AI的幻听、捏造文献的问题,单从专业性上讲,AI的答案也只能糊弄其主修同行,也就是同一专业学科不同方向的人;但在辅修同行,也就是专门从事该方向研究的人眼里,AI的问题还是很明显的。

北京大学的K博士则讲得更加深入,他认为AI在认知方面只能说拥有硕士生的水平,只是拼凑起来的,无法产生什么创造性的成果,在创造力方面,AI远远不如硕士生或者博士生的水平,这也是AI需要解决的重要问题。

在对医生的评价中,我们似乎能够抓住一个关键点:o1模型之所以相对更强,是因为它有更高维的认知和思维模式。

这也是o1这次更新的重点,我们在OpenAI官网找到了Learning to Reason with LLMs这篇文章,文中他们说主要用了长思维链(CoT)来代替传统的提示链。

乍一看可能有点让人困惑,但简单来说,这个大模型改变了以前你问我我答的思维方式。

在之前的模型中,大模型的问答就像是下意识的给出答案,比如你问我天空是什么颜色,我会不假思索的回答蓝色,这其实是要求我已经知道这个知识点,然后直接给你答案。

但这个漫长的思考链相当于我不仅需要知道什么是蓝色,还要考虑到大气散射和光谱波长,推断出为什么它是蓝色。

_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下

这就要求人工智能必须具备构建逻辑和推理、证明事物的能力。换句话说,它不仅需要有大脑,还需要使用大脑。

虽然思维链的概念早在2022年就由谷歌提出,但这次却是OpenAI率先将其实现。

在实际操作过程中,当你和o1模型对话的时候,除了得到答案之外,还可以选择展开,看看它在回答问题时的思维逻辑,它的思维是具体的,而不是黑箱的。

比如,我们以崔博士的问题“长距离纠缠光子分布中,有哪些方法可以克服白噪声?”为例,o1模型的思考过程如下:

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

不过,就像它无法解决专业领域的问题一样,日常场景中的一些简单问题似乎也能难倒它。

拿9.11、9.8的经典例子来说,小红书网友@小水刚醒发现这玩意“一增加难度就崩溃了……无限循环狂推Chain of Tales(CoT)”

OpenAI新模型达博士水平?我们找清北博士品鉴了一下__OpenAI新模型达博士水平?我们找清北博士品鉴了一下

我们编辑部自己评审的时候也发现了这个问题,但是问为什么的时候,马上就意识到自己的推理有误,然后重新推理。

好好好,你不愧是医生,很会找茬儿啊?

OpenAI新模型达博士水平?我们找清北博士品鉴了一下_OpenAI新模型达博士水平?我们找清北博士品鉴了一下_

经过整轮测试之后,我不得不承认它确实有了很大的改进。

从效果上来说,确实比上一代要好,而且长远的思考应用,对未来AI的发展是有益的。

但经过几位医生轮番鞭策,它的问题就显现出来了,在创造力等方面,它无法取代人类博士专家。

不过,OpenAI 研究员 Noam Brown 透露,o1 的未来版本将能够思考数小时、数天甚至数周。虽然这会花费更多金钱,但对于开发抗癌药物等任务而言,这是值得的。

另外我觉得GPT o1实现的思维链模型很有可能会引领全球大模型的方向,就像之前的Transformer架构、DiT架构一样。

所以,AGI之路并不近也不远,期待下一轮选手的登场。

 
举报 收藏 打赏 评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-48
Powered By DESTOON