C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  四级军士长

注册:2010-4-285
发表于 2024-12-24 16:06:55 |显示全部楼层

亚星游戏官网-yaxin222


【导读】OpenAI o3的智商,竟然已经高达157,碾压99%的人类?这张OpenAI模型智商图全网疯转。甚至有人大胆预测:达到陶哲轩智商(225-230)的大模型,应该会很快出现了。

o3智商竟有157,堪比爱因斯坦?

今天,一张OpenAI模型智商图,在全网传遍了。

亚星游戏官网-yaxin222


基于编程竞赛Codeforces排名评分


图中清晰可见,能够达到o3智商水平的人类大约占比仅有0.0075%。

13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。

亚星游戏官网-yaxin222


从GPT-4o、到o1系,再到o3系,模型IQ逐渐递增,也仅用了1年时间,实现了质的飞跃。即便是最强o1 pro(IQ为139),o3完全领先近20分。

亚星游戏官网-yaxin222


有网友表示,用不了多久,大家口袋里就会拥有一个IQ 157的智能。

亚星游戏官网-yaxin222


还有人称,陶哲轩智商大约在225-230之间,未来模型很快就能达到这个水平。

亚星游戏官网-yaxin222


o3超高智商背后

o3发布之后,很多人都认为AGI实现了。

从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。

过去五年,OpenAI模型在ARC-AGI上的得分,也说明了一切。

亚星游戏官网-yaxin222


OpenAI研究员Nat McAleese在o3发布当天,分享了一些关于模型的先容。

他表示,o3代表着通过强化学习在通用领域的巨大进步。

o1是首个大规模推理模型,也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上,进一步scaling强化学习而开发的。

亚星游戏官网-yaxin222


大家已经看到,o3在世界上最具竞争的编程基准CodeForces中得分超2700,完全达到了国际大师的水平。

亚星游戏官网-yaxin222


与此同时,o3在数学基准FrontierMath惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

亚星游戏官网-yaxin222


在Keras之父Franois Chollet转写的报告中,也说明了o3与以往旧模型之间的区别:
o3的核心创新点在于,实现了token空间内自研语言程序搜索和实行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。
亚星游戏官网-yaxin222


而且,他表示,这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。

本质上,o3是一种深度学习引导的程序搜索形式。

不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,大家还有很长的路要走。

亚星游戏官网-yaxin222


o3 ARC-AGI测试被曝「作弊」?

而且就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。

要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对AI来说却很难的题目。

根据OpenAI的说法,在ARC-AGI这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。

而人类在该任务上的表现通常在85%的水平,也就是说,o3在高计算模式下,已经超越了人类。

亚星游戏官网-yaxin222


这个结果,引起了多人的质疑:OpenAI不会专门针对这个任务做过训练吧?

要知道,在直播的第12天,奥特曼专门强调过,「并未对模型做过特殊处理」。

亚星游戏官网-yaxin222


对此,心细的网友们纷纷展开调查。

比如这位名为Knight Lee的网友,就表示o3在ARC-AGI上的分数是经过微调的,而之前的AI分数并没有被微调。

他表示,o3的一个主要优势,就是接受过示例测试问题的明确训练而已。

之所以有这样的观点,是他引用了ARC-AGI设计师Franois Chollet的说法——
OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。大家尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。
亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


这个这个说法为真,那o3所取得的分数,显然占了很大便宜。

OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。

不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。

亚星游戏官网-yaxin222


o4才是Orion?

而且,在o3之后,或许还会有IQ更强的模型现身。

Information独家爆料称,o3并不是代号为Orion的模型。相对的,Orion可能会作为o4的基础模型。

但华尔街日报在此前的报道中表示,Orion是GPT-5……

亚星游戏官网-yaxin222


OpenAI研究员Jason Wei称,从o1到o3仅用了3个月的时间,这表明在新范式下,进展远快于预训练范式每1-2年更新一次模型的速度。

亚星游戏官网-yaxin222


推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。

也正因此,o3推理代价是高昂的。ARC-AGI基准测试报告中,已经披露了o3在每个高计算任务中的成本会超过1000美金。

这也充分说明了,OpenAI博士级AI助手能达到每月2000美金的原因。

另一位OpenAI研究员John Hallman对此表示,当Sam和大家研究人员说AGI即将到来时,大家不是为了给你画大饼,不是为了推2000美金的订阅,也不是为了诱骗你投资大家的下一轮融资。它真的要来了。

亚星游戏官网-yaxin222


目前,不清楚的是,o3对普通ChatGPT用户能带来多大帮助。

o3可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。

而对于普通用户而言,新模型可能有点「大材小用」。

虽然o3表现出色,其他科技巨头也不甘示弱。

GOOGLE强势推出了Gemini 2.0 Flash、视频模型Veo 2,以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。

一些对价格敏感的开发者,纷纷转向了GOOGLEFlash模型。

可以看出,推理模型仍将继续超进化迭代,2025年也将会如今年一样令人兴奋。

参考资料:

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi


来源:36kr

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-12-25 14:30 , Processed in 0.218586 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图