查看: 358|回复: 2

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题 [复制链接]

see122

军衔等级：

四级军士长

注册：2007-10-29 点赞数

4

发表于 2024-12-19 11:59:25 |显示全部楼层

OpenAI最近奉上了满血版的o1 Pro，这一全新系列的模型究竟有多强？它能否指明AI发展的未来方向？沃顿商学院教授在3个月的前一篇博客就中给出了「神预言」一般的答案。

o1 preview问世3个月后，满血版的o1 Pro终于在上周以每月200美金的身价正式上线，奥特曼号称其为「当今世界上最智能的模型」。

所以，这个正式的o1 Pro究竟强大到了什么程度？

可以肯定的是，它远远不是一个走到AGI终点的灭霸，但这是scaling law之后的又一个里程碑吗？代表着未来LLM的发展方向吗？能像OpenAI研究院Jason Wei所说的，足以成为一个「传奇」吗？

就在o1 Pro发布的当口，沃顿商学院副教授、GenAI实验室联合主任Ethan Mollick提起了这篇自己3个月前写就的博客，可以说既是模型发布前的「神预言」，也是一盆有理有据、恰到好处的「冷水」。

Ethan Mollick表示，早在9月份大家第一次见到o1 preview时，他就写下了这篇博客文章，详解这个模型对当下和未来都意味着什么。模型的质量很重要，但更为重要的是，了解模型对人工智能未来的潜在意义。

下面，大家就把这篇文章当成时间传送门，将3个月前横空出世的o1 preview和处在性价比漩涡中的o1 Pro放在一起比较，或许可以给当下提供更多启发。

「草莓」大显身手

一段时间之前，我已经接触到了传闻沸沸扬扬的被称为「草莓」的增强版推理系统，现在OpenAI将其发布了，我也终于可以分享一些想法。

这个模型的确让人惊讶，但能力仍然有限，但最重要的是，它的出现指明了AI的发展方向。

新模型被称为o1-preview（此处Mollick狠狠吐槽OpenAI等一众AI企业在命名上非常糟糕），让AI在解决问题之前先「思考」一个问题，因此能够解决需要规划和迭代的困难问题。

根据这张大家都熟悉的基准结果图，o1-preview在数学和科学领域尤为强悍，对于极其困难的物理问题，甚至可以击败博士级别的人类专家。

但需要明确的是，o1-preview并不是在所有方面都有提升，比如在写作方面就没有比GPT-4o更强；但对于需要计划的任务来说，变化就相当大了。

由于很难评估所有这些复杂任务的输出，因此要展示「Strawberry」模型的提升（以及一些限制），也许最简单直观的方法就是游戏——比如填字游戏（crossword puzzle）。

不要小瞧了填字游戏，这是一个下限很低但上限也很高的项目，最难的填字游戏完全可以达到地狱模式，而且非常考验逻辑推理能力。

影片《模仿游戏》中就有这样的情节：二战期间，AI之父Alan Turing担任英国密码破译项目Enigma的负责人，为了招揽全国在数学和密码学方面的才俊，他就在报纸上登出了一个填字游戏作为报名测试，甚至最后一关的现场考核也是要求a在规定时间内做出填字游戏题。

影片《模仿游戏》剧照

由于o1 preview还无法从图片中读取文字，因此Mollick只能自己手动打出来喂给模型。如下图所示，这是一个相当具有挑战性的难题，而且，Mollick只挑选了18条线索中的8条提供给o1。

填字游戏对于LLM来说尤其困难，因为需要迭代解决：尝试并否决掉许多相互关联的答案——这是之前的大模型无法做到的，因为他们一次只能在答案中添加一个token/单词。

如下图所示，如果给Claude提供相应的线索，它首先给出序号1的答案（它猜测是STAR，但这个答案是错误的），然后在此基础上尝试解答其余部分。

然而，由于第一颗扣子就扣错了，Claude永远都无法接近正确答案。如果没有规划流程，它就只能向前冲，并不知道自己前进的方向是对是错。

Claude的尝试

但面对相同的问题时，「草莓」时会怎么做呢？

首先，它会开始「思考」，这个过程持续了整整108秒（但大多数问题都能在更短的时间内解决）。

而且，o1思考时并不是一声不吭，而是会「自言自语」，输出自己的「思维链」让你看到它的想法。下面是其中的一个示例（还有更多内容未展示出来），而且这些想法非常有启发性，值得你花点时间阅读。

在这个过程中，「草莓」反复迭代，不断创造想法并否决其中不可行的部分，结果做得很好，令人印象深刻。

但值得注意的是，o1-preview似乎仍然基于GPT-4o，而且有时对于语言的理解过于拘泥于字面意思。

比如，下图右侧中1 Down的答案是「Galaxy cluster」，这显然并不是指真正的星系，而是Samsung Galaxy手机——「APPS」。

AI并没有猜到这层意思，因此不断尝试各种星系团的名称，然而确定Down 1是COMA（是一个真实的星系团），可想而知，其余的结果也不正确。虽然不完全符合规则，但也相当有创意。

但公平来讲，Mollick本人也没有猜到这层意思。如果把「Down 1是APPS」这个线索提供给o1，可以看到模型又开始在接下来的1分钟内快速迭代想法（下图左侧），并正确推理出了Across 1的答案是「ACTS」。

这里是o1在一条线索的基础上给出的最终答案，完全正确，而且解决了硬引用，尽管它幻想出了一条不存在的新线索。相比之下，身为名牌大学副教授的Ethan Mollick甚至都没能接近这个正确答案。

至此大家可以发现，o1-preview做了一些没有Strawberry就不可能完成的事情，但它仍然不是完美无缺的：错误和幻觉仍然会发生，而且仍然受限于底层模型GPT-4o的「智能」的限制。

虽然Claude有很多优点，但相比之下，o1在复杂规划或解题方面远远胜出，代表了这些领域的巨大飞跃。

从协同智能到...

o1-preview意味着大家正面临人工智能范式的改变。「规划」是智能体的一种表现形式，人工智能可以在没有人类帮助的情况下自行得出结论并解决问题。

可以从上面的例子中看到，AI完成了太多繁重的思考工作，并产生了完整的结果，人类作为合作伙伴的角色反而被削弱了，整个过程的主体是AI完成了自己的工作并给出答案。

当然，大家可以筛选推理思维链的输出来发现AI犯了哪些错误，但Ethan Mollick的感觉是，他作为布置任务的人，和AI的输出内容之间没有什么联系，也没有在引导解决方案的走向上发挥重要作用。这不一定是坏事，但和之前不同。

随着这些系统不断升级并逐渐接近真正的自主智能体，大家需要弄清如何与其保持人类在保持同步——既能捕获错误，又要及时察觉到大家试图解决的问题。

o1-preview正在缓缓拉开帷幕，解锁大家尚未见到的AI能力，尽管它目前还存在局限性。这给大家留下了一个关键问题：随着AI的发展，大家如何进化人类与人工智能的合作？这是o1-preview目前还无法解决的问题。

参考资料：

https://x.com/emollick/status/1864857524840616345

来源：36kr

举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-25 15:02 , Processed in 0.181948 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册