C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  上尉

注册:2015-11-144
发表于 2025-2-10 10:42:06 |显示全部楼层

亚星游戏官网-yaxin222


新智元报道

编辑:KingHZ Aeneas

【新智元导读】最近某个华人团队发现:类似DeepSeek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为强化学习,而不是所谓的「顿悟」。

最近,「啊哈时刻」(Aha moment)这个词在AI圈流行起来了!

并不是凤凰传奇的风刮到了AI圈,更不是AI大佬开始跟曾毅学rap了。

这里的「Aha moment」指的是AI模型的「顿悟时刻」:在那一刻AI仿佛打通了「任督二脉」,可以像人类一样自我反思。

简而言之,「啊哈时刻」(Aha  moment)就是模型「灵机一动」,让人眼前一亮的时刻。

DeepSeek-R1论文中,提到模型让编辑「见证了强化学习的力量和美感」。

亚星游戏官网-yaxin222


在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思

比如,开源项目SimpleRL-Zero,只使用基于规则的奖励,去提升模型的推理能力。

几乎与DeepSeek-R1中使用的方案一样,唯一的区别是目前代码使用的是PPO,而不是GRPO。

亚星游戏官网-yaxin222


项目链接:https://github.com/hkust-nlp/simpleRL-reason

但是!新发现可能给这场全球的热潮浇了一盆冷水。

来自Sea AI Lab&NUS的研究人员刘梓辰(Zichen Liu),在X上公布了最新的研究,表示:

在R1-Zero-like训练中, 也许没有顿悟时刻。 最近,关于R1-Zero-like训练的普遍看法是,自我反思作为RL训练的结果,涌现而出。仔细研究之后,表明情况完全相反。
亚星游戏官网-yaxin222


突然反转:并没有顿悟

在R1-Zero发布后的几天内,在较小规模(例如1B到7B)上,多个独立项目「复现」了类似R1-Zero的训练。

而且大家都观察到了「顿悟时刻」。此外,「顿悟」一般都伴随着响应长度的增加。

这次新研究揭示:AI或许从未「顿悟」,模型响应长度的突然增加也不是因为「顿悟」。

具体而言,新研究有3点重要发现:

<ol>
  • 顿悟时刻(例如自我反思模式)出现在第0轮,也就是基础模型阶段,根本用不着RL训练。
  • 在基础模型的响应中,发现了浅度自我反思现象(Superficial Self-Reflection,SSR),但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思,提升模型效果。
  • 响应长度增加的现象并不是由于自我反思,而是强化学习精心优化奖励函数所导致的结果。

    </ol>
    亚星游戏官网-yaxin222


    无需训练,也可顿悟?

    啊哈时刻出现在Epoch 0

    研究者测试了各家机构的多种基础模型,包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。

    当R1-zero和SimpleRl-Zero还在辛苦训练时,新研究揭示不必如此大费周折。

    使用它们的提示,就能激活基础模型「自我反思」!

    研究者使用了在R1-Zero和SimpleRL-Zero中应用的模板,来提示这些基础模型:

    亚星游戏官网-yaxin222


    研究者从MATH训练数据集中收集了500个问题,均匀覆盖了五个难度级别和所有科目。

    在生成参数上,研究者对探索参数(温度)在0.1到1.0之间进行网格搜索,用于在选定问题上的模型推理。所有实验的Top P都设置为0.9。每个问题生成8个回复。

    研究者首先尝试了所有模型和提示模板(模板1或2)的所有组合,然后根据每个模型的指令跟随能力选择最佳模板,并将其固定用于所有实验。

    然后,出人意料的结果出现了!

    研究者发现,在Epoch 0阶段,就已经出现了啊哈时刻。除Llama-3.x系列外,所有模型还未经任何训练,就已经表现出了自我反思模式。

    亚星游戏官网-yaxin222


    并且出现了以下「自我反思」关键词:

    check again,re-evaluate,re-example, recheck, reevaluate, re-evaluatation, rethink, think again, try again
    从定性角度看,研究者在下表中列出了所有暗示模型自我反思模式的关键词。

    他们猜测,不同模型展示出了与自我反思相关的不同关键词,可能和预训练数据有关。

    亚星游戏官网-yaxin222


    可以看到,不同的AI模型有不同的「个性」:有些模型比DeepSeek-Math-7b更喜欢用「反思」(rethink)。

    图1a显示了在不同基础模型中引发自我反思行为的问题数量。

    结果表明,自我反思在不同温度下可以观察到,并且在较高温度下,epoch 0 处的顿悟时刻会更频繁地出现。

    亚星游戏官网-yaxin222


    图1b显示了不同自我反思关键词的出现次数。

    可以观察到,来自 Qwen2.5系列的基础模型在生成自我反思行为方面最为活跃,这在一定程度上反映出:大多数开放的R1-Zero复现版本都是基于 Qwen2.5模型。

    不同模型的自我反思关键词统计如下:

    亚星游戏官网-yaxin222


    当发现顿悟时刻确实在Epoch 0出现、没有经过任何训练时,研究者想知道:它真的是按照他们的预期,通过自我反思来纠正错误推理的吗?

    因此,他们直接就在Qwen2.5-Math-7B基础模型上,测试了SimpleRL-Zero博客中示例问题。

    令人惊讶的是,它在没有任何训练的情况下,就能通过自我修正思维链(CoT),直接解决在SimpleRL-Zero中报告的示例问题了!

    亚星游戏官网-yaxin222


    SimpleRL-Zero中报告的示例问题

    浅度自我反思,可以进阶

    不过尽管基础模型表现出了通过自我纠正的CoT解决复杂推理的巨大潜力,但并非所有它们的自我反思都是有效的。

    其中有很多并没有最终导致正确答案,研究者将之称为浅度自我反思(Superficial Self-Reflection,SSR)。

    亚星游戏官网-yaxin222
    定义:浅度自我反思(SSR)指的是模型在回答中进行重新评估的模式,但这种反思缺乏建设性的修正或改进。SSRs不一定会比没有自我反思的回答提供更优质的答案


    Qwen-2.5-Math-7B基础模型的四种自我反思模式

    为了识别SSR,研究者进行了案例研究。

    他们观察到, Qwen2.5-Math-7B基础模型响应中存在四种自我反思模式:

    行为1:双重检查和确认正确答案的自我反思

    亚星游戏官网-yaxin222


    行为2:纠正最初错误想法的自我反思

    亚星游戏官网-yaxin222


    行为3:将错误引入原本正确答案的自我反思

    亚星游戏官网-yaxin222


    行为4:无法产生有效答案的重复自我反思

    亚星游戏官网-yaxin222


    其中行为3和行为4就属于浅层自我反思,最终导致了错误答案。

    基础模型很容易产生SSR

    接下来,研究者分析了Qwen2.5-Math-1.5B正确和错误答案中,自我反思关键词出现的情况。

    正如下图所示,在不同采样温度下,大多数自我反思(以频率衡量)并未导致正确答案。

    这也就表明,基础模型很容易出现浅层自我反思。

    亚星游戏官网-yaxin222


    深入了解R1-Zero-like训练

    虽然模型突然响应长度增加,被视为R1-Zero-like中的啊哈时刻。但如上所述,这种顿悟在没有RL训练的情况下也可能发生。

    所以,究竟为什么模型响应长度会遵循一种特殊模式——在早期训练阶段下降,然后在某个点激增?

    为此,研究者通过两种方法研究立即R1-Zero-like训练:(1) 在倒计时任务中对 R1-Zero的玩具级再现,以分析输出长度动态;(2) 在数知识题中对R1-Zero的再现,以研究输出长度与自我反思之间的关系。

    长度变化是强化学习动态的一部分。

    可以猜测:或许通过设计适当的奖励,强化学习(RL)能将浅度自我反思转化为有效自我反思?

    研究团队进一步深入研究了R1-Zero-like训练中的强化学习动态。

    他们使用支撑R1-Zero-like训练的OAT,利用GRPO在倒计时任务上对Qwen-2.5-3B基础模型进行RL调优。

    在这个任务中,模型被给定三到四个数字,并要求通过加、减、乘、除等算法操作,构造出一个等式使其结果等于目标值。

    这个过程中,就不可避免地需要模型多次尝试不同的方案,因此需要自我反思行为。

    图5右侧展示了RL训练过程中的奖励和响应长度动态。

    亚星游戏官网-yaxin222


    与TinyZero和SimpleRL-Zero类似,可以观察到奖励持续增加,而响应长度则先减少后激增,这与现有研究中的「顿悟时刻」一致。

    然而,研究者也注意到,基础模型的响应中已经存在一定的重试模式,但其中许多是浅层的,因此奖励较低。

    最后发现,模型响应长度的变化主要是取决于基于规则的奖励,开始鼓励格式化(图5左侧中的紫色部分),然后转向正确性(图5左侧中的蓝色部分),这验证了最初的猜测。

    长度和自我反思可能并不相关

    此外,研究者还发现:响应长度可能并不是自我反思的良好指标,这是因为在R1-Zero-like训练过程中,响应长度与自我反思似乎没有关联。

    按照SimpleRL-Zero的设置,编辑使用8K个MATH提示训练Qwen2.5-Math-1.5B。

    在训练开始时,观察到输出长度下降;直到大约1700个梯度步之后,长度开始增加(见下图左)。

    然而,所有自我反思关键词的总数并未与输出长度呈单调关系,见下图右。

    亚星游戏官网-yaxin222


    以上内容,基于论文共同一作刘梓辰在X的分享。更多精彩内容,可以研读下列文章。

    亚星游戏官网-yaxin222


    原文链接:https://oatllm.notion.site/oat-zero

    请注意:目前,整个训练过程仍在进行中(与SimpleRL-Zero中的48个训练步骤进度相当)。训练完成后,编辑将进行更详细的分析。

    给RL训练的重重一击?

    正如文章所言,目前并没有完全跑完实验。

    到底R1-Zero-like的训练能不能给AI带来「顿悟时刻」,并不是100%肯定。

    正如原文分享的内容,即便不存在「顿悟时刻」,强化学习对AI模型的性能乃至使用体验都有至关重要的影响。

    更加重要的是,如果能引起对R1-Zero类似训练的深入研究,特别是强化学习动态,这不正是抛砖引玉吗?

    比「顿悟时刻」这个名词更重要的,是DeepSeek的实际影响。

    即便真的不存在所谓的「顿悟时刻」,但DeepSeek已让国人眼前一亮:因为流量太大,他们甚至停止了API充值。

    编辑先容

    亚星游戏官网-yaxin222


    共同一作刘梓辰,是Sea AI Lab的研究工程师,也是新加坡国立大学的计算机科学博士生。他在新加坡国立大学获得了电子工程学士学位。

    亚星游戏官网-yaxin222


    共同一作Changyu Chen,是新加坡管理大学(SMU)计算机科学专业的博士生。在此之前,在南洋理工大学获得了系统与项目管理硕士学位,并在浙江大学获得了土木工程学士学位。他是Sea AI Lab的研究实习生。研究兴趣在于生成建模和自主决策的交叉领域。

    亚星游戏官网-yaxin222


    共同一作Wenjun Li,是新加坡管理大学计算机科学专业的博士生。之前,他在南加州大学维特比工程学院完成了电子工程学硕士学位。研究重点是强化学习(RL)。

    参考资料:

    https://oatllm.notion.site/oat-zero


    来源:网易

  • 举报本楼

    本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
    您需要登录后才可以回帖 登录 | 注册 |

    版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

    GMT+8, 2025-2-23 17:57 , Processed in 0.279955 second(s), 16 queries , Gzip On.

    Copyright © 1999-2023 C114 All Rights Reserved

    Discuz Licensed

    回顶部
    XML 地图 | Sitemap 地图