查看: 177|回复: 1

自动调整推理链长度，SCoT来了，为激发推理能力研究还提出了一个新架构 [复制链接]

tayun

军衔等级：

少校

注册：2015-11-14 点赞数

5

发表于 2025-3-13 20:00:42 |显示全部楼层

不怕推理模型简单问题过度思考了，能动态调整CoT的新推理范式SCoT来了！

SCoT，即自结构化推理链（Self-structured Chain of Thought ）。

它通过将推理过程分解为最小语义原子步骤，能动态生成适配不同复杂度问题的CoT结构，解决了现有方法在推理多样性和效率上的不足。

另外，为了激发推理能力，研究人员还提出了AtomThink，这是一个包含数据构造、训练、推理和评估的全过程框架，用来提升多模态大模型在复杂推理任务上的表现。

实验中，SCoT使模型能根据问题复杂度自动调整推理链长度，复杂问题的推理步骤更长。

在多个数据集上，AtomThink框架显著提升了基线模型的准确率，数据利用效率和推理效率也表现出显著优势。

并且，原子能力评估揭示了多模态模型在不同推理能力上的分布特征，为理解多模态推理模式提供了新视角。

这项研究由来自中山大学、香港科技大学、上海交通大学、香港大学、HUAWEI诺亚方舟实验室的研究人员联合提出，以下是更多细节。

SCoT、AtomThink长啥样？

当前，结构化和非结构化CoT面临一定的挑战。

现有方法或依赖于固定模板的结构化推理，或采用自由形式的非结构化推理，存在如推理行为单一、需要人工设计模版、计算效率低下或在简单问题上过度思考的问题。

因此，团队提出两个假设：

不同类型的问题可能需要不同的推理能力；
推理的复杂性应与问题的难度相匹配。

为了为具有不同复杂性的问题动态生成适当的推理结构，团队引入了自结构化思维链（SCoT）和一个全过程训推框架AtomThink。

其中自结构化思维链（SCoT），即编辑提出将推理过程分解为最小语义单元——原子步骤，并通过多轮预测方法动态生成推理链。

模型每次仅预测一个原子步骤，并将其附加到历史推理步骤中，作为下一轮推理的输入。

为应对模型推理异常（如重复、停滞等），引入基于规则的过滤机制和温度累积策略，以增强推理的多样性和流畅性。

AtomThink框架则包含四个关键模块：

数据引擎：通过动态提示策略和短推理增强方法生成高质量多步推理路径，构建包含20k多模态数知识题和124k原子步骤标注的AMATH数据集。
原子步骤微调：采用步骤级掩码训练，迫使模型学习独立推理步骤。
策略引导的多轮推理：在过程监督模型的基础上，结合路径搜索和步骤搜索策略（如多数投票、最佳候选选择、贪婪算法和束搜索）扩展推理空间。
原子能力评估：基于推理行为聚类和步骤利用率计算，评估模型在不同推理能力上的表现。

实验结果如何？

研究团队选取不同规模的LLaVA1.5-7B和Llama3.2-Vision-11B作为基线模型，使用AMATH-SFT数据集进行微调，并在MathVista、MathVerse、MathVision和Humanity’s Last Exam基准数据集上进行评估。

实验设置包括直接推理、普通推理链（CoT）、自结构化推理链（SCoT）以及结合过程奖励模型（PRM）的SCoT推理。

在MathVista、MathVerse和MathVision数据集上，AtomThink框架显著提升了基线模型Llama3.2-Vision-11B的准确率，分别提高10.9%、10.2%和7.2%。

与现有结构化CoT方法相比，AtomThink在准确率、数据利用效率和推理效率上均表现出显著优势，在准确率超越LLaVA-CoT的条件下数据利用效率提升5倍，推理效率提升85.3%。

另外，与结构化方法相比，SCoT能够动态生成更多样化的推理结构，涵盖图像描述、数据提取、逻辑推理、因果推理等多种能力。

模型还能够根据问题复杂度自动调整推理链长度，复杂问题的推理步骤更长，表现出自适应的深度探索能力。

为了评估推理模型对于不同中间步骤的利用能力，团队提出了一个新颖的评估方式。

首先通过聚类GPT-4o的推理行为来生成原子步骤分布集合（包含16种行为），构建历史步骤后进行rollout来计算对最近步骤的利用效率。

通过原子能力评估发现模型存在推理误差累计现象，在CoT早期阶段（如数据提取和图像描述）开始继承推理的错误率较高，提示未来工作需关注推理初期的质量控制。

论文

https://arxiv.org/pdf/2503.06252

开源仓库

https://github.com/Quinn777/AtomThink

来源：36kr

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-3-14 05:42 , Processed in 0.160465 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册