只需一步,快速开始
短信验证,便捷登录
军衔等级:
上尉
1 问题定义:给定输入提示词x和目标长度n_goal,生成一个长度n_y尽可能接近且答案正确的响应y。目标是最小化 |n_goal-n_y|的同时确保输出正确。 2 提示词增强(Prompt Augmentation):在每个提示词中增加目标长度指令: 3 强化学习(Reinforcement Learning):通过奖励函数进行优化,在准确性和长度匹配之间保持平衡: 其中, α用于平衡答案正确性和长度匹配的权重。
(1)逐步惩罚超过目标长度的输出,而不是直接硬性截断(这在GRPO目标中需要保证梯度传播); (2)鼓励模型在不牺牲正确性的情况下,尽量少用token。
举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2025-3-13 17:32 , Processed in 0.240032 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed