首页 > 科技要闻 > 科技> 正文

32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理

新智元 整合编辑:太平洋科技 发布于:2025-03-16 20:59

用上DeepSeek核心算法,也能击败R1。

在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。

甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍!

「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。

它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。

对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试炼场」,提出了一个大胆的假设——

小模型在复杂推理任务中,能否逆袭,达到或超越顶尖LLM?

他们选用开源的Qwen模型(14B和32B),通过GRPO强化学习,对其进行了魔鬼式训练。

如前所见,这些小模型的推理性能,得到了显著提升。

但震撼远不止于此,团队还发现了一些奇怪的现象:Qwen 14B的推理长度随时间「随机」增加,而Qwen 32B的推理长度却在减少。

而且,这一切竟发生在奖励机制完全不涉及长度的情况下。

传统观念认为,只有参数量足够大的LLM,才能称霸推理任务。

但这个最新证明,即便是14B/32B小而精的模型,用上巧妙的优化策略——GRPO,同样能站上巅峰。

网友评论区追问,QWQ 32B也有效吗?

Kyle肯定道,那是一定的,它与Qwen 2.5 32B采用了同一个架构。

AI推理新战场:时间线索

去年,OpenAI推出划时代o系列推理模型以来,在AI界掀起了一场强化学习(RL)的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨头纷纷入局,打造出进行长链式思维(CoT)推理的高级模型。

许多以往具有挑战性的基准测试——如数学和编码领域——如今已接近饱和。

然而,即便是如今最顶尖模型,面对逻辑推理这块硬骨头,也常常会犯低级错误。

为此,OpenPipe两位联创决定挑战这个未解之谜——用RL微调后的小模型,去挑战复杂推理题。

基准测试

为此,研究人员基于桌游Clue,打造了一个新基准——时间线索,将其转化为一个单人逻辑谜题,超越了传统维度(who、what、where)。

这些谜题通过OR-Tools 的 CP-SAT 求解器随机生成,并挑选出最精简,却致命的线索:

在一个寒冷的冬夜,富有且神秘的John Q. Boddy先生为几位亲密伙伴举办了一场小型但奢华的晚宴。然而,夜晚以悲剧收场——清晨,Boddy先生被发现死在都铎庄园的某个房间内。以下为涉案嫌疑人名单…

把子有了之后,研究人员先对顶尖大模型进行了测试,包括DeepSeek-R1、o1、o3-mini,以及Claude Sonnet 3.7,以及开源的Qwen 14B和32B。

结果如下图所示,有64k token思考预算的Claude Sonnet 3.7,表现最优。

开源DeepSeek-R1几乎与o1、o3-mini性能相当。然而,未经调优的Qwen 2.5 Instruct模型表现平平。

那么,如何将这些较小的开源模型训练到前沿水平?

小模型逆袭秘诀:GRPO

答案就是,强化学习——允许智能体在受控环境中从自身经验中学习。

这里,LLM是智能体,而谜题则是环境。

研究人员通过让LLM为每个谜题生成多个响应来引导它们的学习,探索问题的空间。并且,强化那些导向正确答案的推理,并对导致模型偏离正确路径的推理进行惩罚。

在多种RL方法中,他们选择了由DeepSeek开发的流行的GRPO算法。与传统的PPO等方法相比,GRPO简化了训练过程,同时仍能提供强大的性能。

为了加速实验,团队省略了Kullback-Leibler(KL)散度惩罚。

从高层次来看,模型的训练循环遵循以下基本步骤:

生成模型对谜题任务的响应

对响应进行评分,并估计每组对话完成的优势(这是GRPO中「分组相对比较」的部分)

使用由这些优势估计指导的裁剪策略梯度对模型进行微调

使用新的谜题和最新版本的模型重复这些步骤,直到达到峰值性能

在生成响应时,研究人员使用了流行的vLLM推理引擎,通过调整了参数选择,以最大化吞吐量并最小化启动时间。

Prefix caching尤为重要,因为作者为每个任务采样了许多响应,缓存提示有助于避免冗余计算。

他们观察到,向vLLM发送过多请求,会导致正在进行中的请求被抢占或交换。

为了解决这个问题,他们使用信号量(semaphore)限制请求,以保持高KV缓存利用率,同时最小化交换。

更高级的调度机制可能会在支持灵活生成长度的同时,进一步提高利用率。

在采样后,研究人员使用标准的HuggingFace Transformers AutoTokenizer处理完成内容。

其聊天模板功能将消息对象渲染为提示字符串,并包含一个助手掩码(assistant mask),用于确定LLM生成的token。

他们发现模型的默认模板中,缺少必要的「% generation %」标签 ,因此在分词步骤中对其进行了修改。

生成的助手掩码被包含在用于微调的张量字典中,以识别哪些位置需要计算损失。

在分词响应并获取助手掩码后,研究人员对数据进行打包以进行微调。除了在每个打包序列中包含多个提示/响应对外,我们还识别了共享的提示token,并为每个token分配了一个Parent ID,以及Group ID。

特别是对于像「时间线索」这样的任务——每个谜题平均超过1,000个token——为每个任务生成大量响应并高效打包张量显著减少了冗余。

一旦打包了所有必要信息,便可以将训练数据集可视化为2D形式,每一行都是一个token序列,可能包含多个提示和完成内容:

有了紧密打包的数据后,就可以开始微调了。

Qwen模型已经经过了预训练和指令微调,具备相当的智能水平,并且擅长遵循指令。

然而,它们还无法可靠地解决「时间线索」谜题。尽管如此,它们偶尔也能成功,而这已经足够了。

通过增加良好推理的概率并减少「不良」推理的概率,研究人员逐步将模型引导至「侦探大师」级的水平。

他们使用标准的机器学习技术实现了这一点,采用策略梯度方法计算损失并有益地调整权重。

在训练过程中,他们使用了PyTorch团队提供的torchtune库。Torchtune为包括Llama、Gemma、Phi等流行模型提供了高效的仅解码器(decoder-only)Transformer实现。

虽然在这个项目中,他们主要使用了Qwen模型,但也对8B和70B的Llama模型进行了实验。

Torchtune还提供了节省内存和提升性能的工具,包括:

激活检查点(Activation Checkpointing)

激活卸载(Activation Offloading)

量化(Quantization)

参数高效微调(PEFT),例如低秩适应(LoRA)

此外,Torchtune支持多设备(以及现在的多节点)训练,使其非常适合更大的模型。它支持全分片数据并行(FSDP)和张量并行(TP)训练,并且可以结合使用。

他们还提供了十几种训练recipes,鼓励用户复制并根据自己的用例进行定制。研究人员在此创建了一个修改版的完整微调配方,支持以下功能:

多设备和单设备训练

参考模型加载和权重交换,用于计算KL散度

使用组ID和父ID进行高级因果掩码计算

GRPO损失集成和组件日志记录

未来,他们希望添加张量并行支持,并探索PEFT和量化。

RL训练过程涉及选择大量的超参数。在训练模型时,研究人员测试了各种配置,并最终确定了以下设置:

模型:Qwen 2.5 Instruct 14B和32B

每次迭代的任务数:32

每次迭代每个任务的样本数:50

每次迭代的总样本数:32*50=1600

学习率:6e-6

Micro-Batch大小:14B模型为4个序列,32B模型为8个序列

批大小:可变,取决于序列数量

批大小是可变的,因为在训练过程中响应长度可能会变化,序列打包效率每次迭代都会波动,并且优势为零的响应会被丢弃。

在一次实验中,研究人员尝试了动态调整学习率,使其与批大小成反比,但这导致小批大小的学习率过高,需要设置上限。

设置上限后的版本与使用恒定学习率没有显著差异,但调整批大小和学习率仍然是未来实验的一个有趣方向。

此外,研究人员还进行了简短的实验,增加每次迭代的任务数同时减少每个任务的样本数,反之亦然,保持每次迭代的总样本数大致相同。

在较短的训练时间内,这些变化没有显示出显著差异,表明配方对任务数和每个任务的样本数之间的不同平衡具有鲁棒性。

100次迭代,实现SOTA

结果显示,模型在经历超过100次迭代训练后,实现了SOTA级的演绎推理能力。

从下图中可以看到,模型的性能在训练初期迅速提升,并在之后逐渐放缓;然而到了末期,准确率却开始出现退化,甚至急剧下降。

在最佳状态下,14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能,而32B模型在更大的64k上下文容量下几乎匹配了Sonnet的结果。

训练过程中,性能提升遵循幂律分布,在对数-对数坐标图上呈现线性关系(在性能开始下降之前)。

研究人员推测,之所以出现这种现象,有可能是因为模型过早地收敛于初期就有效的贪婪策略,从而限制了长期的发展潜力。

此外,还可以观察到,输出的长度在训练期间也呈现出了一种有趣的变化模式。

刚开始的时候响应长度会逐步增加,然后趋于稳定;而在训练后期,则出现了明显的分化现象——14B模型的响应变得更长,而32B模型的响应长度显著减少,特别是在达到峰值性能后。

为了定性评估逻辑推理能力的提升,团队决定使用最新的Claude Sonnet 3.7来对Qwen 32B模型的解谜推理能力进行分析。

在未经训练的基础模型中,Sonnet识别出了6个推理结论,其中5个被判定为错误

在经过100多次迭代训练后的模型中,Sonnet识别出了7个推理结论,其中6个被判定为符合逻辑

接下来,团队根据Fireworks AI的无服务器定价方案估算了Qwen模型的成本。(假设能获得足够的计算吞吐量)

通过将准确率与每个响应平均推理成本的自然对数进行对比,团队发现,没有经过微调的模型存在着明显的线性帕累托最优前沿(表示在这条曲线上,无法同时提高准确率和降低成本)。

而团队提出的方法,不仅将开源模型训练到了SOTA级的准确率,而且还极大地改善了成本与准确率之间的权衡关系。

值得一提的是,团队还在最后为大家留了一个特别令人兴奋的发现——仅使用16个训练样例就能实现高达10-15%的显著性能提升。

这意味着,不需要大量数据即可开始,开发者只需对自己想解决的问题有一些基本的直觉认识即可。

在文章的最后,团队写道:

随着工作的圆满完成,我们彼此相视一笑,随即叫了一辆双轮马车返回贝克街——这里正是复盘「案情」的绝佳场所。

本文来源:新智元

新智元
璇勮 鐐硅禐0 +1 鏀惰棌+1

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部