太平洋科技要闻

首页 > 科技要闻 > 科技> 正文

32B击败DeepSeek-R1、o3-mini，成本暴降100倍！GRPO让小模型称霸推理

新智元整合编辑：太平洋科技发布于：2025-03-16 20:59

用上DeepSeek核心算法，也能击败R1。

在具有挑战性的「时间线索」（Temporal Clue）逻辑谜题中，基于强化学习微调后的Qwen 2.5 32B，推理能力完全碾压o1、o3-mini、R1。

甚至，它还追平了Claude 3.7 Sonnet，整个模型推理成本暴降100多倍！

「时间线索」逻辑谜题脱胎于经典桌游Clue，并加入了when、why的两个全新维度，堪称逻辑推理的「珠穆朗玛峰」。

它不仅能考验模型基本推理能力，更爆料顶级大模型软肋。

对此，前谷歌工程师，初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试炼场」，提出了一个大胆的假设——

小模型在复杂推理任务中，能否逆袭，达到或超越顶尖LLM？

他们选用开源的Qwen模型（14B和32B），通过GRPO强化学习，对其进行了魔鬼式训练。

如前所见，这些小模型的推理性能，得到了显著提升。

但震撼远不止于此，团队还发现了一些奇怪的现象：Qwen 14B的推理长度随时间「随机」增加，而Qwen 32B的推理长度却在减少。

而且，这一切竟发生在奖励机制完全不涉及长度的情况下。

传统观念认为，只有参数量足够大的LLM，才能称霸推理任务。

但这个最新证明，即便是14B/32B小而精的模型，用上巧妙的优化策略——GRPO，同样能站上巅峰。

网友评论区追问，QWQ 32B也有效吗？

Kyle肯定道，那是一定的，它与Qwen 2.5 32B采用了同一个架构。

AI推理新战场：时间线索

去年，OpenAI推出划时代o系列推理模型以来，在AI界掀起了一场强化学习（RL）的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨头纷纷入局，打造出进行长链式思维（CoT）推理的高级模型。

许多以往具有挑战性的基准测试——如数学和编码领域——如今已接近饱和。

然而，即便是如今最顶尖模型，面对逻辑推理这块硬骨头，也常常会犯低级错误。

为此，OpenPipe两位联创决定挑战这个未解之谜——用RL微调后的小模型，去挑战复杂推理题。

基准测试

为此，研究人员基于桌游Clue，打造了一个新基准——时间线索，将其转化为一个单人逻辑谜题，超越了传统维度（who、what、where）。

这些谜题通过OR-Tools 的 CP-SAT 求解器随机生成，并挑选出最精简，却致命的线索：

在一个寒冷的冬夜，富有且神秘的John Q. Boddy先生为几位亲密伙伴举办了一场小型但奢华的晚宴。然而，夜晚以悲剧收场——清晨，Boddy先生被发现死在都铎庄园的某个房间内。以下为涉案嫌疑人名单…

把子有了之后，研究人员先对顶尖大模型进行了测试，包括DeepSeek-R1、o1、o3-mini，以及Claude Sonnet 3.7，以及开源的Qwen 14B和32B。

结果如下图所示，有64k token思考预算的Claude Sonnet 3.7，表现最优。

开源DeepSeek-R1几乎与o1、o3-mini性能相当。然而，未经调优的Qwen 2.5 Instruct模型表现平平。

那么，如何将这些较小的开源模型训练到前沿水平？

小模型逆袭秘诀：GRPO

答案就是，强化学习——允许智能体在受控环境中从自身经验中学习。

这里，LLM是智能体，而谜题则是环境。

研究人员通过让LLM为每个谜题生成多个响应来引导它们的学习，探索问题的空间。并且，强化那些导向正确答案的推理，并对导致模型偏离正确路径的推理进行惩罚。

在多种RL方法中，他们选择了由DeepSeek开发的流行的GRPO算法。与传统的PPO等方法相比，GRPO简化了训练过程，同时仍能提供强大的性能。

为了加速实验，团队省略了Kullback-Leibler（KL）散度惩罚。

从高层次来看，模型的训练循环遵循以下基本步骤：

生成模型对谜题任务的响应

对响应进行评分，并估计每组对话完成的优势（这是GRPO中「分组相对比较」的部分）

使用由这些优势估计指导的裁剪策略梯度对模型进行微调

使用新的谜题和最新版本的模型重复这些步骤，直到达到峰值性能

在生成响应时，研究人员使用了流行的vLLM推理引擎，通过调整了参数选择，以最大化吞吐量并最小化启动时间。

Prefix caching尤为重要，因为作者为每个任务采样了许多响应，缓存提示有助于避免冗余计算。

他们观察到，向vLLM发送过多请求，会导致正在进行中的请求被抢占或交换。

为了解决这个问题，他们使用信号量（semaphore）限制请求，以保持高KV缓存利用率，同时最小化交换。

更高级的调度机制可能会在支持灵活生成长度的同时，进一步提高利用率。

在采样后，研究人员使用标准的HuggingFace Transformers AutoTokenizer处理完成内容。

其聊天模板功能将消息对象渲染为提示字符串，并包含一个助手掩码（assistant mask），用于确定LLM生成的token。

他们发现模型的默认模板中，缺少必要的「% generation %」标签，因此在分词步骤中对其进行了修改。

生成的助手掩码被包含在用于微调的张量字典中，以识别哪些位置需要计算损失。

在分词响应并获取助手掩码后，研究人员对数据进行打包以进行微调。除了在每个打包序列中包含多个提示/响应对外，我们还识别了共享的提示token，并为每个token分配了一个Parent ID，以及Group ID。

特别是对于像「时间线索」这样的任务——每个谜题平均超过1,000个token——为每个任务生成大量响应并高效打包张量显著减少了冗余。

一旦打包了所有必要信息，便可以将训练数据集可视化为2D形式，每一行都是一个token序列，可能包含多个提示和完成内容：

有了紧密打包的数据后，就可以开始微调了。

Qwen模型已经经过了预训练和指令微调，具备相当的智能水平，并且擅长遵循指令。

然而，它们还无法可靠地解决「时间线索」谜题。尽管如此，它们偶尔也能成功，而这已经足够了。

通过增加良好推理的概率并减少「不良」推理的概率，研究人员逐步将模型引导至「侦探大师」级的水平。

他们使用标准的机器学习技术实现了这一点，采用策略梯度方法计算损失并有益地调整权重。

在训练过程中，他们使用了PyTorch团队提供的torchtune库。Torchtune为包括Llama、Gemma、Phi等流行模型提供了高效的仅解码器（decoder-only）Transformer实现。

虽然在这个项目中，他们主要使用了Qwen模型，但也对8B和70B的Llama模型进行了实验。

Torchtune还提供了节省内存和提升性能的工具，包括：

激活检查点（Activation Checkpointing）

激活卸载（Activation Offloading）

量化（Quantization）

参数高效微调（PEFT），例如低秩适应（LoRA）

此外，Torchtune支持多设备（以及现在的多节点）训练，使其非常适合更大的模型。它支持全分片数据并行（FSDP）和张量并行（TP）训练，并且可以结合使用。

他们还提供了十几种训练recipes，鼓励用户复制并根据自己的用例进行定制。研究人员在此创建了一个修改版的完整微调配方，支持以下功能：

多设备和单设备训练

参考模型加载和权重交换，用于计算KL散度

使用组ID和父ID进行高级因果掩码计算

GRPO损失集成和组件日志记录

未来，他们希望添加张量并行支持，并探索PEFT和量化。

RL训练过程涉及选择大量的超参数。在训练模型时，研究人员测试了各种配置，并最终确定了以下设置：

模型：Qwen 2.5 Instruct 14B和32B

每次迭代的任务数：32

每次迭代每个任务的样本数：50

每次迭代的总样本数：32*50=1600

学习率：6e-6

Micro-Batch大小：14B模型为4个序列，32B模型为8个序列

批大小：可变，取决于序列数量

批大小是可变的，因为在训练过程中响应长度可能会变化，序列打包效率每次迭代都会波动，并且优势为零的响应会被丢弃。

在一次实验中，研究人员尝试了动态调整学习率，使其与批大小成反比，但这导致小批大小的学习率过高，需要设置上限。

设置上限后的版本与使用恒定学习率没有显著差异，但调整批大小和学习率仍然是未来实验的一个有趣方向。

此外，研究人员还进行了简短的实验，增加每次迭代的任务数同时减少每个任务的样本数，反之亦然，保持每次迭代的总样本数大致相同。

在较短的训练时间内，这些变化没有显示出显著差异，表明配方对任务数和每个任务的样本数之间的不同平衡具有鲁棒性。

100次迭代，实现SOTA

结果显示，模型在经历超过100次迭代训练后，实现了SOTA级的演绎推理能力。

从下图中可以看到，模型的性能在训练初期迅速提升，并在之后逐渐放缓；然而到了末期，准确率却开始出现退化，甚至急剧下降。

在最佳状态下，14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能，而32B模型在更大的64k上下文容量下几乎匹配了Sonnet的结果。

训练过程中，性能提升遵循幂律分布，在对数-对数坐标图上呈现线性关系（在性能开始下降之前）。

研究人员推测，之所以出现这种现象，有可能是因为模型过早地收敛于初期就有效的贪婪策略，从而限制了长期的发展潜力。

此外，还可以观察到，输出的长度在训练期间也呈现出了一种有趣的变化模式。

刚开始的时候响应长度会逐步增加，然后趋于稳定；而在训练后期，则出现了明显的分化现象——14B模型的响应变得更长，而32B模型的响应长度显著减少，特别是在达到峰值性能后。

为了定性评估逻辑推理能力的提升，团队决定使用最新的Claude Sonnet 3.7来对Qwen 32B模型的解谜推理能力进行分析。

在未经训练的基础模型中，Sonnet识别出了6个推理结论，其中5个被判定为错误

在经过100多次迭代训练后的模型中，Sonnet识别出了7个推理结论，其中6个被判定为符合逻辑

接下来，团队根据Fireworks AI的无服务器定价方案估算了Qwen模型的成本。（假设能获得足够的计算吞吐量）

通过将准确率与每个响应平均推理成本的自然对数进行对比，团队发现，没有经过微调的模型存在着明显的线性帕累托最优前沿（表示在这条曲线上，无法同时提高准确率和降低成本）。

而团队提出的方法，不仅将开源模型训练到了SOTA级的准确率，而且还极大地改善了成本与准确率之间的权衡关系。

值得一提的是，团队还在最后为大家留了一个特别令人兴奋的发现——仅使用16个训练样例就能实现高达10-15%的显著性能提升。

这意味着，不需要大量数据即可开始，开发者只需对自己想解决的问题有一些基本的直觉认识即可。

在文章的最后，团队写道：

随着工作的圆满完成，我们彼此相视一笑，随即叫了一辆双轮马车返回贝克街——这里正是复盘「案情」的绝佳场所。

本文来源：新智元

强化学习 Qwen模型逻辑推理

新智元

评论点赞0 +1 收藏+1

原创栏目

【硬件编年史】窥见台北电脑展 AI&VR双管齐下

硬件编年史

从平平无奇到各领风骚，显卡外观设计大盘点

硬件编年史

经典IP！蜘蛛侠宇宙有多少惊喜是你不知道的

硬件编年史

【硬件编年史】那些年我们一起折腾过的DIY硬件

硬件编年史

IT百科

更多 >

iOS闪退修复工具

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

三餐都吃外卖的你，知道商家的套路有多野吗？

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

更多>

推荐手机 笔记本 影像硬件家居商用企业出行未来

太平洋科技 要闻

32B击败DeepSeek-R1、o3-mini，成本暴降100倍！GRPO让小模型称霸推理

基准测试

太平洋科技要闻