用上DeepSeek核心算法,也能击败R1。 在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。 甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍! 「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。 它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。 对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试炼场」,提出了一个大胆的假设—— 小模型在复杂推理任务中,能否逆袭,达到或超越顶尖LLM? 他们选用开源的Qwen模型(14B和32B),通过GRPO强化学习,对其进行了魔鬼式训练。 如前所见,这些小模型的推理性能,得到了显著提升。 但震撼远不止于此,团队还发现了一些奇怪的现象:Qwen 14B的推理长度随时间「随机」增加,而Qwen 32B的推理长度却在减少。 而且,这一切竟发生在奖励机制完全不涉及长度的情况下。 传统观念认为,只有参数量足够大的LLM,才能称霸推理任务。 但这个最新证明,即便是14B/32B小而精的模型,用上巧妙的优化策略——GRPO,同样能站上巅峰。 网友评论区追问,QWQ 32B也有效吗? Kyle肯定道,那是一定的,它与Qwen 2.5 32B采用了同一个架构。 AI推理新战场:时间线索 去年,OpenAI推出划时代o系列推理模型以来,在AI界掀起了一场强化学习(RL)的狂潮。 谷歌DeepMind、阿里、DeepSeek、Anthropic等巨头纷纷入局,打造出进行长链式思维(CoT)推理的高级模型。 许多以往具有挑战性的基准测试——如数学和编码领域——如今已接近饱和。 然而,即便是如今最顶尖模型,面对逻辑推理这块硬骨头,也常常会犯低级错误。 为此,OpenPipe两位联创决定挑战这个未解之谜——用RL微调后的小模型,去挑战复杂推理题。 基准测试为此,研究人员基于桌游Clue,打造了一个新基准——时间线索,将其转化为一个单人逻辑谜题,超越了传统维度(who、what、where)。 这些谜题通过OR-Tools 的 CP-SAT 求解器随机生成,并挑选出最精简,却致命的线索: 在一个寒冷的冬夜,富有且神秘的John Q. Boddy先生为几位亲密伙伴举办了一场小型但奢华的晚宴。然而,夜晚以悲剧收场——清晨,Boddy先生被发现死在都铎庄园的某个房间内。以下为涉案嫌疑人名单… 把子有了之后,研究人员先对顶尖大模型进行了测试,包括DeepSeek-R1、o1、o3-mini,以及Claude Sonnet 3.7,以及开源的Qwen 14B和32B。 结果如下图所示,有64k token思考预算的Claude Sonnet 3.7,表现最优。 开源DeepSeek-R1几乎与o1、o3-mini性能相当。然而,未经调优的Qwen 2.5 Instruct模型表现平平。 那么,如何将这些较小的开源模型训练到前沿水平? 小模型逆袭秘诀:GRPO 答案就是,强化学习——允许智能体在受控环境中从自身经验中学习。 这里,LLM是智能体,而谜题则是环境。 研究人员通过让LLM为每个谜题生成多个响应来引导它们的学习,探索问题的空间。并且,强化那些导向正确答案的推理,并对导致模型偏离正确路径的推理进行惩罚。 在多种RL方法中,他们选择了由DeepSeek开发的流行的GRPO算法。与传统的PPO等方法相比,GRPO简化了训练过程,同时仍能提供强大的性能。 为了加速实验,团队省略了Kullback-Leibler(KL)散度惩罚。 从高层次来看,模型的训练循环遵循以下基本步骤: 生成模型对谜题任务的响应 对响应进行评分,并估计每组对话完成的优势(这是GRPO中「分组相对比较」的部分) 使用由这些优势估计指导的裁剪策略梯度对模型进行微调 使用新的谜题和最新版本的模型重复这些步骤,直到达到峰值性能 在生成响应时,研究人员使用了流行的vLLM推理引擎,通过调整了参数选择,以最大化吞吐量并最小化启动时间。 Prefix caching尤为重要,因为作者为每个任务采样了许多响应,缓存提示有助于避免冗余计算。 他们观察到,向vLLM发送过多请求,会导致正在进行中的请求被抢占或交换。 为了解决这个问题,他们使用信号量(semaphore)限制请求,以保持高KV缓存利用率,同时最小化交换。 更高级的调度机制可能会在支持灵活生成长度的同时,进一步提高利用率。 在采样后,研究人员使用标准的HuggingFace Transformers AutoTokenizer处理完成内容。 其聊天模板功能将消息对象渲染为提示字符串,并包含一个助手掩码(assistant mask),用于确定LLM生成的token。 他们发现模型的默认模板中,缺少必要的「% generation %」标签 ,因此在分词步骤中对其进行了修改。 生成的助手掩码被包含在用于微调的张量字典中,以识别哪些位置需要计算损失。 在分词响应并获取助手掩码后,研究人员对数据进行打包以进行微调。除了在每个打包序列中包含多个提示/响应对外,我们还识别了共享的提示token,并为每个token分配了一个Parent ID,以及Group ID。 特别是对于像「时间线索」这样的任务——每个谜题平均超过1,000个token——为每个任务生成大量响应并高效打包张量显著减少了冗余。 一旦打包了所有必要信息,便可以将训练数据集可视化为2D形式,每一行都是一个token序列,可能包含多个提示和完成内容: 有了紧密打包的数据后,就可以开始微调了。 Qwen模型已经经过了预训练和指令微调,具备相当的智能水平,并且擅长遵循指令。 然而,它们还无法可靠地解决「时间线索」谜题。尽管如此,它们偶尔也能成功,而这已经足够了。 通过增加良好推理的概率并减少「不良」推理的概率,研究人员逐步将模型引导至「侦探大师」级的水平。 他们使用标准的机器学习技术实现了这一点,采用策略梯度方法计算损失并有益地调整权重。 在训练过程中,他们使用了PyTorch团队提供的torchtune库。Torchtune为包括Llama、Gemma、Phi等流行模型提供了高效的仅解码器(decoder-only)Transformer实现。 虽然在这个项目中,他们主要使用了Qwen模型,但也对8B和70B的Llama模型进行了实验。 Torchtune还提供了节省内存和提升性能的工具,包括: 激活检查点(Activation Checkpointing) 激活卸载(Activation Offloading) 量化(Quantization) 参数高效微调(PEFT),例如低秩适应(LoRA) 此外,Torchtune支持多设备(以及现在的多节点)训练,使其非常适合更大的模型。它支持全分片数据并行(FSDP)和张量并行(TP)训练,并且可以结合使用。 他们还提供了十几种训练recipes,鼓励用户复制并根据自己的用例进行定制。研究人员在此创建了一个修改版的完整微调配方,支持以下功能: 多设备和单设备训练 参考模型加载和权重交换,用于计算KL散度 使用组ID和父ID进行高级因果掩码计算 GRPO损失集成和组件日志记录 未来,他们希望添加张量并行支持,并探索PEFT和量化。 RL训练过程涉及选择大量的超参数。在训练模型时,研究人员测试了各种配置,并最终确定了以下设置: 模型:Qwen 2.5 Instruct 14B和32B 每次迭代的任务数:32 每次迭代每个任务的样本数:50 每次迭代的总样本数:32*50=1600 学习率:6e-6 Micro-Batch大小:14B模型为4个序列,32B模型为8个序列 批大小:可变,取决于序列数量 批大小是可变的,因为在训练过程中响应长度可能会变化,序列打包效率每次迭代都会波动,并且优势为零的响应会被丢弃。 在一次实验中,研究人员尝试了动态调整学习率,使其与批大小成反比,但这导致小批大小的学习率过高,需要设置上限。 设置上限后的版本与使用恒定学习率没有显著差异,但调整批大小和学习率仍然是未来实验的一个有趣方向。 此外,研究人员还进行了简短的实验,增加每次迭代的任务数同时减少每个任务的样本数,反之亦然,保持每次迭代的总样本数大致相同。 在较短的训练时间内,这些变化没有显示出显著差异,表明配方对任务数和每个任务的样本数之间的不同平衡具有鲁棒性。 100次迭代,实现SOTA 结果显示,模型在经历超过100次迭代训练后,实现了SOTA级的演绎推理能力。 从下图中可以看到,模型的性能在训练初期迅速提升,并在之后逐渐放缓;然而到了末期,准确率却开始出现退化,甚至急剧下降。 在最佳状态下,14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能,而32B模型在更大的64k上下文容量下几乎匹配了Sonnet的结果。 训练过程中,性能提升遵循幂律分布,在对数-对数坐标图上呈现线性关系(在性能开始下降之前)。 研究人员推测,之所以出现这种现象,有可能是因为模型过早地收敛于初期就有效的贪婪策略,从而限制了长期的发展潜力。 此外,还可以观察到,输出的长度在训练期间也呈现出了一种有趣的变化模式。 刚开始的时候响应长度会逐步增加,然后趋于稳定;而在训练后期,则出现了明显的分化现象——14B模型的响应变得更长,而32B模型的响应长度显著减少,特别是在达到峰值性能后。 为了定性评估逻辑推理能力的提升,团队决定使用最新的Claude Sonnet 3.7来对Qwen 32B模型的解谜推理能力进行分析。 在未经训练的基础模型中,Sonnet识别出了6个推理结论,其中5个被判定为错误 在经过100多次迭代训练后的模型中,Sonnet识别出了7个推理结论,其中6个被判定为符合逻辑 接下来,团队根据Fireworks AI的无服务器定价方案估算了Qwen模型的成本。(假设能获得足够的计算吞吐量) 通过将准确率与每个响应平均推理成本的自然对数进行对比,团队发现,没有经过微调的模型存在着明显的线性帕累托最优前沿(表示在这条曲线上,无法同时提高准确率和降低成本)。 而团队提出的方法,不仅将开源模型训练到了SOTA级的准确率,而且还极大地改善了成本与准确率之间的权衡关系。 值得一提的是,团队还在最后为大家留了一个特别令人兴奋的发现——仅使用16个训练样例就能实现高达10-15%的显著性能提升。 这意味着,不需要大量数据即可开始,开发者只需对自己想解决的问题有一些基本的直觉认识即可。 在文章的最后,团队写道: 随着工作的圆满完成,我们彼此相视一笑,随即叫了一辆双轮马车返回贝克街——这里正是复盘「案情」的绝佳场所。 本文来源:新智元 |
原创栏目
IT百科
网友评论
聚超值•精选