腾讯AI实验室近期发布了一种名为"无训练组相对策略优化"(Training-Free GRPO)的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调,在大幅降低训练成本的同时,实现了与昂贵微调方案相当的性能提升。 ...
腾讯AI实验室近期发布了一种名为"无训练组相对策略优化"(Training-Free GRPO)的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调,在大幅降低训练成本的同时,实现了与昂贵微调方案相当的性能提升。 该技术的核心创新在于将经验知识转化为token级别的先验信息,使大模型在参数完全冻结的状态下完成性能优化。腾讯研究团队在DeepSeek-V3.1-Terminus模型上进行的实验显示,这种方法在数学推理和网络搜索等任务中均取得了显著效果。 从技术实现角度看,传统大语言模型在处理需要外部工具调用的复杂任务时常常表现欠佳。而Training-Free GRPO通过保持模型主体参数不变,仅动态维护一个外部经验知识库的方式来提升能力。这种设计不仅大幅削减了计算资源消耗,还增强了模型的跨领域泛化能力。 实验数据具体体现了这一方法的有效性。在数学竞赛级测试AIME24和AIME25中,经过Training-Free GRPO优化的DeepSeek-V3.1-Terminus模型准确率分别从80%和67.9%提升至82.7%和73.3%。更关键的是,这一提升仅使用了100个跨域训练样本,而传统强化学习方法通常需要数千个样本才能达到类似效果,后者的成本往往高达数万美元。 在网络搜索任务的测试中,该方法同样表现出色,模型的Pass@1指标从63.2%提升至67.8%。这一系列测试结果表明,Training-Free GRPO在保持低成本投入的前提下,能够在多种任务类型中实现稳定的性能改善。 从成本对比来看,官方数据显示使用Training-Free GRPO优化一个模型仅需约120元人民币,而传统的参数微调方案通常需要投入7万元左右的计算资源。这一成本差距主要源于该方法无需进行梯度回传和参数更新等计算密集型操作。 这项技术的发布为AI模型优化提供了新的思路方向。特别是对于资源受限的中小企业和研究机构而言,这种低成本高效率的优化方案降低了大模型应用的门槛。不过需要注意的是,该方法的适用范围和在更多场景下的表现还有待进一步验证,当前公布的测试数据主要集中在数学推理和信息检索等特定任务上。 论文地址:https://arxiv.org/abs/2510.08191 |
评论