返回顶部
AiGoe.com 首页 AI快讯

斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架 ...

AI快讯 2025-10-9 15:47 30人浏览 0人回复
摘要

斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器(Planner)、执行器(Executor)、验证器(Verif ...

 斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器(Planner)、执行器(Executor)、验证器(Verifier)和生成器(Generator),并通过显式内存进行协调。在每一步中,规划器会提出子目标并选择适当的工具和上下文,执行器则负责调用工具,验证器则判断是否继续,而生成器则在任务完成后给出最终答案。

这一框架的核心创新在于其训练方法 ——Flow-GRPO(基于流的组精炼策略优化)。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说,Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号,将成功的全局目标与局部步骤对齐。同时,它使用每个 token 的加权比率计算,结合 PPO 风格的剪辑和 KL 惩罚,防止策略漂移。

在多个基准测试中,研究团队对 AgentFlow 进行了评估,主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的7B 模型在10个基准上的表现平均提高了14.9%(搜索任务)、14.0%(代理推理)、14.5%(数学任务)和4.1%(科学任务)。研究团队表示,该模型在这些任务上超越了现有的强基线,甚至超过了 GPT-4o。

此外,研究还表明,使用 AgentFlow 的工具调用的可靠性有了显著提升,工具调用错误减少了28.4%。这些成果表明,在更大的轮次预算和模型规模下,规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包,并附带了快速启动脚本,方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证,确保了其开源和可访问性,支持广泛的研究与开发。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号