斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架 ...

AiGoe.com › 首页 › AI快讯 ›

斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架 ...

AI快讯 2025-10-9 15:47 200人浏览 0人回复

删除收藏分享邀请

摘要

斯坦福大学的研究团队最近发布了 AgentFlow，这是一个可训练的智能代理框架，旨在通过模块化设计和工具集成，提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器（Planner）、执行器(Executor)、验证器(Verif ...

斯坦福大学的研究团队最近发布了 AgentFlow，这是一个可训练的智能代理框架，旨在通过模块化设计和工具集成，提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器（Planner）、执行器(Executor)、验证器(Verifier)和生成器(Generator)，并通过显式内存进行协调。在每一步中，规划器会提出子目标并选择适当的工具和上下文，执行器则负责调用工具，验证器则判断是否继续，而生成器则在任务完成后给出最终答案。

这一框架的核心创新在于其训练方法 ——Flow-GRPO（基于流的组精炼策略优化）。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说，Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号，将成功的全局目标与局部步骤对齐。同时，它使用每个 token 的加权比率计算，结合 PPO 风格的剪辑和 KL 惩罚，防止策略漂移。

在多个基准测试中，研究团队对 AgentFlow 进行了评估，主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的7B 模型在10个基准上的表现平均提高了14.9%（搜索任务）、14.0%(代理推理)、14.5%(数学任务)和4.1%(科学任务)。研究团队表示，该模型在这些任务上超越了现有的强基线，甚至超过了 GPT-4o。

此外，研究还表明，使用 AgentFlow 的工具调用的可靠性有了显著提升，工具调用错误减少了28.4%。这些成果表明，在更大的轮次预算和模型规模下，规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包，并附带了快速启动脚本，方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证，确保了其开源和可访问性，支持广泛的研究与开发。

上一篇：OpenAI估值飙至5000亿美元!员工套现66亿,创私企纪录

下一篇：蚂蚁发布万亿参数语言模型 Ling-1T，推理速度与能力引领行业新标杆 ...

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

admin 关注Ta

0 粉丝547 主题

该作者很懒，什么也没有填写

近期文章