关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro52人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

余鹏翔承认"国务院参事"身份造假 曾称身份特殊用假名

澎湃新闻 浏览 78

蔚来调价:长续航电池包降价15.6%

电动知家 浏览 80

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 76

特朗普宣称中方在他任内不会对台采取行动 外交部回应

外交部网站 浏览 81

董璇自曝高云翔偷偷再婚,她不在意了

观察鉴娱 浏览 70

蔚来跌超6%三季度亏30亿,理想由盈转亏,零跑盈利,造车新势力洗牌加剧

21世纪经济报道 浏览 32

昨日深夜,长三角多地上空昨夜惊现火流星

上观新闻 浏览 94

OpenAI杀入语音模型大战!祭出最强GPT-RealTime,加量还降价

智东西 浏览 88

“长+短”穿法今年冬天又火了!照着穿时髦又显高

LinkFashion 浏览 24

CEO们不再为了流量吹牛,挺好的

汽车公社 浏览 22

上海半导体巨头换帅,总裁身价5600万,人均薪酬超34万

华美财经 浏览 79

中小城市“扎堆”建机场:近两年至少10个机场获批或开工,长三角再上新

时代周报 浏览 82

美联储,重磅来袭!鲍威尔,大消息!

券商中国 浏览 73

大鹏工业:外购标准件采购占比超七成 自研的被评奖项目背后现客户

金证研 浏览 68

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 794

华为最新发布!上半年营收4270亿元,研发投入969.5亿元

券商中国 浏览 74

好莱坞高冷美人,被曝已破产靠救济度日

译言 浏览 30

媒体披露:U23国足主帅禁止球员在驻地点外卖

环球网资讯 浏览 16

一文解读杨振宁的百年人生密码 曾与爱因斯坦做同事

北京日报客户端 浏览 57

不学抖音学INS,OpenAI想站着把钱挣了

字母榜 浏览 19

媒体:执政半年 李在明抓住了一个关键窗口期

澎湃新闻 浏览 27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12