关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro60人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 27

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

黎贝卡的异想世界 浏览 28

法拉利撞上护栏后迅速起火 知名游戏大佬被困车内身亡

每日经济新闻 浏览 26

新款腾势Z9GT申报图曝光 续航大增/似推单电机版本

网易汽车 浏览 24

5名中国游客在巴厘岛车祸死亡 伤者:司机一点伤没有

扬子晚报 浏览 31

男子被判3次死刑才执行 法院:其等待死刑核准时又杀人

大风新闻 浏览 115

内托:这场胜利是献给若塔和他兄弟的,我做到了

懂球帝 浏览 218

泽连斯基:俄军向乌克兰一家美国企业发射导弹

每日经济新闻 浏览 92

前任遇到现任,姜文带周韵参加女儿姜一郎婚礼

王觪晓 浏览 99

人民文娱点名,韩星不是脱缰野马,全智贤、林允儿的好日子到头了

娱乐圈笔娱君 浏览 89

落石砸车致司机身亡家属向政府索赔百万 遗体尚未安葬

极目新闻 浏览 157

布朗41+7+6绿军险胜双杀太阳 布克40+6迎500场20+里程碑

醉卧浮生 浏览 18

郭晶晶白天带孩子爬山,晚上在大学演讲

小娱乐悠悠 浏览 27

欧盟行业代表:中方出手反制欧盟 法国这一次受伤最重

澎湃新闻 浏览 26

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

DeepTech深科技 浏览 98

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 28

数智改变生活 | 从无人配送车到智能游船 贵阳上演“科技改变生活”实景剧

环球网资讯 浏览 93

东方财富实控人其实的妻子和父亲近期套现约93亿

YOUNG财经 浏览 67

乌克兰傻眼!美俄谈和平,泽连斯基不承认

浏览 299

林心如自曝爱花钱,感慨霍建华太节省,网友:不懂二人咋在一起

萌神木木 浏览 1144

小维阿:马赛的压力不让我意外,我在尤文效力过

懂球帝 浏览 35
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12