关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro59人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大湾区晚会太混乱!跑调抢拍忘词破音全占了,合唱几乎都翻车

萌神木木 浏览 83

2000万亿!史无前例的泡沫破裂!

米筐投资 浏览 76

罗德里:我们没有达到应有的水平,两个失误导致比分变为1-2

直播吧 浏览 84

连衣裙狂魔实测!这8家店铺的小裙子显瘦10斤不踩雷

Yuki女人故事 浏览 90

《东北警察3》票房受挫;谢苗又白努力了

靠谱电影君 浏览 34

钟楚曦到底僭越了什么

虎嗅APP 浏览 45

"世界第一美少年"去世 女儿未透露其具体死因

扬子晚报 浏览 54

董璇二婚VS孙怡单身:杨幂那句结果都那样的含金量还在上升

飘雨桐 浏览 87

吊打内娱的阴湿女王,回来了

独立鱼 浏览 733

《731》爆雷!演员王尊控诉拖欠工资,导演却在剧组喝茅台抽雪茄

萌神木木 浏览 89

林子烨:被粉丝捧成“小张凌赫”,一场活动就塌房?

八卦三缺一 浏览 15

“股神”巴菲特澄清:不打算收购另一家铁路公司

第一财经资讯 浏览 76

"特普会"机密文件被酒店打印机泄露 涉多项敏感细节

环球网资讯 浏览 100

辛辛那提成大师赛成立以来整500项大赛!且看风云际会!

网球之家 浏览 106

智元推出多场景“六边形战士”精灵G2,首发前已获数亿元订单

文汇报 浏览 79

世俱杯各大奖项出炉:帕尔默获世俱杯金球奖 拜仁获公平竞赛奖

直播吧 浏览 153

蔚来萤火虫上市半年多了,现在卖得怎么样了?

车轮生活 浏览 25

泽连斯基:下周计划与欧洲伙伴举行会谈

北青网-北京青年报 浏览 18

全球首次!智元机器人24小时自主行走,挑战高温Citywalk

文汇报 浏览 92

俄乌“和平计划”磋商顿巴斯成焦点

环球网资讯 浏览 27

光伏反内卷会议:细节探讨将在今明两天展开

第一财经资讯 浏览 96
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12