关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro7人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄罗斯将对多艘核潜艇进行改造

国际在线 浏览 83

世体:巴萨有充足的人手能填补加维空缺,无需去转会市场买人

懂球帝 浏览 80

英伟达向CoreWeave追加投资20亿美元,首推独立CPU芯片

华尔街见闻官方 浏览 22

又有8个大V账号被封!雪球一日连发“两弹”,“游资战法”等遭重点打击

第一财经资讯 浏览 33

OpenAI 消费者业务迎新掌舵者,首个商业计划预估竞逐 AI 浏览器

IT之家 浏览 77

联想 moto razr 60 系列手机获中国线上市场安卓小折叠销量第一

IT之家 浏览 74

从“AI猪食”到“大模型旅鼠”,2025年度热词背后的新商机

吴晓波频道 浏览 20

惠州4A景区改造遭抵制 旅居业主:站阳台看海变看商铺

每日经济新闻 浏览 27

AI重构双11|成交暴涨25倍,智能眼镜从极客玩具到大众爆款

红星新闻 浏览 29

英王子因萝莉岛被死人"指控" 前妻与爱泼斯坦猛料被扒

新民晚报 浏览 50

纯电续航761km 全新奔驰CLA猎装版官图发布

车质网 浏览 85

詹姆斯:湖人的投篮困境终会过去;这周对我来说有点像训练营

懂球帝 浏览 29

“精准”归来:戴尔正式宣布推出"Pro Precision"工作站产品线

IT之家 浏览 10

特朗普,重仓了!

中国基金报 浏览 28

匿名“欢乐马”屠榜,国产视频模型批量崛起

第一财经资讯 浏览 14

股价创一年来新高,李斌回应全新ES8定价低于老款太多,毛利仍有空间

红星资本局 浏览 78

昔日“神车”众泰突然大规模招聘!内部人士:已收到不少简历

红星资本局 浏览 25

杜兰感谢穆帅:您是伟大的教练,祝一切顺利

懂球帝 浏览 88

中国“最牛”小镇:人口4万,面积仅40km²,一年狂赚300亿

正和岛 浏览 88

蒋奇明挖到宝了,剧版《731》口碑井喷,抗战剧又有了新的标杆

娱乐圈笔娱君 浏览 37

特朗普:俄方知道美国在俄海岸附近部署核潜艇

环球时报 浏览 46
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12