关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪156人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

深圳“清朗”行动发布通报:查处一批恶意营销、滥用AI账号

南方都市报 浏览 21

上半年多线突围,汤臣倍健用创新新品重塑品类和渠道价值链

深蓝财经 浏览 93

苏翊鸣:我仍是那个热爱单板滑雪的少年,下个周期或许别样精彩

懂球帝 浏览 12

法国将在格陵兰岛开设领事馆 法外长:这是个政治信号

鲁中晨报 浏览 22

今年春天最美搭配:针织+裙子,这样穿好看又气质!

LinkFashion 浏览 6

43岁贾玲退出春晚、解散公司

月光作笺a 浏览 25

兼顾普惠定位与商业属性 助力惠民保可持续发展

证券市场周刊 浏览 80

马斯克疑悄悄搁置"美国党"计划:或支持万斯2028竞选

红星新闻 浏览 74

独生女拒绝接班!天津富豪套现7.2亿,把30年的家业卖给了国资

壹只灰鸽子 浏览 84

幂式“美拉德穿搭”太时髦了!显白又气质,谁穿谁好看!

Yuki女人故事 浏览 78

年末避险情绪抬升 公募选股遵循涨价硬逻辑

证券时报 浏览 21

赵丽颖起诉多家公司侵犯肖像权 涉事公司回应

瓜农娟姐 浏览 35

曹骏舒畅世纪同框,蓝盈莹自食恶果,高低立判!

情感大头说说 浏览 20

伊姐周六热推:电视剧《朝雪录》;电视剧《樱桃琥珀》......

伊周潮流 浏览 99

张之臻冲开门红失利白卓璇弥补遗憾,女单最大冷门成就土耳其历史

网球之家 浏览 18

我完美的发型被回南天做局了……

时尚COSMO 浏览 145

世体:巴萨有足够人手填补加维空缺,无需进入市场买人

直播吧 浏览 75

上海女子出国卖淫被遣返 不和丈夫发生关系出轨当小三

胖胖侃咖 浏览 94

全锦赛:江苏女篮40分狂胜山东晋级决赛 马文20分罗欣棫14+7

醉卧浮生 浏览 64

9月第二周周销量:方程豹/乐道进入新势力前十,岚图超越极氪或很快出现

驾仕派 浏览 68

曼晚:回曼市的路上卡里克一直在看回放,今天他们看U21比赛

懂球帝 浏览 16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12