关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪163人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

DeepSeek阴影下的大厂

伯虎财经 浏览 2821

奔驰GLC纯电版国内谍照曝光 将于9月首发

车质网 浏览 89

机构扎堆调研4家A股公司!主要问了这些问题→

证券时报e公司 浏览 85

英超第二轮最佳球员候选:哲凯赖什、恩古莫哈、帕利尼亚在列

懂球帝 浏览 80

推3款车型 吉利银河V900将于1月20日上市

车质网 浏览 24

豪华品牌溢价权名存实亡,国内豪车定价谁说了算?

速度计 浏览 79

劣迹艺人赵薇走投无路,女儿成她的最后一根稻草

悠闲历史 浏览 83

高兴夫系二十大后浙江被查第二"虎" 曾任省属企业掌门

界面新闻 浏览 95

能换电池还能焊模块的手机来了

IT之家 浏览 32

世体:皇马拒绝让女超杯在迈阿密举行,女足俱乐部都感到不满

懂球帝 浏览 70

女鞋巨头,集体“脱鞋”谋变

斑马消费 浏览 32

《欢乐家长群2》不是下饭剧是“治愈剂”,完美复刻家长真实状态

最爱酷影视 浏览 91

活力中国调研日记丨探秘“未来之谷” 解码“数智革命”

上游新闻 浏览 103

baby近照脸好僵!被质疑打针了没恢复,37岁了又拍网红照太心酸

萌神木木 浏览 20

美俄确定会晤地点特朗普摆"鸿门宴" 普京做两手准备

掌青说历史 浏览 87

递交亮眼成绩单!中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊 浏览 48

可折叠手机在美国市场卖爆了,三星苹果硬刚卷土重来!

财联社 浏览 94

大空间 高质感 极狐T1让年轻人也能全都要

网易汽车 浏览 94

预售22.98万元 长城炮V6火炮于成都车展开启预售

网易汽车 浏览 88

空翻多!“大空头”做多中国

中国基金报 浏览 85

金建希辩护人:她被羁押之后 因身体不适一直未进食

看看新闻Knews 浏览 88
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12