关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪162人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

徐艺洋三亚美照惊艳

悦君兮君不知 浏览 92

5轮首球,维拉在赛季开始427分钟才收获首球,英超历史第三晚

直播吧 浏览 82

A股年内上会数量将破百

北京商报 浏览 22

海安橡胶IPO:业绩增长持续性存疑,实控人疯狂套现为哪般?

览富财经网 浏览 90

两"虎"任上落马 女正部几天前还曾公开露面

上观新闻 浏览 82

队报:消息人士称罗塞尼尔并不在切尔西新帅候选名单上

懂球帝 浏览 30

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

潇湘晨报 浏览 38

老牌3D打印机龙头赴港IPO,销量及利润率下滑难题待解

尺度商业 浏览 97

2天票房破2.3亿,但凡给成龙多点排片量,《浪浪山》日冠就不保了

娱乐圈笔娱君 浏览 78

9岁女孩在埃及飚英语维权:8个月起就跟爸爸"浪迹天涯"

潇湘晨报 浏览 13

baby近照脸好僵!被质疑打针了没恢复,37岁了又拍网红照太心酸

萌神木木 浏览 20

迟蓬最新采访首度回应演技,两句话见功底,杨幂应愧疚

温柔娱公子 浏览 73

现货金价再创历史新高,牛市还能走多远?

国是直通车 浏览 29

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 39

科技股重挫,Meta大跌12%,B站、百度跌超4%,加密货币21万人爆仓

21世纪经济报道 浏览 52

五日内三家齐发,武汉企业接连闯关港股

虎投邦 浏览 70

特朗普将宣布对乌军援新计划 或包括进攻性武器

环球网资讯 浏览 94

淘宝闪购新工服需骑手自费购买?平台回应来了!

雷科技 浏览 40

火箭军官兵齐聚阅兵训练场 帅到让人忘记呼吸

央视新闻 浏览 75

今年夏天“蓝衬衫”火出圈了,这样穿时髦松弛又高级!

LinkFashion 浏览 95

2026首个巡回赛惨案诞生,萨巴伦卡化身早餐外卖员用时47分钟下班

网球之家 浏览 27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12