关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪163人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

DeepSeek阴影下的大厂

伯虎财经浏览 2821

奔驰GLC纯电版国内谍照曝光将于9月首发

车质网浏览 89

机构扎堆调研4家A股公司！主要问了这些问题→

证券时报e公司浏览 85

英超第二轮最佳球员候选：哲凯赖什、恩古莫哈、帕利尼亚在列

懂球帝浏览 80

推3款车型吉利银河V900将于1月20日上市

车质网浏览 24

豪华品牌溢价权名存实亡，国内豪车定价谁说了算？

速度计浏览 79

劣迹艺人赵薇走投无路，女儿成她的最后一根稻草

悠闲历史浏览 83

高兴夫系二十大后浙江被查第二＂虎＂曾任省属企业掌门

界面新闻浏览 95

能换电池还能焊模块的手机来了

IT之家浏览 32

世体：皇马拒绝让女超杯在迈阿密举行，女足俱乐部都感到不满

懂球帝浏览 70

女鞋巨头，集体“脱鞋”谋变

斑马消费浏览 32

《欢乐家长群2》不是下饭剧是“治愈剂”，完美复刻家长真实状态

最爱酷影视浏览 91

活力中国调研日记丨探秘“未来之谷” 解码“数智革命”

上游新闻浏览 103

baby近照脸好僵！被质疑打针了没恢复，37岁了又拍网红照太心酸

萌神木木浏览 20

美俄确定会晤地点特朗普摆＂鸿门宴＂普京做两手准备

掌青说历史浏览 87

递交亮眼成绩单！中国人寿前三季度新业务价值强劲增长41.8%

证券市场周刊浏览 48

可折叠手机在美国市场卖爆了，三星苹果硬刚卷土重来！

财联社浏览 94

大空间高质感极狐T1让年轻人也能全都要

网易汽车浏览 94

预售22.98万元长城炮V6火炮于成都车展开启预售

网易汽车浏览 88

空翻多！“大空头”做多中国

中国基金报浏览 85

金建希辩护人：她被羁押之后因身体不适一直未进食

看看新闻Knews 浏览 88

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

泰国王太后诗...

进博面对面｜...

上汽奥迪E5...

全美都在“抓...

球迷态度：颜...

卢浮宫一件被...

罗马仕违反强制认证规定、虚假宣传　被罚没124万

健康活到100岁，科学能做些什么？@U35张汉林试图寻找衰老背后的“隐藏逻辑”

杜锋真会整活！张昊配张文逸无球权，内线上两站桩，全运会别瞎搞

DeepSeek阴影下的大厂

奔驰GLC纯电版国内谍照曝光将于9月首发

机构扎堆调研4家A股公司！主要问了这些问题→

英超第二轮最佳球员候选：哲凯赖什、恩古莫哈、帕利尼亚在列

推3款车型吉利银河V900将于1月20日上市

豪华品牌溢价权名存实亡，国内豪车定价谁说了算？

劣迹艺人赵薇走投无路，女儿成她的最后一根稻草

高兴夫系二十大后浙江被查第二＂虎＂曾任省属企业掌门

能换电池还能焊模块的手机来了

世体：皇马拒绝让女超杯在迈阿密举行，女足俱乐部都感到不满

女鞋巨头，集体“脱鞋”谋变

《欢乐家长群2》不是下饭剧是“治愈剂”，完美复刻家长真实状态

活力中国调研日记丨探秘“未来之谷” 解码“数智革命”

baby近照脸好僵！被质疑打针了没恢复，37岁了又拍网红照太心酸

美俄确定会晤地点特朗普摆＂鸿门宴＂普京做两手准备

递交亮眼成绩单！中国人寿前三季度新业务价值强劲增长41.8%

可折叠手机在美国市场卖爆了，三星苹果硬刚卷土重来！

大空间高质感极狐T1让年轻人也能全都要

预售22.98万元长城炮V6火炮于成都车展开启预售

空翻多！“大空头”做多中国

金建希辩护人：她被羁押之后因身体不适一直未进食

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

泰国王太后诗...

进博面对面｜...

上汽奥迪E5...

全美都在“抓...

球迷态度：颜...

卢浮宫一件被...

罗马仕违反强制认证规定、虚假宣传 被罚没124万

健康活到100岁，科学能做些什么？@U35张汉林试图寻找衰老背后的“隐藏逻辑”

杜锋真会整活！张昊配张文逸无球权，内线上两站桩，全运会别瞎搞

DeepSeek阴影下的大厂

奔驰GLC纯电版国内谍照曝光 将于9月首发

机构扎堆调研4家A股公司！主要问了这些问题→

英超第二轮最佳球员候选：哲凯赖什、恩古莫哈、帕利尼亚在列

推3款车型 吉利银河V900将于1月20日上市

豪华品牌溢价权名存实亡，国内豪车定价谁说了算？

劣迹艺人赵薇走投无路，女儿成她的最后一根稻草

高兴夫系二十大后浙江被查第二＂虎＂ 曾任省属企业掌门

能换电池还能焊模块的手机来了

世体：皇马拒绝让女超杯在迈阿密举行，女足俱乐部都感到不满

女鞋巨头，集体“脱鞋”谋变

《欢乐家长群2》不是下饭剧是“治愈剂”，完美复刻家长真实状态

活力中国调研日记丨探秘“未来之谷” 解码“数智革命”

baby近照脸好僵！被质疑打针了没恢复，37岁了又拍网红照太心酸

美俄确定会晤地点特朗普摆＂鸿门宴＂ 普京做两手准备

递交亮眼成绩单！中国人寿前三季度新业务价值强劲增长41.8%

可折叠手机在美国市场卖爆了，三星苹果硬刚卷土重来！

大空间 高质感 极狐T1让年轻人也能全都要

预售22.98万元 长城炮V6火炮于成都车展开启预售

空翻多！“大空头”做多中国

金建希辩护人：她被羁押之后 因身体不适一直未进食

罗马仕违反强制认证规定、虚假宣传　被罚没124万

奔驰GLC纯电版国内谍照曝光将于9月首发

推3款车型吉利银河V900将于1月20日上市

高兴夫系二十大后浙江被查第二＂虎＂曾任省属企业掌门

美俄确定会晤地点特朗普摆＂鸿门宴＂普京做两手准备

大空间高质感极狐T1让年轻人也能全都要

预售22.98万元长城炮V6火炮于成都车展开启预售

金建希辩护人：她被羁押之后因身体不适一直未进食