关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者52人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全红婵家建了新楼,哥哥直播卖菠萝被骂吃软饭

陈意小可爱 浏览 18

“富贵闲人”许绍雄的快乐哲学

仙女事件簿 浏览 2000

中年女人夏天别瞎穿,这三招让你减龄不扮嫩,收获满满的夸赞

静儿时尚达人 浏览 86

特斯拉宣布接入Carplay,历史的车轮倒退了?

少数派报告Report 浏览 5

190亿杭州厨电巨头,动用43亿买理财

21财闻汇 浏览 97

“首作之上”荣誉推选单元丨征片倒计时7天

幕味儿 浏览 85

她们冬天这样穿,真的很美!

黎贝卡的异想世界 浏览 21

左脚低射破门,加纳乔成为切尔西队史第6位进球的阿根廷球员

懂球帝 浏览 46

春天最火的第一双鞋竟然是它?赵今麦、周也都爱穿!

LinkFashion 浏览 14

父母先后失联兄弟流浪4岁弟弟又失踪 36年后母子团圆

红星新闻 浏览 64

董子健带女儿现身公园玩 父女俩一见面就乐开花儿

翰林涛涛 浏览 182

市场变化越快,华润啤酒越稳

斑马消费 浏览 109

吴艳妮赛后:看着赛季最好,但对我现在的强度和水平来说还是很差

直播吧 浏览 82

连续三个月创历史新高 蔚来公司10月新车交付首超4万台

网易汽车 浏览 41

问界M8官宣将增瑞红/湛蓝双新色 将于3月23日发布

网易汽车 浏览 7

小鹏G7增程版登陆工信部 助推大电池增程新景象

网易汽车 浏览 75

小红书刷屏,这个谷歌开发者大会上到底有什么?

果壳 浏览 96

60岁老人猥亵7岁女童:将手伸入女童的生殖器官

中国新闻周刊 浏览 22

「冰雪+温泉」模式:山地文旅地产如何重构冬季休闲生活?

豹变 浏览 20

00后的第一个AI硬件,藏着京东的野心

虎嗅APP 浏览 69

外媒:为讨好美国 意大利要对中企"下黑手"

澎湃新闻 浏览 73
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12