关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者58人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“我没参赛,骂声却没停过”,奥运冠军樊振东被网暴,饭圈太疯狂

娱乐白名单 浏览 76

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 73

戴尔推入门游戏显示器SE2426HG、SE2726HG:FHD 240Hz Fast IPS

IT之家 浏览 28

赵本山的一双儿女,为所有人提了醒

蕾爸退休日记 浏览 1102

质感女人怎么都在穿这个颜色?

时尚COSMO 浏览 79

今年秋天,穿得越放松越好看!

LinkFashion 浏览 74

731部队原队员揭秘细菌战实施细节

极目新闻 浏览 95

融合发展加速!万科上半年销售近700亿,与深铁合作物流机器人

证券市场周刊 浏览 86

特斯拉副总裁陶琳谈“刹车门”:坚持做正确的事情,剩下交给时间

IT之家 浏览 169

秋天上班族应该怎么穿衣?衬衫为主、打造腰线,利落又得体

静儿时尚达人 浏览 76

包工头把交警儿子做进工资表冒领工地工资:我欠儿子钱

大风新闻 浏览 88

星空有约|9月21日土星冲日 本次观测有“彩蛋”

新华社 浏览 68

包贝尔老婆包文婧自曝,给儿子穿二手旧衣服

韩小娱 浏览 16

浙江、西海岸分别4人入选U22国足并列第一,海港3人在列

懂球帝 浏览 87

坐拥北京60亩马场的于谦,私下到底有多壕

叨叨话影 浏览 81

先L3还是直接L4?国内车企还在争论,特斯拉已经“空车”上路了

Autolab 浏览 34

赵露思助农风波升级,怒怼钱江媒体网友呼吁封杀

壹点半娱乐 浏览 90

别克至境 L7 携首发芯片来袭 智能座舱

大象新闻 浏览 94

微信上线新功能!网友:正好假期需要

中国基金报 浏览 81

汪小菲要把满月儿子绑在身上坐飞机?马筱梅急了

喜欢历史的阿繁 浏览 17

温峥嵘回应卖面膜争议,已报警刑事立案

扒虾侃娱 浏览 40
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12