优优资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

上汽通用五菱...

机主称手机莫...

女人过了40...

张雪峰还是不...

曾觊觎A股主...

美股存储芯片...

北美夺冠，中国票房从7.8亿跌到6400万，这块金字招牌算砸了？

俄乌第三轮谈判在即双方代表团人员构成获披露

韩磊老婆疑发声！控诉他出轨多人还有私生子，补税5000万不肯离婚

“我没参赛，骂声却没停过”，奥运冠军樊振东被网暴，饭圈太疯狂

智元精灵G2机器人正式发布，已获得数亿元订单

戴尔推入门游戏显示器SE2426HG、SE2726HG：FHD 240Hz Fast IPS

赵本山的一双儿女，为所有人提了醒

质感女人怎么都在穿这个颜色？

今年秋天，穿得越放松越好看！

731部队原队员揭秘细菌战实施细节

融合发展加速！万科上半年销售近700亿，与深铁合作物流机器人

特斯拉副总裁陶琳谈“刹车门”：坚持做正确的事情，剩下交给时间

秋天上班族应该怎么穿衣？衬衫为主、打造腰线，利落又得体

包工头把交警儿子做进工资表冒领工地工资:我欠儿子钱

星空有约｜9月21日土星冲日本次观测有“彩蛋”

包贝尔老婆包文婧自曝，给儿子穿二手旧衣服

浙江、西海岸分别4人入选U22国足并列第一，海港3人在列

坐拥北京60亩马场的于谦，私下到底有多壕

先L3还是直接L4？国内车企还在争论，特斯拉已经“空车”上路了

赵露思助农风波升级，怒怼钱江媒体网友呼吁封杀

别克至境 L7 携首发芯片来袭智能座舱

微信上线新功能！网友：正好假期需要

汪小菲要把满月儿子绑在身上坐飞机？马筱梅急了

温峥嵘回应卖面膜争议，已报警刑事立案