关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者30人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI泡沫争议再起!多位顶尖大咖PK,这次有何不同?

21世纪经济报道 浏览 37

不再有任何限制措施!微软:所有受支持设备都能升Win11 25H2了

快科技 浏览 72

戏子无情!梁朝伟翻车了,称喜欢日本,和他们的文化合得来!

娱乐圈笔娱君 浏览 74

源杰科技市值640亿,光芯片竞争激烈,如何撑起高估值?

尺度商业 浏览 21

这些是有气质的女性喜欢的穿搭!露肤度合适、多穿裙子更优雅

静儿时尚达人 浏览 69

男子离婚冷静期毒杀儿女 事前带娃吃饭称"最后的狂欢"

极目新闻 浏览 83

本轮巴以冲突已致加沙地带59921人死亡

国际在线 浏览 79

中国足协第十二届会员代表大会第三次会议召开

体坛周报 浏览 17

马斯克星链成缅甸电诈“利器”,美国会已启动调查

界面新闻 浏览 74

胡歌得肺癌在北京住院?工作室深夜发文

都市快报橙柿互动 浏览 331

胡塞武装称袭击以色列多处目标 致其“航班中断”

环球网资讯 浏览 81

德防长称"若俄袭击北约德军将杀死俄士兵" 克宫回应

环球网资讯 浏览 81

上海97-77大胜浙江,李弘权18分,吴前15分,兰道夫27+5

懂球帝 浏览 26

一家4口爬山妻子坠亡 警方排除他杀可能:属于高空坠亡

极目新闻 浏览 14

美再向委周边调派装备和部队 专家:为发动攻击做准备

国际在线 浏览 25

约6000人被埋加沙废墟下 哈马斯:不会离开自己的土地

红星新闻 浏览 61

本科毕业生为了一份更好工作回炉技校 入学一年后退学

南风窗 浏览 82

好没素质!30岁日本女星放任女儿超市舔瓶子,碰到嘴巴还放回去

萌神木木 浏览 86

广西国资9.42亿入局,黑芝麻这回能“胡”一把?

野马财经 浏览 20

全新马自达CX-5实车曝光:更大、更精致,动力也将升级

大李说车 浏览 150

女小三多次色诱已婚男发生关系 聊天记录流出不堪入目

社会酱 浏览 86
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12