关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者33人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科大讯飞AI创新成果亮相第十届版博会

中安在线 浏览 63

9000元招保洁保安,胖东来打了谁的脸?

数字财经智库 浏览 105

立威第一枪?巴拿马拿中资港口开刀,李嘉诚228亿落空?

数字财经智库 浏览 29

泽连斯基家乡遭俄乌冲突以来"最大规模袭击"

环球网资讯 浏览 97

美媒公布美军打击委内瑞拉蒂乌纳堡基地后景象

环球网资讯 浏览 32

原料之争引爆酒圈!88元“牛市”啤酒被“泼冷水”

国际金融报 浏览 98

违规拍摄涉密文件多人被处分 国安机关最新提示

新京报 浏览 49

李连杰因甲亢住院,病床照曝光表情痛苦,好友晒聊天记录报平安

扒虾侃娱 浏览 105

百度发布Q2财报:AI新业务收入破100亿,全栈布局开花结果

澎湃新闻 浏览 96

官方:乌兹别克斯坦裁判纳贾法列夫将执法海港客战武里南联

懂球帝 浏览 42

2025网易经济学家年会·夏季论坛战报出炉:全网阅读量破1.8亿,品牌影响力全面升级

网易财经 浏览 83

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 46

60岁温碧霞和同龄人聚会,活成了“小公主”

听风听你 浏览 27

今年最大一笔潮玩投资来了!卡游前市场总监“另起炉灶” 高瓴等机构砸数亿

科创板日报 浏览 80

机器人替农民“弯腰”,AI+激光精准识别、“秒杀”杂草

上观新闻 浏览 27

俄称今年已控制205个居民点 乌称对俄港口及战机发动袭击

极目新闻 浏览 93

美媒:与普京会谈前 特朗普打了一个"特别的"电话

环球时报新闻 浏览 85

首届机器人运动会,是比谁摔得更有观众缘

36氪 浏览 88

被问与特朗普关系是否已"破裂" 斯塔默回应

环球网资讯 浏览 14

央行连续增持黄金,10月我国外汇储备规模稳中有升

中国商报 浏览 35

全新问界M7就是“M8青春版”,不带激光雷达版本或定价30万以内

驾仕派 浏览 72
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12