优优资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

真正的独立女...

林永健批顶流...

中国电池助力...

妈妈辈如何穿...

天空：米兰未...

莱斯-费迪南...

媒体：中东欧三国欲组队在欧盟内部对援乌政策＂掀桌＂

对标丰田4Runner 本田新款Passport最新消息曝光

魏建军发长城汽车35周年高管合照国产大V8超跑要来了吗？

特朗普：达不成协议哈马斯将遭“彻底消灭”

记者：米兰的A-希门尼斯接近租借加盟伯恩茅斯，附有条件强制买断

＂福特＂级航母电磁弹射器困住美军重设计需数十亿美元

拉萨的年轻人，原来是这样生活的

韩磊被疑出轨大龄女，女方身份曝光

马斯克宣布：开源！还称中国公司将是最强大的对手

E句话|说错话，张凌赫ins发文道歉了

媒体：对用AI做“毁损图”申请退款，打击要更精准

离婚三年，依然在不断消费“旧伤”的孙怡

波士顿动力人形机器人亮相CES 拟2028年进厂造车

45岁潘玮柏好福气！34岁老婆宣云温柔又独立

柯淳公开向关晓彤表白，鹿晗躺枪

苏姿丰：AMD在数据中心CPU影响力，相当于英伟达在 AI 加速器地位

乌镇偶遇谭松韵张子枫,个子都1米5左右

＂电弹三杰＂亮相福建舰实现电磁弹射起飞

欧盟宣布制裁以以总理反问：咋没人说美侵犯阿富汗

或为增程形式上汽大众ID.ERA轿车谍照曝光

新华社用3点评价李亚鹏：默守公益16年，给社会带来温度和感动

开源版Cowork爆火，逼得Anthropic下放Cowork

官方下场，内娱要出大事儿了

给她的宇宙，Matthieu Blazy重塑香奈儿女性