关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者53人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周华健回潮汕探亲祭祖

阿纂看事 浏览 72

上海药物所突破:AI滤波器精准筛选神经系统疾病新药

科技行者 浏览 30

破门乏术,切尔西0-0水晶宫全场数据:射门19-12,射正3-4

直播吧 浏览 78

德国防长建议特朗普道歉 但暗示并不真抱希望

参考消息 浏览 25

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 136

A股“达链”或再增一员,高通前高级工程师要上市敲钟了|读懂IPO

时代周报 浏览 33

这样选出来的裙子,绝对不会闲置

黎贝卡的异想世界 浏览 80

巴解组织高级官员:哈马斯回应“20点计划”是负责任做法

环球网资讯 浏览 78

事关市值4700多亿元大牛股 两位首席深夜互怼"抢地盘"

每日经济新闻 浏览 26

女人过了40岁穿衣要显贵!看看这些秋季穿搭,舒适又有气质

静儿时尚达人 浏览 71

媒体:台积电被美国"吓破胆" 不敢用大陆制设备

澎湃新闻 浏览 87

女子买房遇"非正常死亡"事件 卖家:死者自愿离开世界

环球网资讯 浏览 40

监管部门再出重拳“反内卷”:严禁车企不正当价格竞争,比亚迪小鹏北汽等表态

北京商报 浏览 29

马斯克星链成缅甸电诈“利器”,美国会已启动调查

界面新闻 浏览 79

对话沃飞长空:eVTOL行业普遍还在卷研发和取证,2026年后才会开始卷商业|产业专访

36氪 浏览 87

大空间 高质感 极狐T1让年轻人也能全都要

网易汽车 浏览 94

普京:俄罗斯将在战场解放本国故土 欧洲"猪猡"将下台

参考消息 浏览 28

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 67

阅兵观礼名单公布 媒体:李在明错失与金正恩会面机会

看看新闻Knews 浏览 91

11场0球0助!利物浦1.3亿巨星不服被批:前面只是适应 别总盯着我

风过乡 浏览 34

10月工信部新车合集:合资车企还在发力

爱驾天下 浏览 68
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12