关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者63人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卢拉表示不急于对美国采取报复措施 曾称先与中印通话

澎湃新闻 浏览 90

沪媒谈沙特U20:实力不足惧谨慎不可无,相信国青能跨越他们

直播吧 浏览 267

王传福:全世界NO.1的卷王

燃擎频道 浏览 21

章泽天给所有想嫁豪门的女人上了一课

白面书誏 浏览 937

博尔达拉斯:巧妇难为无米之炊,我不该承受这赛季所遭受的一切

懂球帝 浏览 16

上百位元首首脑在联大辩论 特朗普发言创造一个新纪录

环球网资讯 浏览 88

彻底对标苹果?小米17 Air要来,可iPhone Air都凉了

雷科技 浏览 55

携热门AI科技产品矩阵亮相 小鹏汽车登陆成都车展

网易汽车 浏览 85

诺贝尔委员会拒绝和平奖转让特朗普

环球时报 浏览 28

车企的零自燃宣言,谁才是真安全?

百姓评车 浏览 45

书记戴的AI眼镜全网刷屏!今年东博会这个含量“爆表”

国是直通车 浏览 78

司机追尾玛莎拉蒂 保险公司拒理赔:车险还差7分钟生效

潇湘晨报 浏览 75

杨采钰生子后首公开露面!35度高温穿毛衣好敬业

丁丁鲤史纪 浏览 77

胡金秋:能在中国男篮很开心和幸福,要好好总结打好后续比赛

懂球帝 浏览 78

中企派2000名工人赴欧洲建厂 英媒还在存心挑拨

澎湃新闻 浏览 3281

U23亚洲杯预选赛名单:王钰栋、蒯纪闻、朱鹏宇、拜合拉木在列

直播吧 浏览 78

马斯克预言SpaceX明年收入将超NASA全部预算

IT之家 浏览 81

以军空袭加沙警车致8名警察死亡

国际在线 浏览 6

女排世锦赛悲喜夜:中国队1-3爆冷出局,巴西逆转,八强已出六席

侃球熊弟 浏览 76

在最近22场对阵富勒姆的比赛中,曼联保持了21场不败

懂球帝 浏览 70

数读“十四五”答卷︱世界第一、全球领先!一组数据看我国科技事业历史性成就

海外网 浏览 80
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12