关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者67人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曼联明年清洗名单曝光,卡塞米罗领衔8人!马奎尔若降薪有望续约

罗米的曼联博客 浏览 102

专家:美军突袭委内瑞拉战术有新变化 有4个突出特点

北京日报客户端-长安街知事 浏览 24

"特普会"细节公布 泽连斯基:不接受没乌方参与的决定

环球网资讯 浏览 75

金球奖红毯:小李子越老越有味

娱乐圈笔娱君 浏览 34

阿里涨超18%,芯片有“后备方案”

观察者网 浏览 84

7月房价出炉:七月流火刚至,地产寒意渐深

钛媒体APP 浏览 105

苹果A19单核性能登顶全球第一!超越一众PC CPU:功耗仅4W

快科技 浏览 90

汽车行业杂耍式营销何时休?

道哥说车 浏览 20

上汽大众新凌渡L亮相,初代网红要来收复失地

驾仕派 浏览 97

刘三姐演出有演员穿肉色紧身衣 运营方:不能带望远镜

新京报 浏览 5

进口机器人、工业机械、医疗设备!特朗普政府又一波232调查

第一财经资讯 浏览 82

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 103

德国联邦统计局数据显示:今年前8月,中国再成德最大贸易国

环球网资讯 浏览 62

高市早苗当选首相 日本史上首名"第一先生"信息披露

环球网资讯 浏览 55

当你的代码测试出问题时,人工智能能像专业程序员一样修复吗?

科技行者 浏览 22

57岁一线小生宣布不再做TVB亲生仔,错失视帝宝座

粤睇先生 浏览 295

二手车商称雷军在吹牛:现在有的车型降10万都没人要

都市现场 浏览 23

王晶再曝港圈秘事:谢霆锋张柏芝真“合不来”

往史过眼云烟 浏览 91

梵净山景区缆车"主动避雷"滞空 8岁男孩吓得一直哭闹

大风新闻 浏览 89

小米 REDMI Note 15R 手机现身中国电信终端产品库

IT之家 浏览 90

37岁白人女子送娃上学被执法人员枪杀 特朗普:是自卫

每日经济新闻 浏览 23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12