关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技50人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来ES9开启预售,电池租用方案预售价42 万元起

北京商报 浏览 9

韩红深夜发文炸锅,四件大事信息量太大!

观察鉴娱 浏览 154

将提升极端场景识别度 小米汽车召回超11万台SU7标准版

网易汽车 浏览 82

广东、浙江部分地区上调快递费,快递业开始从“以价换量”转向“以质取胜”

第一财经资讯 浏览 98

莱因克尔:慢放让西蒙斯的动作看起来很夸张,其实黄牌就够了

懂球帝 浏览 26

29.39万起 2.71秒破百 法拉利同款底盘 新款阿维塔12真的不是超跑吗?

网易汽车 浏览 9

英超第二轮最佳球员候选:哲凯赖什、恩古莫哈、帕利尼亚在列

懂球帝 浏览 79

当前最火的五部电视剧,《老舅》跌至第二

草莓解说体育 浏览 35

Linux之父Linus配新电脑了!特别要求Intel锐炫B580显卡

快科技 浏览 29

弗里克:首先要不失球;费兰明天能上

懂球帝 浏览 25

入秋包包合集!这12个有质感还不撞款!

Yuki女人故事 浏览 74

冲上全球第一,最爱他的两个女人却沉默不语

Yuki女人故事 浏览 289

英伟达入股英特尔

北京商报 浏览 85

「AI新世代」印奇掌舵阶跃星辰背后:一部中国AI的“实干派”进化史

华夏时报 浏览 25

“一球制胜”周董首轮游,两ATP巡回赛冷风劲吹!

网球之家 浏览 22

敦煌月牙泉"夫妻柳"树枝被风吹断 景区:树没倒已维护

红星新闻 浏览 79

全智贤遭多国网友抵制!迪士尼评论区沦陷,全剧凉凉被要求下架

萌神木木 浏览 85

水晶宫1-1诺丁汉森林 伊斯梅拉-萨尔破门奥多伊扳平格伊中柱

直播吧 浏览 92

欧盟最新放话:若俄不赔偿乌损失 其被冻结资产别要了

澎湃新闻 浏览 80

国产车抄错题了?特斯拉因为隐藏式门把手被调查了,17.4万辆车!

小李车评李建红 浏览 88

迟蓬最新采访首度回应演技,两句话见功底,杨幂应愧疚

温柔娱公子 浏览 73
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12