关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元70人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

复刻世界杯的自己!理查利森第60分钟完成双响,热刺2-0伯恩利

直播吧 浏览 88

第五代骁龙8之后,旗舰机有了新的“标准版”

科技行者 浏览 23

俄称挫败乌军空降行动

上观新闻 浏览 34

多只基金份额离奇暴涨,国联安基金被指“操纵”持有人大会?

网易财经 浏览 88

开普勒人形机器人实现全球首例“人机协作”高空焊接作业

IT之家 浏览 24

中美代表围绕巴拿马运河问题发生争论 中方驳斥美国

环球网资讯 浏览 73

将于广州车展亮相 零跑A10路试谍照曝光

车质网 浏览 23

晚点独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

晚点LatePost 浏览 22

“躺赚”的企查查,是个苦生意?

定焦One 浏览 64

向科米索的最后告别:富纳罗、费拉利、普拉德等人将在美国出席

绿茵情报局 浏览 21

成龙称以前对儿子太严格了 现在只希望平安开心

韩小娱 浏览 34

当基金投资遇上社交媒体,是普惠金融还是“类传销”陷阱?

国际金融报 浏览 79

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 51

格力再强调暂无铝代铜计划!铝和铜各方面存在较大差距

快科技 浏览 20

暗夜出击!南部空军全要素实兵演练超燃来袭

环球网资讯 浏览 21

牛弹琴:荷兰控制中企简直"白痴" 现在给中国道歉晚了

大象新闻 浏览 63

《数据周报88》:70大中城市房价全线下跌

智本社 浏览 42

美国男子当街被ICE打死 执法人员5秒内至少开了10枪

澎湃新闻 浏览 17

软银集团20亿美元入股英特尔

环球网资讯 浏览 87

于正谈杨幂真翻身了

大龄女一晓彤 浏览 86

今年,北京要把奥林匹克塔打造成机器人餐厅!

北京商报 浏览 19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12