关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元77人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

“电池车”全面压过“发动机”一头？油车时代的辉煌，被彻底终结

少数派报告Report 浏览 36

农妇遭错判寻衅滋事罪被羁押507天获30万元国家赔偿

扬子晚报浏览 20

A股公司又有欺诈发行！公安已出手，三家外资机构刚重仓买入

深蓝财经浏览 93

精彩推荐

尚界H5价格疑似曝光：分增程和纯电最低15.98万元

智车情报局浏览 94

算力供给侧大模型实际应用有何优势与局限？这场沙龙集思广益

澎湃新闻浏览 100

官方：2010年状元约翰-沃尔退役，结束14年NBA生涯

懂球帝浏览 92

享界S9T静态评测首发，打造旅行车界全能模范

雷科技浏览 83

售16.59万元起改款奥迪A3家族正式上市

网易汽车浏览 71

30个项目脱颖而出！大赛让AI与实体经济深度“握手”

上游新闻浏览 64

上汽、宁德时代联手实现技术突破，“自带超充桩的电车”开启预售

文汇报浏览 103

百亿资产转让频现银行加速甩包袱

北京商报浏览 60

俄导弹深夜斩首，乌军封锁现场，英美法沉默

岚图汽车2025年交付150169辆同比增87%

网易汽车浏览 26

奥特曼零食之父，要去IPO了

投资家浏览 56

英伟达宣布355亿入股英特尔

网易科技报道浏览 111

内塔尼亚胡赠特朗普美军B-2轰炸机造型“特别礼物”

环球网资讯浏览 92

补贴政策落地 “投资于人”意在深远

证券市场周刊浏览 101

外媒：特朗普看起来正在准备大规模出卖乌克兰

环球网资讯浏览 297

科大讯飞AI创新成果亮相第十届版博会

中安在线浏览 63

3人公司9周内赚100万美元的极致创业

虎嗅APP 浏览 106

52岁影后自曝交往小20岁男友，二人曾被偶遇逛街

娱乐看阿敞浏览 977

含奕派007/奕派008等东风奕派限时权益至高减6000元

网易汽车浏览 18

联合国：加沙人道救援物资需求缺口依旧巨大

国际在线浏览 93

冬天的“外套”别随便买！40+女人锁定这3款，优雅大气还保暖

静儿时尚达人浏览 29

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-12