关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元77人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

尚界H5价格疑似曝光:分增程和纯电 最低15.98万元

智车情报局 浏览 94

算力供给侧大模型实际应用有何优势与局限?这场沙龙集思广益

澎湃新闻 浏览 100

官方:2010年状元约翰-沃尔退役,结束14年NBA生涯

懂球帝 浏览 92

享界S9T静态评测首发,打造旅行车界全能模范

雷科技 浏览 83

售16.59万元起 改款奥迪A3家族正式上市

网易汽车 浏览 71

30个项目脱颖而出!大赛让AI与实体经济深度“握手”

上游新闻 浏览 64

上汽、宁德时代联手实现技术突破,“自带超充桩的电车”开启预售

文汇报 浏览 103

百亿资产转让频现 银行加速甩包袱

北京商报 浏览 60

俄导弹深夜斩首,乌军封锁现场,英美法沉默

浏览 312

岚图汽车2025年交付150169辆 同比增87%

网易汽车 浏览 26

奥特曼零食之父,要去IPO了

投资家 浏览 56

英伟达宣布355亿入股英特尔

网易科技报道 浏览 111

内塔尼亚胡赠特朗普美军B-2轰炸机造型“特别礼物”

环球网资讯 浏览 92

补贴政策落地 “投资于人”意在深远

证券市场周刊 浏览 101

外媒:特朗普看起来正在准备大规模出卖乌克兰

环球网资讯 浏览 297

科大讯飞AI创新成果亮相第十届版博会

中安在线 浏览 63

3人公司9周内赚100万美元的极致创业

虎嗅APP 浏览 106

52岁影后自曝交往小20岁男友,二人曾被偶遇逛街

娱乐看阿敞 浏览 977

含奕派007/奕派008等 东风奕派限时权益至高减6000元

网易汽车 浏览 18

联合国:加沙人道救援物资需求缺口依旧巨大

国际在线 浏览 93

冬天的“外套”别随便买!40+女人锁定这3款,优雅大气还保暖

静儿时尚达人 浏览 29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12