优优资讯

你有没有试过这样的体验：跟朋友聊天时，你想让他看看照片里的某个东西，但又不知道怎么准确描述它的位置？你可能会说"就是那个红色的杯子"，朋友却问"哪个红色杯子？"这种沟通障碍在人工智能领域同样存在，而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队，最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上，论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"（arXiv:2510.01954v1），感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解：当你问AI"这张照片里有什么？"时，传统AI只能告诉你"有一只猫、一个杯子、一张桌子"，但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是，当你要求AI找到"桌子上那个蓝色杯子"时，它往往会给出一串看起来很专业但实际上并不准确的数字坐标，比如"[245, 156, 378, 298]"，普通人根本无法理解这些数字代表什么。

南洋理工、腾讯等机构联手突破：让AI像人一样＂指点＂图片中的东西

A股“网红经...

陶冬：美俄峰...

“爆冷”又如...

世体：拉波尔...

AI越来越强...

记者：格雷米...

加沙卫生部门：过去24小时以军行动造成至少80人死亡

华为登顶，吃了谁的蛋糕？

学会这10个小技巧，养成女人的高级感

4大最新信号！出手“黄金坑”的机会来了？

今日热点：卢靖姗韩庚官宣二胎出生；路行退出《再见爱人5》……

ESPN：因内马尔的身体状况和高额薪资，桑托斯不急于和他续约

特朗普＂力挺＂中国高市闯祸能否拥有核武日本说了不算

董路：日本队6届世界杯过不了16强跟国足24年无缘世界杯一样痛苦

福建200亿国企董事长卸任，去年薪酬545万元

哲凯还是谢什科？鲁尼：伊萨克谢什科二选一我也还是会选后者

传统车企的反击，别克至境L7入局新能源

苏亚雷斯谈哲凯赖什：他很优秀，但是还得沉淀一下

国王记者：即使能把库明加送走勇士也更倾向于蒙克而不是德罗赞

iPhone Air国行版要来了！联通eSIM预约通道正式开放

2000元抵4000元阿维塔12四激光版预售

中国核聚变技术获国际原子能机构肯定，“环流三号”亮相聚变能国际大会

浙江大学StaMo实现静态图像生成机器人动作

金价明年破5000美元？分析：前提是“美元贬值交易”重新流行

东风集团权利下放，这家央企新势力要跟华为干件大事

布朗复出27+7绿军19分逆转双杀热火西蒙斯39+7三分赛季新高

技嘉X870E X3D超级冰雕主板图赏：超大彩屏，五彩斑斓的白

原厂带升顶/有纯电有增程福特智趣烈马将上市

曼联警告球迷：唱“切尔西租男”可能会被警方逮捕

马杜罗在纽约首次“出庭” 多国发表联合声明