Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

我们真的在测试3D AI吗?研究揭示了3D基准的主要缺陷

Kerem GülenbyKerem Gülen
13 2 月, 2025
in Research
Home Research

人工智能在三个维度上越来越好了解世界,但是一项新研究表明许多 3D大语言模型(LLM)基准可能实际上根本没有测试3D功能。取而代之的是,这些评估可能是研究人员所说的“ 2D作弊”问题的受害者 – 在2D图像上训练的AI模型仅通过将点云渲染到图像中就可以超越专用的3D模型。

一支来自上海若昂大学的团队,包括Jiahe Jin,Yanheng He和Mingyan Yang,在他们的研究中发现了“重新访问3D LLM基准:我们真的测试了3D功能吗? 许多用于评估3D AI的任务可以通过视觉模型(VLM)(VLMS)(主要是在2D图像和文本上训练的AI系统)同样容易解决。这提出了一个至关重要的问题:当前的基准测试是否真正衡量了3D理解,还是只是测试了AI可以处理3D数据的2D渲染的程度?

2d-Cheating:揭示基准弱的快捷方式

该问题源于如何评估3D LLM。许多现有基准依靠 问答和字幕任务,要求AI描述3D对象或回答有关它的问题。假设是 3D训练的AI 应该比仅了解2D图像的表现更好。

但是,研究人员发现 GPT-4O和QWEN2-VL等VLM这不是专门为3D任务设计的,可以 通常超过最先进的3D模型– 通过查看点云的2D图像来简单。这表明这些基准并未实际测试AI是否了解3D结构,而是 从平面图像中推断出3D信息的能力如何。

为了证明这一点,团队发展了 VLM3D,将3D点云转换为渲染的图像之前,将其馈入VLM之前。在主要的3D AI基准测试时(包括) 3D MM-VET,OBJAVERSEXL-LVI,SCANQA和SQA3D– VLM3D在许多任务中始终超过或匹配领先的3D模型。

为什么某些3D任务比其他任务更脆弱

虽然VLM在对象识别和基本场景描述等任务上表现出色,但他们在需要更深入了解的任务上挣扎 空间关系,遮挡和多视图一致性。

  • 简单的3D对象基准:3D基准中的许多对象识别任务可能是 使用2D图像轻松解决。研究发现,在这些情况下,VLM可以匹配或超过3D模型,证明基准测试没有有效测试3D理解。
  • 复杂的场景基准:要求AI了解完整3D环境的任务,例如 场景级问答,,,, 导航, 和 情境推理,对于VLM而言,很难欺骗。在这里,3D LLM始终表现得更好,表明这些任务确实依赖于真正的3D空间推理。

这意味着 并非所有3D基准都有缺陷– 但其中许多未能区分 真正的3D功能和2D推理技巧。

当2D型号卡住时

VLM在3D任务中最大的弱点之一来自 观点选择– 单个2D图像仅捕获了3D场景的一部分事实。

研究人员测试了 三种不同的渲染方法 评估这对性能有多大影响:

  1. 单视: 最简单的方法,其中对象或场景是从固定的角度呈现的。 VLM在这里表现最好,因为他们只能从一个图像中提取足够的信息。
  2. 多视图: 图像是从中捕获的 四个不同的角度,使AI模型更多的上下文。令人惊讶的是,VLM 没有显着改善 与单视模型相比,他们努力将多种观点结合到统一的3D理解中。
  3. Oracle View: AI被给予 最好的观点 用于回答每个问题。 在这里,VLM的表现要好得多,但仍然没有专用的3D LLM,表明即使给出了完美的图像,它们也缺乏真正的3D推理能力。

这加强了这样的想法 VLM不“理解” 3D– 当给出正确的2D视图时,它们会做得很好。

需要改变什么

为了真正评估3D AI模型,该研究提出了 四个关键原则 用于设计更好的基准:

  1. 更复杂的3D数据: 基准应该包括 详细且现实的3D场景 具有结构上的复杂性。
  2. 需要真正3D推理的任务: 不仅应识别对象,还应在需要的任务上测试AI 空间理解,例如预测隐藏的表面或有关对象相互作用的推理。
  3. 情境感知挑战: 应该设计问题以关注 唯一的3D属性,确保不能仅使用单个2D图像来回答它们。
  4. 更好的评估指标: 当前的基准通常依靠 文本相似性得分,未能捕获 真正的3D理解。相反,应根据其模型的能力来评估AI模型 在三维空间中推断深度,结构和对象关系。
我们是我们实现的3D-AI-AREARZERS-REVEAL-A-A-FLAW-IN-FLAW-IN-3D-LLM基准测试
((图片来源)

研究人员证明了如何应用这些原则 重新设计有缺陷的任务 (请参见上图)。他们的方法可确保AI模型实际上必须 过程3D结构 而不是依靠2D快捷方式。


特色图片来源: Sebastian Svenson/Unsplash

Tags: 3DLLM人工智能特色

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

人工智能研究工具可能会造成比他们解决的更多问题

14 5 月, 2025
您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

14 5 月, 2025
微软的阿黛尔(Adele)想给您的AI认知概况

微软的阿黛尔(Adele)想给您的AI认知概况

14 5 月, 2025
Apple Research论文揭示了3D内容生成的Matrix3D

Apple Research论文揭示了3D内容生成的Matrix3D

14 5 月, 2025
研究:Genai评估的黄金标准

研究:Genai评估的黄金标准

12 5 月, 2025
AI终于解决了生物学最难的难题

AI终于解决了生物学最难的难题

6 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.