摄影测量长期以来一直是3D场景重建的主食,但是其传统管道,密集的图像要求,断开处理阶段和累积错误一直是一种顽固的瓶颈。 苹果的新Matrix3D模型,在最近发布的 研究论文,提出了一个统一的框架,旨在通过将多个摄影测量任务集成到单个生成系统中来消除这些障碍。
与传统的摄影测量工作流不同,这些工作流依靠单独的工具进行姿势估计,深度预测和新型视图合成,Matrix3D在一个模型中处理所有这些功能。这种转变不仅仅是技术整合。它代表了一种哲学的进化,用于适应能够以最小的输入来解决3D重建的端到端系统 有时甚至来自一个图像。
摄影测量的多合一方法
matrix3d建立在 多模式扩散变压器 (DIT)架构。这意味着它不仅从RGB图像中学习,还可以从深度地图和相机姿势中学习,都编码为统一的2D表示。例如,它将3D几何形状转换为2.5D深度图,并使用plücker射线图代表相机信息。该设计使其能够将从现代生成图像模型到多视图3D代的技术应用。
该模型通过学习预测蒙版输入中缺失的方式来运作。在训练过程中,Matrix3D暴露于部分完整的数据集中,其中有些仅带有图像置对,其他具有深度对。掩盖策略可大大扩展可用的培训池,并教导该模型跨输入配置概括。通过删除对完整数据集的依赖性,它还可以增强模型在实际的现实应用程序中的稳健性。

跨任务的性能
苹果的研究人员在多个数据集中对Matrix3D进行了基准测试,包括 CO3D,DTU和GSO。对于稀疏输入条件下的姿势估计,Matrix3D优于诸如RayDiffusion和Dust3R之类的最先进模型。它的估计相机的能力仅来自两三个图像,在旋转和翻译精度上都表现出色。
在新的视图合成中,该模型在各种相机配置上实现了竞争性的PSNR和SSIM分数。当针对领先系统等测试 Syncreamer,,,, Wonder3D, 和 零123xl,,,, Matrix3d始终提供更高的结果结果。 深度图的添加进一步改善了这些指标,展示了其混合模式处理的强度。
对于深度估计,MATRIX3D再次证明了其适应性。即使对模型进行了多种视图的培训,它在单眼任务中表现良好,超过了专门的深度模型,例如Metric3d V2和Depth Acthic V2。这在来自DTU数据集的复杂场景中尤为明显,其中Matrix3D产生了较低的相对误差和均方根偏差得分。

Matrix3d的杰出功能之一是 能够从非常有限的输入中重建3D几何形状。该模型可以从单个图像开始,估计丢失的相机姿势和深度图,并合成初始化3D高斯裂(3DGS)管道所需的其他视图。这些步骤先前需要单独的工具或广泛的输入数据。现在,可以在简化整个重建过程的统一框架中执行它们。
使用MATRIX3D,即使是未予以的稀疏图像集也可以对3D重建可行。该模型自主估计姿势,填充缺失的视图,并为渲染引擎做准备。它的结果得到了基准和视觉比较的验证,尽管资源少于竞争方法,但表现出了有希望的准确性。 MATRIX3D在在单个GPU上有效运行时,可与CAT3D这样的多GPU系统提供可比的结果。

在混合任务中,MATRIX3D是独特的定位。它可以摄取RGB,姿势和深度输入的任意组合,并生成相应的输出,而无需重新训练或架构更改。 此能力为交互式3D设计,AR/VR内容生成和实时环境扫描打开了更广泛应用的门。
- 定量,Matrix3D在几个摄影测量任务中设置了新的基准测试。在姿势估计中,仅两种视图就达到了96%以上的相对旋转精度。对于新型视图综合,它可以在多种配置中提供出色的SSIM和PSNR分数。在深入的预测中,它记录了与专门基线相比,其绝对相对误差较低和较高的嵌入比。
- 定性,这些改进同样令人震惊。视觉输出显示出更清晰的几何形状,较少的伪影以及跨观点的更好一致性。与较早的型号相比,即使在困难的输入约束下,MATRIX3D也可以提供稳定的效果图。这加强了统一,基于扩散的摄影测量管道作为3D代的下一个前沿的实用性。