元平台 宣布 SAM 3 和 SAM 3D 是其 Segment Anything Collection 中的新开源计算机视觉模型,可实现基于文本的对象检测和三维重建,以支持视频编辑和内容创建过程。这些模型与集合中的先前版本不同,允许通过自然语言提示而不是手动选择方法来检测和分割对象。例如,SAM 3 可以识别每次出现的与“黄色校车”或“坐着但没有戴红色棒球帽的人”等描述相匹配的对象,如 Meta 公告中所详述。此功能扩展到指定排除或条件的复杂查询,从而促进视觉内容中的精确定位。 SAM 3D 专注于从单个二维图像生成对象、个体和整个场景的三维表示。这种重建提供了以前从静态照片中无法获得的深度和空间信息,从而支持需要体积理解的应用程序。 SAM 3 的性能指标包括 LVIS 基准上的零镜头掩模平均精度得分为 47.0,根据 Meta 的研究论文中的发现,与之前的系统相比提高了 22%。使用H200 GPU时,该模型的运行速度约为每帧30毫秒,可同时管理100多个对象,支持苛刻场景下的实时处理。 “SAM 3 克服了这一限制,接受更大范围的文本提示,”Meta 在其公告中表示。为了帮助开发人员,Meta 与 Roboflow 合作,提供用于数据注释、模型微调和针对特定用例定制的部署的工具。这种合作关系简化了依赖计算机视觉的行业的定制。通过 Meta 开发的 Segment Anything Playground 平台可以访问这两种模型,该平台专为没有高级技术技能的用户而设计。 Meta 正在提供 SAM 3 的模型权重、评估基准和相关研究论文。对于 SAM 3D,该公司专门与研究社区的成员共享模型检查点和推理代码,促进进一步的学术和实验发展。在实际实施中,SAM 3 集成到 Meta 的 Edits 视频创建应用程序和 Vibes 平台中,在其中驱动允许修改视频中指定对象的效果。因此,创作者可以有选择地编辑元素,而不会影响周围的内容。另外,SAM 3D 支持 Facebook Marketplace 上的“在房间中查看”功能,允许买家将家具和家居装饰物品的虚拟展示放置到自己的环境中,以便在购买之前进行预览。





