Meta Segment Anything Model 2 (SAM 2) 凭借其出色的功能引起了轰动。与难以处理新型物体的传统模型不同,SAM 2 使用零样本学习来识别和分割未经过专门训练的物体。这意味着它可以轻松处理各种各样的视觉内容。
想象一下,有这样一个工具,它不仅可以在单帧中分割物体,还可以在整个视频序列中跟踪和保持物体的连续性,即使在遮挡和快速变化的情况下也是如此。SAM 2 通过其统一的架构和内存机制实现了这一点。下面就是具体方法。
元细分任何模型 2 (SAM 2) 详解
Meta Segment Anything Model 2 是一种先进的计算机视觉模型,旨在处理各种媒体类型(包括图像和视频)中的对象分割。与可能需要对新类型对象进行大量重新训练的传统分割模型不同,SAM 2 配备了零样本学习功能。由于其强大的泛化能力,这意味着它可以分割未明确训练过的对象。这对于具有多样化或不断发展的视觉内容的应用程序特别有用,因为这些应用程序经常出现新的对象类别。
Meta SAM 2 功能的核心是其统一架构,可同时处理图像和视频帧。该架构采用一种记忆机制,有助于保持视频帧之间的连续性,解决遮挡和物体移动等挑战。
该模型的记忆编码器会捕获先前帧中的信息,这些信息存储在存储库中,并由记忆注意模块访问。此设置可确保模型能够随着时间的推移准确跟踪和分割对象,即使对象被部分遮挡或场景发生动态变化。
SAM 2 还具有高度交互性,允许用户提供各种类型的提示(例如点击、边界框或蒙版)来指导分割过程。这种可提示的分割功能使用户能够根据自己的特定需求优化分割结果,并解决对象检测中的任何歧义。当遇到可能存在多种解释的复杂场景时,SAM 2 可以生成多个潜在蒙版,并根据置信度选择最合适的蒙版。
使用以下方式训练和评估模型: SA-V数据集,以其规模和多样性而著称。该数据集包含约 51,000 个真实世界视频序列和超过 600,000 个 masklet,为训练和测试分割模型提供了全面的资源。该数据集中的注释是与 SAM 2 本身交互生成的,确保了高准确性和与真实场景的相关性。该数据集涵盖广泛的地理位置和各种类型的视觉内容,包括具有部分对象视图和遮挡的场景。
Meta 的 Segment Anything Model (SAM) 2 代表了交互式视频分割的重大进步,性能大大优于之前的模型。它在 17 个零样本视频数据集中表现出色,所需的人工交互减少了三倍,并且比其前身快了六倍, 山姆. SAM 2 的表现优于现有的基准测试,如 DAVIS 和 YouTube-VOS,处理视频的速度约为每秒 44 帧,因此对于实时应用而言非常高效。它能够以比手动注释快 8.4 倍的速度执行视频分割,这进一步凸显了其在处理复杂视频任务方面的有效性和效率。
SAM 2 的进步不仅对视频分析和注释等实际应用具有重要意义,而且对更广泛的计算机视觉研究领域也做出了贡献。通过公开其代码和数据集,Meta 鼓励分割技术的进一步创新和发展。未来的改进可能侧重于增强模型处理长期遮挡和具有多个移动物体的日益复杂的场景的能力,继续突破物体分割的极限。
如何使用 SAM 2
Meta Segment Anything Model 2 (SAM 2) 有一个网络演示,你只需要:
- 点击这里 并访问演示页面。
- 接受警告
- 单击要关注的一个或多个对象。
- 点击“跟踪物体”
- 控制输出。如果没有问题,请单击“下一步”
- 随意添加效果,或者点击“给我惊喜”让人工智能发挥作用
- 点击下一步”
- 现在,您可以获取链接或下载它。以下是我们的结果:
元段任意模型 2 (SAM 2) 测试 pic.twitter.com/d07PGto0eO
— 艾伦·戴维斯 (@AlanDav73775659) 2024 年 7 月 30 日
就这样!
特色图片来源: 元