SAM 3:让AI从「分割一切」到理解「视觉概念」
如何让AI不仅能“看见”物体,更能“理解”我们所说的概念?针对先前分割模型依赖手动点击的局限性,一篇提交至ICLR 2026的匿名论文(外界普遍猜测来自Meta)提出了SAM 3。该模型实现了革命性突破,允许用户通过简单的文字描述(如“条纹猫”),就能自动分割出图像或视频中符合该概念的所有实例。
研究团队首先定义了一项更高级的任务——可提示概念分割(PCS),其核心是让模型理解基于文本或图像范例的抽象概念。为此,SAM 3采用了一个强大的双编码器-解码器Transformer(dual encoder-decoder Transformer architecture)架构,该架构统一了图像检测和视频跟踪功能。为了训练这个能理解概念的模型,团队构建了一个庞大的人机协同数据引擎,生成了一个包含400万个独特概念短语和5200万个精确掩码的训练数据集。
在性能验证中,SAM 3展现了压倒性优势。在其团队创建的全新基准SA-Co上,SAM 3的性能是现有系统的两倍以上。在权威的LVIS数据集上进行零样本分割测试时,它的掩码平均精度达到了47.0,远超之前38.5的最佳纪录。除了高精度,SAM 3的效率也十分惊人,在单个H200 GPU上处理一张复杂图像仅需30毫秒。同时,它在传统的交互式分割任务上的表现也超越了前代SAM 2。研究作为会议论文提交至 ICLR 2026 上。
阅读更多:
“SAM 3: Segment Anything with Concepts.” 2025. The Fourteenth International Conference on Learning Representations, openreview.net, https://openreview.net/forum?id=r35clVtGzw
精选评论