亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

ICLR 2026 現(xiàn) SAM 3:讓模型理解「概念」,邁向分割新高度

10-14 06:48

Meta 的「分割一切」技術有了新進展?SAM 3 能根據(jù)你說出的概念,精準描繪出所有出現(xiàn)位置的邊界。

9 月 12 日,一篇匿名論文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登上 ICLR 2026,引發(fā)網(wǎng)友廣泛關注。

  • 論文標題:SAM 3: Segment Anything with Concepts
  • 論文地址:https://openreview.net/forum?id=r35clVtGzw

大家普遍猜測這篇論文出自 Meta,因為其文風和 Meta 以前發(fā)布的論文很相似。而且 SAM 與 SAM 2 都是 Meta 推出的,所以外界基本確定,SAM 3 是 Meta「Segment Anything」系列的正式續(xù)作。

從時間節(jié)點來看,這篇論文的出現(xiàn)也契合 Meta 的節(jié)奏。2023 年 4 月,SAM 1 發(fā)表,獲得當年 ICCV 最佳論文提名,其(零樣本)分割一切的概念讓研究者驚嘆,被譽為 CV 領域的「GPT - 3 時刻」。2024 年 7 月,SAM 2 發(fā)表,它在前作基礎上,將圖像和視頻分割功能統(tǒng)一到一個強大的系統(tǒng)中,能為靜態(tài)圖像和動態(tài)視頻內(nèi)容提供實時、可提示的對象分割。如今,一年過去,SAM 3 的登場正當時。

那么,SAM 3 有什么新進展呢?它被定義為更高級的「可提示概念分割(Promptable Concept Segmentation, PCS)」任務。該任務將文本和/或圖像范例作為輸入,為每個與概念匹配的對象預測實例掩碼和語義掩碼,同時保持視頻幀之間對象身份的一致性。其重點是識別原子視覺概念,所以輸入文本被限制為簡單的名詞短語,如「紅蘋果」或「條紋貓」,只要描述想要的東西,它就能在圖像或視頻中找到并分割出每個對應實例。這意味著分割技術學會了理解語言,能根據(jù)概念精確描繪出邊界。

有人會問,SAM 1 也有文本功能,這次有什么不同?論文指出,SAM 1 中文本提示功能「未完全開發(fā)」,SAM 1 和 SAM 2 實際重點在于「視覺提示」(如點、框、掩碼),它們無法解決找到并分割輸入內(nèi)容中某一概念所有實例的更廣泛任務。簡單說,SAM 3 讓用戶從「手動一個個點出來」升級到「告訴模型一個概念,它幫你全部找出來」。

SAM 3 在兩方面取得進步。在通過點擊進行可提示視覺分割方面,性能優(yōu)于 SAM 2;在可提示概念分割方面也有進展,用戶可通過簡短名詞短語、圖像范例或兩者組合指定視覺概念并分割出所有實例。在論文提出的新基準 SA - Co 上,SAM 3 的性能比之前系統(tǒng)提升至少 2 倍,在多個公開基準測試上取得 SOTA 成績。例如,在 LVIS 數(shù)據(jù)集上,其零樣本掩碼平均精度達到 47.0,而之前最佳紀錄是 38.5。同時,模型在單個 H200 GPU 上處理一張有超 100 個物體的圖像僅需 30 毫秒。

不過,評論區(qū)也有質(zhì)疑聲。有人指出,根據(jù)文本描述分割物體的想法不新鮮,學術界早有「指代分割」的研究,認為這項工作只是「重新命名」和包裝舊概念。還有評論認為,Meta 是在「追趕」開源社區(qū)步伐,因為社區(qū)早已通過組合不同模型實現(xiàn)類似功能。

方法介紹

文中提到,SAM 3 是對 SAM 2 的擴展,在圖像與視頻的可提示分割上有重大突破。與 SAM 2 相比,SAM 3 在可提示視覺分割(Promptable Visual Segmentation,PVS)上表現(xiàn)更優(yōu),還為可提示概念分割(Promptable Concept Segmentation,PCS)設定了新標準。

簡單來說,SAM 3 接收概念提示(如簡單名詞短語、圖像示例)或視覺提示(如點、框、掩碼)來定義需進行時空分割的對象。本文重點是識別原子級視覺概念,用戶可通過簡短名詞短語、圖像示例或二者組合,分割指定視覺概念的所有實例。

但 PCS 存在固有模糊性,很多概念有多重釋義,如「小窗戶」就很主觀且邊界模糊。針對此問題,Meta 在數(shù)據(jù)收集、指標設計和模型訓練等階段進行了系統(tǒng)化處理。和前代 SAM 版本一樣,SAM 3 保持完全交互性,允許用戶添加優(yōu)化提示消除歧義,引導模型生成預期輸出。

在模型架構上,SAM 3 采用雙編碼器 - 解碼器 Transformer 架構,這是一個有圖像級識別能力的檢測器,結合跟蹤器和內(nèi)存模塊可應用于視頻領域。檢測器和跟蹤器通過對齊的感知編碼器(PE)主干網(wǎng)絡接收視覺 - 語言輸入。

此外,該研究構建了可擴展的人機協(xié)同數(shù)據(jù)引擎,用于標注大規(guī)模多樣化訓練數(shù)據(jù)集?;诖讼到y(tǒng),成功標注了包含 400 萬獨特短語和 5200 萬掩碼的高質(zhì)量訓練數(shù)據(jù),以及包含 3800 萬短語和 14 億掩碼的合成數(shù)據(jù)集。

更進一步,本文創(chuàng)建了用于 PCS 任務的 Segment Anything with Concepts(SA - Co)基準測試,涵蓋 124K 張圖像和 1.7K 視頻中的 214K 獨特概念,概念數(shù)量超現(xiàn)有基準測試集 50 倍以上。

實驗

實驗結果顯示,在零樣本設置下,SAM 3 在封閉詞匯數(shù)據(jù)集 COCO、COCO - O 和 LVIS 的邊界框檢測任務中有競爭力,在 LVIS 掩碼任務上表現(xiàn)顯著更好。在開放詞匯 SA - Co/Gold 數(shù)據(jù)集上,SAM 3 的 CGF 分數(shù)是最強基線 OWLv2 的兩倍,在其他 SA - Co 子集上提升更高。在 ADE - 847、PascalConcept - 59 和 Cityscapes 上的開放詞匯語義分割實驗中,SAM 3 表現(xiàn)超越強大的專家型基線 APE。

在小樣本自適應方面,SAM 3 在 10 - shot 設置下實現(xiàn)當前最優(yōu)性能,超過了 Gemini 的上下文提示以及目標檢測專家模型(如 gDino)。在帶有 1 個樣本的 PCS 中,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表現(xiàn)遠超之前最先進的 T - Rex2。

在物體計數(shù)方面,與 MLLM 相比,SAM 3 不僅有良好的物體計數(shù)準確率,還能提供大多數(shù) MLLM 無法提供的對象分割功能。

SAM 3 在文本提示下的視頻分割表現(xiàn)遠超基線,尤其是在包含大量名詞短語的基準測試中。將 SAM 3 與 VOS(Video Object Segmentation)任務上的先進方法比較,SAM 3 在大多數(shù)基準測試中比 SAM 2 有顯著改進。對于交互式圖像分割任務,SAM 3 在平均 mIoU 方面優(yōu)于 SAM 2。

本文來自微信公眾號“機器之心”,36氪經(jīng)授權發(fā)布。

本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com