單卡還可以跑萬(wàn)幀,智源發(fā)布Video-XL-二、速度、效果、長(zhǎng)度都打滿了。
【簡(jiǎn)介】智源研究院發(fā)布Video開源模型-XL-2.顯著提高對(duì)長(zhǎng)視頻的理解能力。該模型全面優(yōu)化了效果、處理長(zhǎng)度和速度,支持單卡處理萬(wàn)幀視頻,2048幀編碼只需12秒。
長(zhǎng)視頻理解是多模態(tài)大模型的關(guān)鍵能力之一。
盡管OpenAI GPT-4o、Google Gemini等私人模型在這一領(lǐng)域取得了顯著進(jìn)展,目前的開源模型在效果、計(jì)算費(fèi)用、運(yùn)行效率等方面仍然存在明顯的不足。
近日,智源研究院與上海交通大學(xué)等機(jī)構(gòu)合作,正式發(fā)布了新一代超長(zhǎng)視頻理解模式:Video-XL-2。與上一個(gè)版本相比,Video-XL,該模型在多維度上全面優(yōu)化了多模態(tài)大模型對(duì)長(zhǎng)視頻內(nèi)容的理解能力:
- 效果更好:Video-XL-2MLVU在長(zhǎng)視頻理解任務(wù)中表現(xiàn)出色,、Video-MME、在同參數(shù)規(guī)模開源模型中,LVBench等主流評(píng)價(jià)標(biāo)準(zhǔn)處于領(lǐng)先地位。
- 長(zhǎng)度更久:新型顯著擴(kuò)展了可處理視頻的時(shí)間,支持對(duì)長(zhǎng)達(dá)萬(wàn)幀的視頻輸入進(jìn)行高效處理。
- 速度更快:Video-XL-2大大提高了處理效率,2048幀視頻編碼只需12秒,顯著加快了長(zhǎng)視頻理解過(guò)程。
目前,Video-XL-2模型權(quán)重已經(jīng)全面向社區(qū)開放。未來(lái),該模型有望在影視內(nèi)容分析、行為問(wèn)題監(jiān)測(cè)等多個(gè)實(shí)際場(chǎng)景中展現(xiàn)出重要的實(shí)用價(jià)值。
項(xiàng)目首頁(yè):https://unabletousegit.github.io/video-xl2.github.io/
模型HF鏈接:https://huggingface.co/BAAI/Video-XL-2
庫(kù)房鏈接:https://github.com/VectorSpaceLab/Video-XL
技術(shù)簡(jiǎn)介
圖1:Video-XL-2模型架構(gòu)示意圖
就模型架構(gòu)模式而言,Video-XL-二是主要由三個(gè)核心部件組成:視覺(jué)編碼器(Visual Encoder)、動(dòng)態(tài)Token生成模塊(Dynamic Token Synthesis, DTS)還有大語(yǔ)言模型(LLM)。
具體來(lái)說(shuō),Video-XL-2選擇SigLIP-SO400M作為視覺(jué)編碼器,逐幀處理輸入視頻,將每一幀編碼為高維視覺(jué)特征。
隨后,DTS模塊將這些視覺(jué)特征融合壓縮,并對(duì)其時(shí)序關(guān)系進(jìn)行建模,從而提取更具語(yǔ)義的動(dòng)態(tài)信息。
通過(guò)平均池化和多層感知機(jī)處理的視覺(jué)表征(MLP)進(jìn)一步映射文本嵌入空間,實(shí)現(xiàn)模式對(duì)齊。最終,將對(duì)齊后的視覺(jué)信息輸入到Qwen2.5-Instruct,從而實(shí)現(xiàn)對(duì)視覺(jué)內(nèi)容的理解和推理,并完成相應(yīng)的下游任務(wù)。
圖2:Video-XL-2練習(xí)階段示意圖
就實(shí)踐策略而言,Video-XL-2使用了第四階段漸進(jìn)訓(xùn)練設(shè)計(jì),逐步構(gòu)建其強(qiáng)大的長(zhǎng)視頻理解能力。
前兩階段主要使用圖像/視頻-文本對(duì),完成初始化和跨模式對(duì)齊DTS模塊;
三是引入更大規(guī)模、更高質(zhì)量的圖像和視頻描述數(shù)據(jù),初步確定模型對(duì)視覺(jué)內(nèi)容的理解能力;
四是對(duì)大規(guī)模、高質(zhì)量、多樣化的圖像和視頻指令數(shù)據(jù)進(jìn)行微調(diào),使Video-XL-2的進(jìn)一步提高和強(qiáng)化視覺(jué)理解能力,這樣就能更準(zhǔn)確地理解和響應(yīng)復(fù)雜的視覺(jué)指令。
圖3. Chunk-based Prefilling
圖4. Bi-granularity KV Decoding
此外,Video-XL-2還系統(tǒng)地制定了效率優(yōu)化措施。。
首先,Video-XL-2引進(jìn)了分段預(yù)裝填料策略(Chunk-based Prefilling,如圖3所示):將超長(zhǎng)視頻分成幾個(gè)連續(xù)的片段。(chunk),密集的注意力機(jī)制用于每一個(gè)chunk內(nèi)部的編碼,而不同的chunk則通過(guò)時(shí)間戳傳遞上下文信息。
這種設(shè)計(jì)顯著降低了預(yù)裝填階段的核算成本和顯存費(fèi)用。第二,Video-XL-2還設(shè)計(jì)了基于雙粒KV的解碼機(jī)制(Bi-granularity KV Decoding,如圖4所示):在推理過(guò)程中,模型會(huì)根據(jù)任務(wù)需要有選擇地將完整的KVs載入關(guān)鍵片段。(dense KVs),而且其它次要片段僅載入降降采樣后稀疏的KVs。(sparse KVs)。
這種機(jī)制有效地縮短了推理窗口的長(zhǎng)度,從而大大提高了解碼效率。得益于上述策略的協(xié)同優(yōu)化,Video-XL-二是在單張顯卡中對(duì)萬(wàn)幀級(jí)視頻進(jìn)行高效推理,顯著提高了其在實(shí)際應(yīng)用場(chǎng)景中的實(shí)用性。
試驗(yàn)效果
圖5:Video-XL-二是主要對(duì)比結(jié)果
表1:Video-XL-二是全面對(duì)比結(jié)果
就模型的主要表現(xiàn)而言,Video-XL-2在MLVU、主流長(zhǎng)視頻評(píng)價(jià)標(biāo)準(zhǔn),如VideoMME和LVBench,全面超越當(dāng)前所有輕量級(jí)開源模型,實(shí)現(xiàn)當(dāng)前最先進(jìn)的性能(SOTA),與第一代Video-XL相比,顯著改善。
特別值得注意的是,在MLVU和LVBench上,Video-XL-Qwen2.5-VL-72B和LLaVA-Video-數(shù)據(jù)規(guī)模高達(dá)720億的大模型,如72B。
另外,時(shí)序定位(Temporal Grounding)任務(wù)時(shí),Video-XL-2在Charades-STA數(shù)據(jù)方面也表現(xiàn)出色,進(jìn)一步驗(yàn)證了它在多模態(tài)視頻理解場(chǎng)景中的普遍適用性和實(shí)際價(jià)值。
圖6:Video-XL-2輸入長(zhǎng)度對(duì)比展示
除提高效果外,Video-XL-2在視頻長(zhǎng)度方面也表現(xiàn)出顯著優(yōu)勢(shì)。。
如圖6所示,單張24GB消費(fèi)級(jí)顯卡(例如RTX) 3090 / 4090)上,Video-XL-2可以處理近千幀的視頻;但是在單張80GB高性能顯卡(例如A100 / H100)上,模型更支持萬(wàn)幀視頻輸入,遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)前主流開源模式。
與VideoChat-Flash和第一代Video相比,-XL,Video-XL-2視頻理解的長(zhǎng)度明顯擴(kuò)大,資源需求有效減少,為處理復(fù)雜的視頻任務(wù)提供了有力支持。
圖7:Video-XL-2 對(duì)比展示Prefilling速率
圖8:Video-XL-2 Prefilling速度和輸入幀數(shù)之間的關(guān)系
最終,Video-XL-2在速度方面也表現(xiàn)出卓越的性能。。如上圖8所示,Video-XL-預(yù)填2048幀視頻只需12秒即可完成。
此外,其預(yù)填充時(shí)間與輸入幀數(shù)之間也呈現(xiàn)出類似的線性增長(zhǎng),體現(xiàn)了其優(yōu)異的可擴(kuò)展性。
相比之下,Video-XL與VideoChat-在輸入長(zhǎng)視頻時(shí),F(xiàn)lash的工作效率明顯落后于Video-XL-2。
應(yīng)用潛力
下面是一些具體的例子,將顯示Video-XL-2在實(shí)際應(yīng)用中的巨大潛力:
Example 1:電影情節(jié)問(wèn)答
Question:A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer:The phone’s color is red
Example 2:監(jiān)測(cè)異常檢測(cè)
Question:Is there any unexpected event happening in this surveillance footage?
Answer:There is physical altercation between the customers and the store employees
Example 3: 總結(jié)影視劇內(nèi)容
Example4:總結(jié)游戲直播內(nèi)容
得益于優(yōu)秀的視頻理解能力和高效處理超長(zhǎng)視頻的性能,Video-XL-2在各種實(shí)際應(yīng)用場(chǎng)景中顯示出極大的應(yīng)用潛力。
例如,它可以廣泛應(yīng)用于影視內(nèi)容分析、情節(jié)理解、監(jiān)控視頻中的異常行為檢測(cè)和安全預(yù)警等任務(wù),為現(xiàn)實(shí)世界中復(fù)雜的視頻理解需求提供高效、準(zhǔn)確的技術(shù)支持。
本文來(lái)自微信微信官方賬號(hào)“新智元”,編輯:定慧 Aeneas,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com