亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

美團(tuán)LongCat - Video正式發(fā)布并開源,助力高效長(zhǎng)視頻生成

10-28 07:12
美團(tuán)正式開源了視頻生成模型LongCat - Video,該模型能夠支持文生視頻、圖生視頻等多種任務(wù)。


在10月27日,美團(tuán)LongCat團(tuán)隊(duì)正式發(fā)布并開源了視頻生成模型LongCat - Video。團(tuán)隊(duì)介紹,此模型在統(tǒng)一的架構(gòu)之下,同時(shí)支持文本生成視頻(Text - to - Video)、圖像生成視頻(Image - to - Video)以及視頻續(xù)寫等基礎(chǔ)任務(wù)。并且,在內(nèi)部和公開基準(zhǔn)(包含VBench)測(cè)試中,該模型取得了開源范圍內(nèi)的領(lǐng)先成果。




▲LongCat - Video視頻生成模型在文生、圖生視頻基礎(chǔ)任務(wù)上達(dá)到開源SOTA(資料圖)


技術(shù)報(bào)告表明,LongCat - Video是基于Diffusion Transformer(DiT)架構(gòu)的,采用以“條件幀數(shù)量”來(lái)區(qū)分任務(wù)的方式:文本生成視頻時(shí)不輸入條件幀,圖像生成視頻輸入1幀參考圖,視頻續(xù)寫依托多幀前序內(nèi)容,不用額外改造模型就能覆蓋這三類任務(wù)。


為了提高長(zhǎng)時(shí)序生成能力,該模型在預(yù)訓(xùn)練階段就引入了原生的視頻續(xù)寫任務(wù)。團(tuán)隊(duì)表示,模型可以穩(wěn)定生成分鐘級(jí)的長(zhǎng)視頻,并且在跨幀時(shí)序一致性與物理運(yùn)動(dòng)合理性方面進(jìn)行了針對(duì)性的優(yōu)化,以此減少色彩漂移、畫質(zhì)衰減以及動(dòng)作斷裂等問(wèn)題。


在效率方面,模型結(jié)合了塊稀疏注意力(BSA)與條件token緩存機(jī)制,以此降低長(zhǎng)序列推理冗余;據(jù)說(shuō)在處理93幀及以上序列時(shí),能夠在效率和生成質(zhì)量之間保持穩(wěn)定的平衡。針對(duì)高分辨率、高幀率場(chǎng)景,模型采用“二階段粗到精(C2F) + BSA + 蒸餾”的組合策略,報(bào)告稱推理速度相比基線提升到了約10.1倍。


參數(shù)規(guī)模上,LongCat - Video基座模型大約有136億參數(shù)。評(píng)測(cè)涵蓋了文本對(duì)齊、圖像對(duì)齊、視覺質(zhì)量、運(yùn)動(dòng)質(zhì)量以及整體質(zhì)量等維度;團(tuán)隊(duì)稱該模型在文本對(duì)齊與運(yùn)動(dòng)連貫等指標(biāo)上表現(xiàn)出色,并且在公開基準(zhǔn)VBench等測(cè)試中取得了不錯(cuò)的成績(jī)。



LongCat團(tuán)隊(duì)將此次發(fā)布定位為其“世界模型(World Model)”方向探索的一步,相關(guān)代碼與模型已經(jīng)對(duì)外開源。上述結(jié)論與性能表述均引自團(tuán)隊(duì)技術(shù)報(bào)告與發(fā)布材料。


本文來(lái)自“騰訊科技”,編譯:曉靜,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com