亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

劍指Sora,AI視頻模型120秒免費(fèi)開玩玩。

2024-04-20

近日,Picsart AI 像Resarch這樣的團(tuán)隊(duì)聯(lián)合發(fā)布了StreamingT2V,它可以生成長達(dá)1200幀,持續(xù)2分鐘的視頻,一舉超越Sora。StreamingT2V作為開源世界的強(qiáng)大組成部分,可以無縫適應(yīng)SVD和animatediff等模型。


AI視頻模型120秒更長!不但比Sora長,而且免費(fèi)開源!


近日,Picsart AI Resarch等團(tuán)隊(duì)聯(lián)合發(fā)布了StreamingT2V,可生成長達(dá)1200幀、長達(dá)2分鐘的視頻,同時(shí)質(zhì)量也很好。


論文地址:https://arxiv.org/pdf/2403.14773.pdf


此外,作者表示,兩分鐘不是模型的極限,就像Runway的視頻可以延長一樣,StreamingT2V理論上可以實(shí)現(xiàn)無限長度。


在Sora之前,Pika、Runway、Stable Video Diffusion(SVD)等待視頻生成模型,一般只能生成幾秒鐘的視頻,最多延長到十秒鐘,


Sora一出,60秒的時(shí)間直接殺死了所有的模型,Runway的模型。CEO Cristóbal 當(dāng)天,Valenzuela發(fā)了一條推言:比賽開始了。


——沒有,超長AI視頻120秒就來了。


盡管這并不能立刻撼動(dòng)Sora的統(tǒng)治地位,但至少在時(shí)間上扳回了一座城市。


此外,StreamingT2V作為開源世界的強(qiáng)大組成部分,可以適應(yīng)SVD和animatediff等特點(diǎn),更好地促進(jìn)開源生態(tài)的發(fā)展:


就釋放的例子而言,目前兼容性的效果仍然略顯抽象,但是技術(shù)進(jìn)步只是時(shí)間問題,卷起來才是最重要的~


總有一天我們可以使用它?!窼ora開源」,——你說是吧?OpenAI。


免費(fèi)開玩

現(xiàn)在,StreamingT2V已經(jīng)在GitHub開放源碼,同時(shí)在huggingface上提供免費(fèi)試用,等不及了,小編馬上開始測試:


但是看起來服務(wù)器負(fù)荷太大,上面這個(gè)不知道是不是等待時(shí)間,反正小編也沒有成功。


現(xiàn)在試用的頁面可以輸入文字和圖片兩個(gè)提醒,后者需要在下面的高級(jí)選項(xiàng)中打開。


在兩個(gè)生成按鈕中,F(xiàn)aster Preview是指分辨率較低、時(shí)間較短的視頻。


所以小編進(jìn)入了另一個(gè)測試平臺(tái)(https://replicate.com/camenduru/streaming-t2v),最后得到一個(gè)測試機(jī)會(huì),下面是文字提醒:


A beautiful girl with short hair wearing a school uniform is walking on the spring campus



但也許是因?yàn)樾【幍囊蟊容^復(fù)雜,所以產(chǎn)生的效果有些恐怖,大家可以根據(jù)自己的經(jīng)驗(yàn)自己去嘗試。


下面是huggingface上的一些經(jīng)典案例:



01 StreamingT222V


Sora的誕生曾經(jīng)帶來了巨大的震驚,促使Pika在前一秒閃閃發(fā)光。、Runway、SVD等模型,直接變成了「前Sora時(shí)代」的作品。


但正如StreamingT2V的作者所說,pre-Sora days模型也有其獨(dú)特的魅力。


模型架構(gòu)

StreamingT2V是一種先進(jìn)的自回歸技術(shù),在不停滯的情況下,可以創(chuàng)建運(yùn)動(dòng)動(dòng)態(tài)豐富的長視頻。


保證了整個(gè)視頻的時(shí)間一致性,與描述性文本緊密對(duì)齊,保持了高幀圖像質(zhì)量。


從目前的文字到視頻傳播模式,主要集中在高質(zhì)量的短視頻生成(一般為16或24幀)上。當(dāng)直接擴(kuò)展到長視頻時(shí),會(huì)出現(xiàn)質(zhì)量下降、表現(xiàn)僵硬或停滯等問題。


通過引進(jìn)StreamingT2V,可以將視頻擴(kuò)展到80、240、600、1200幀,甚至更長,并且有平滑的過渡,在一致性和運(yùn)動(dòng)性方面優(yōu)于其它模型。


StreamingT2V的關(guān)鍵部件包括:


(i)它被稱為條件注意模塊(CAM)短期記憶塊,它根據(jù)從前一塊中提取的特點(diǎn),通過注意機(jī)制對(duì)當(dāng)前一代進(jìn)行調(diào)整,從而實(shí)現(xiàn)一致的塊過渡;


(ii)這就是所謂的外觀保留模塊(APM)長時(shí)間記憶塊,它從第一個(gè)視頻塊中獲得先進(jìn)的情境和目標(biāo)特征,以避免模型忘記初始情景;


(iii)一種隨機(jī)混合的方法,在不出現(xiàn)塊與塊之間不一致的情況下,可以自動(dòng)將無限長的視頻重新應(yīng)用到視頻增強(qiáng)器中。



以上是StreamingT2V的整體流水線圖。在初始階段,從文本到視頻模型生成的第一個(gè)16幀。流程處理 T2V 在這個(gè)階段,更多幀的新內(nèi)容將自動(dòng)重新生成。


最后,在流量提升階段,通過將高分辨率文本應(yīng)用到短視頻模型中,并配備上述隨機(jī)混合方法,生成長視頻(600、1200幀或更多幀將自動(dòng)回歸增強(qiáng)。



圖片顯示了StreamingT2V方法的整體結(jié)構(gòu):條件注意模塊(CAM)外觀保留模塊作為短期記憶。(APM)擴(kuò)展到長期記憶。CAM利用幀編碼器將視頻擴(kuò)散模型擴(kuò)展到前一塊。(VDM)進(jìn)行條件處理。


CAM的注意機(jī)制保證了塊與視頻之間的平滑過渡,同時(shí)具有較高的運(yùn)動(dòng)量。


APM從錨幀中獲取高級(jí)圖像特征,并將其注入VDM的文本交叉注意力,這有助于在視頻生成過程中保留目標(biāo)/場景特征。


注意模塊的條件

研究人員首先預(yù)先訓(xùn)練一個(gè)文本到(短)視頻模型(Video-LDM),接著,使用CAM(前一塊的一些短期信息),對(duì)Video-LDM進(jìn)行自回歸調(diào)整。


CAM由特征提取器和特征注入器組成,集成到Video-LDM的UNet中。特征提取器使用逐幀圖像編碼器。 E。


對(duì)特征注入,作者使UNet中的每一個(gè)遠(yuǎn)程彈跳連接,都關(guān)注CAM通過交叉注意產(chǎn)生的相應(yīng)特征。


CAM使用前一塊的最后一個(gè)Fconditional幀作為輸入,交叉注意可以將基本模型的F幀調(diào)整為CAM。


相比之下,稀疏編碼器使用卷積注入特征,因此需要額外的F ? 為了將導(dǎo)出添加到基本模型的F幀中,F(xiàn)zero值幀(和掩碼)作為輸入。這樣就會(huì)導(dǎo)致SparseCtrl的輸入不一致,導(dǎo)致視頻產(chǎn)生嚴(yán)重不一致。


外觀存儲(chǔ)模塊

回歸視頻生成器通常會(huì)忘記最初的目標(biāo)和場景特征,從而導(dǎo)致外觀發(fā)生嚴(yán)重變化。


針對(duì)這一情況,外觀保留模塊(APM)利用固定錨幀中包含的第一塊信息來整合長期記憶。這樣有利于維護(hù)視頻塊生成之間的情境和目標(biāo)特征。



為使APM能夠平衡錨幀的指導(dǎo)和文本指令的指導(dǎo),作者建議:


(i)將錨幀中的CLIP圖像標(biāo)記與文本指令中的CLIP文本標(biāo)記混合,方法是利用線性層將編輯圖像標(biāo)記擴(kuò)展到k。 = 8, 將文本和圖像編碼連接到標(biāo)記維度,并使用投射塊;


(ii) 將權(quán)重引入每一個(gè)交叉注意層。α∈R(初始化為0),用來自加權(quán)總和X的鍵和值來執(zhí)行交叉注意。



視頻自動(dòng)回歸增強(qiáng)

為進(jìn)一步提高文本到視頻結(jié)果的質(zhì)量和分辨率,本文采用高分辨率(1280x720)文本到(短)視頻模型。(Refiner Video-LDM)24幀塊自動(dòng)回歸增強(qiáng)生成視頻。


使用文本到視頻模型作為細(xì)化器/增強(qiáng)器的24幀,通過向輸入視頻塊添加大量噪音,并使用文本到視頻擴(kuò)散模型的噪音來實(shí)現(xiàn)。


但是,單獨(dú)加強(qiáng)每一塊的簡單方法會(huì)導(dǎo)致不一致的過渡:


作者利用連續(xù)塊間的共享噪聲,并采用隨機(jī)混合的方法來解決這一問題。


對(duì)比測試

上面的圖片是DynamiCrafter-XL和StreamingT2V的視覺對(duì)比,使用了同樣的提醒。


X-T切片可視化顯示,DynamiCrafter-XL有嚴(yán)重的塊狀不一致和重復(fù)運(yùn)動(dòng)。相比之下,StreamingT2V可以無縫過渡和持續(xù)發(fā)展。


當(dāng)前方法不僅容易出現(xiàn)時(shí)間不一致和視頻停滯,而且隨著時(shí)間的推移,它會(huì)受到物體外觀/特征的變化和視頻質(zhì)量下降的影響(如下圖中的SVD)。


理由是,由于只調(diào)整了前一塊的最后一幀,他們忽略了自回歸過程的長期依賴。


StreamingT2V在上面的視覺比較(80幀長度,自回歸生成視頻)中生成的長度視頻不會(huì)出現(xiàn)運(yùn)動(dòng)停滯。


02 AI長視頻可以做些什么


每個(gè)家庭都在滾動(dòng)視頻生成,最直觀的應(yīng)用領(lǐng)域,可能是電影或游戲。


電影片段由AI產(chǎn)生。(Pika,Midjourney,Magnific):


Runway甚至舉辦了一個(gè)AI電影節(jié):


但是另外一個(gè)答案是什么?


世界模型


Agent和人形機(jī)器人最好的訓(xùn)練環(huán)境是由長視頻創(chuàng)建的虛擬世界,當(dāng)然前提是它足夠長,足夠真實(shí)(符合物理世界的邏輯)。


也許在未來的某一天,也將是我們?nèi)祟惖纳婵臻g。


參考資料:


https://github.com/Picsart-AI-ResearchT22StreamingT2V


本文來自微信微信官方賬號(hào)“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com