亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

AI大神卡帕西力挺!全球首個(gè)直播生成模型問(wèn)世,實(shí)時(shí)生成無(wú)時(shí)長(zhǎng)限制

07-21 07:06

編譯 | 李水青


編輯 | 漠影


智東西7月19日消息,7月18日,以色列AI創(chuàng)企Decart推出了首個(gè)直播擴(kuò)散AI視頻模型——MirageLSD。和Veo等市面上時(shí)長(zhǎng)受限、存在延時(shí)的視頻生成模型不同,Mirage能夠實(shí)時(shí)轉(zhuǎn)換無(wú)限長(zhǎng)的視頻流,響應(yīng)時(shí)間小于40毫秒


前特斯拉AI總監(jiān)、OpenAI創(chuàng)始團(tuán)隊(duì)成員安德烈·卡帕西(Andrej Karpathy)在社交平臺(tái)X上表示:“Veo等視頻擴(kuò)散模型很出色,但生成需要數(shù)秒甚至數(shù)分鐘,而MirageLSD帶來(lái)的是實(shí)時(shí)的魔法?!彼X(jué)得這會(huì)是一項(xiàng)通用且強(qiáng)大的技術(shù),有望改變游戲、直播、視頻通話(huà)、影視、會(huì)議、AR/VR等多個(gè)領(lǐng)域。



Decart于2023年創(chuàng)立,Andrej Karpathy參與了投資,Mirage是Decart繼“AI版我的世界” Oasis之后推出的第二個(gè)模型。目前,由MirageLSD模型驅(qū)動(dòng)的Mirage平臺(tái)已上線(xiàn),iOS、Android版本預(yù)計(jì)下周推出。


體驗(yàn)地址:


https://mirage.decart.ai/


Andrej Karpathy強(qiáng)力推薦:


實(shí)時(shí)魔法,變革游戲直播行業(yè)


在社交平臺(tái)X上,AI大神Andrej Karpathy興奮地說(shuō):”擴(kuò)散視頻模型如今支持實(shí)時(shí)生成了!“


Andrej Karpathy提到,以前簡(jiǎn)單的視頻濾鏡能實(shí)時(shí)生成,但大多只能進(jìn)行基本的重新著色和樣式設(shè)置。市面上已有的Veo等視頻擴(kuò)散模型很神奇,不過(guò)生成需要數(shù)秒甚至數(shù)分鐘。MirageLSD則是實(shí)時(shí)魔法。和簡(jiǎn)單的視頻濾鏡不同,擴(kuò)散模型能理解正在查看的內(nèi)容,所以可以智能地設(shè)置視頻源各部分的樣式,比如給頭上戴上帽子,或給手上配上光劍等。



Andrej Karpathy還稱(chēng),該模型可任意操控,比如通過(guò)文本提示來(lái)操作。可定制的智能視頻濾鏡未來(lái)會(huì)解鎖很多酷炫的玩法:


-將攝像頭畫(huà)面轉(zhuǎn)化為虛擬實(shí)景;



▲攝像機(jī)拍攝畫(huà)面實(shí)時(shí)生成視頻(源自:Decart官網(wǎng))


-執(zhí)導(dǎo)并拍攝自己的電影,用道具演繹場(chǎng)景,實(shí)時(shí)拍攝并即時(shí)回看;



▲實(shí)景道具演繹視頻實(shí)時(shí)變3D卡通動(dòng)畫(huà)(源自:Decart官網(wǎng))


-圍繞簡(jiǎn)單的球體或方塊生成有氛圍的代碼游戲,再借助實(shí)時(shí)擴(kuò)散模型為游戲添加紋理,讓其更精美;



▲生成游戲畫(huà)面(源自:Decart官網(wǎng))


-對(duì)任意視頻流進(jìn)行風(fēng)格化處理和自定義:游戲、視頻等。比如,讓《上古卷軸 5:天際》更有“史詩(shī)感”?讓《毀滅戰(zhàn)士 2》用一個(gè)提示詞就達(dá)到現(xiàn)代虛幻引擎的畫(huà)質(zhì)?把恐怖片變成“只有可愛(ài)元素、粉色調(diào)與小兔子”的風(fēng)格?都有可能!



▲生成游戲畫(huà)面(源自:Decart官網(wǎng))


-Zoom通話(huà)背景實(shí)時(shí)虛擬更換。


-眼鏡:比如,讓你的視覺(jué)實(shí)時(shí)卡通化?


-現(xiàn)在能打造哈利·波特的厄里斯魔鏡,在鏡子里展現(xiàn)“原始畫(huà)面”,還能增強(qiáng)你內(nèi)心最深處的渴望(由AI推斷)。


Andrej Karpathy稱(chēng),可設(shè)想的應(yīng)用場(chǎng)景太多,他可能遺漏了重要的。他還聲明:“我是Decart的小額天使投資人,我很激動(dòng),因?yàn)樵谖铱磥?lái),這項(xiàng)技術(shù)會(huì)很快變得非常好,感覺(jué)它很通用、很強(qiáng)大,但技術(shù)難度也很高。祝賀團(tuán)隊(duì)發(fā)布成功!”


突破視頻生成“30秒瓶頸”


生成速度提升16倍


MirageLSD是首個(gè)實(shí)現(xiàn)無(wú)限實(shí)時(shí)零延遲視頻生成的系統(tǒng)。它基于名為“實(shí)時(shí)流擴(kuò)散 (LSD)”的定制模型構(gòu)建,該模型能逐幀生成視頻,同時(shí)保持時(shí)間連貫性。


和以往方法不同,LSD支持完全交互式的視頻合成,允許在視頻生成過(guò)程中持續(xù)進(jìn)行提示、轉(zhuǎn)換和編輯。


當(dāng)前的視頻模型無(wú)法生成超過(guò)30秒的視頻,否則會(huì)因錯(cuò)誤累積導(dǎo)致質(zhì)量嚴(yán)重下降。它們通常需要幾分鐘的處理時(shí)間才能輸出幾分鐘的視頻。即使是當(dāng)今最快的實(shí)時(shí)系統(tǒng),通常也會(huì)分塊生成視頻,帶來(lái)不可避免的延遲,影響交互使用。


為了實(shí)時(shí)生成視頻,LSD必須以因果關(guān)系的方式運(yùn)行,即僅基于前一幀生成每一幀。這種自回歸結(jié)構(gòu)確保了連續(xù)性,但也有個(gè)嚴(yán)重缺陷:誤差累積。每一幀都會(huì)繼承上一幀的缺陷,微小誤差累積起來(lái),會(huì)使質(zhì)量迅速下降,直到幀變得不連貫。



啟用LSD需要解決兩個(gè)以前從未在單個(gè)系統(tǒng)中同時(shí)解決的挑戰(zhàn)。


1、基于擴(kuò)散強(qiáng)制技術(shù),實(shí)現(xiàn)無(wú)限生成


為了實(shí)現(xiàn)無(wú)限的自回歸生成,Mirage研究人員以擴(kuò)散強(qiáng)制技術(shù)為基礎(chǔ),進(jìn)行逐幀去噪;引入了歷史增強(qiáng)功能,使模型能夠針對(duì)損壞的輸入歷史幀進(jìn)行微調(diào)。這教會(huì)模型預(yù)測(cè)并糾正輸入偽影,使其能夠抵御自回歸生成中常見(jiàn)的漂移。


這些操作讓MirageLSD成為第一個(gè)能夠無(wú)限生成視頻而不會(huì)崩潰的模型,穩(wěn)定、可提示,并且與場(chǎng)景和用戶(hù)輸入保持一致。



2、速度提高16倍,實(shí)時(shí)生成視頻


響應(yīng)度被定義為最壞情況的響應(yīng)延遲,即使是以前的自回歸模型的響應(yīng)速度也比MirageLSD慢16倍以上,無(wú)法實(shí)現(xiàn)實(shí)時(shí)交互。


實(shí)時(shí)生成要求每幀生成時(shí)間不超過(guò)40毫秒,以免人眼察覺(jué)。Mirage研究人員通過(guò)以下方式實(shí)現(xiàn)這一目標(biāo):設(shè)計(jì)定制的CUDA巨型內(nèi)核,以最小化開(kāi)銷(xiāo)并最大化吞吐量;基于快捷蒸餾和模型修剪,減少每幀所需的計(jì)算量;優(yōu)化模型架構(gòu)以與GPU硬件保持一致,從而實(shí)現(xiàn)峰值效率。


總之,這些技術(shù)使響應(yīng)速度比之前的模型提高了16倍,能夠以24 FPS的速度生成實(shí)時(shí)視頻。



與Veo走差異化路線(xiàn)


首個(gè)實(shí)時(shí)無(wú)限視頻生成模型


當(dāng)下,AI視頻生成方面的模型在生成視覺(jué)質(zhì)量和時(shí)長(zhǎng)上有了提升,但大多數(shù)系統(tǒng)仍然缺乏交互性、低延遲和時(shí)間穩(wěn)定性。


MovieGen、WAN和Veo等固定長(zhǎng)度模型可以生成高質(zhì)量的視頻片段,但它們的非因果設(shè)計(jì)和全片段推理會(huì)引入延遲,并阻止實(shí)時(shí)交互或超出預(yù)定義長(zhǎng)度的擴(kuò)展。


CausVid、LTX和Seeweed - APT等自回歸模型通過(guò)對(duì)先前的輸出進(jìn)行條件化來(lái)生成更長(zhǎng)的序列,雖然這提高了可擴(kuò)展性,但分塊推理仍然限制了響應(yīng)速度,并容易出現(xiàn)錯(cuò)誤累積,限制了生成長(zhǎng)度,最終導(dǎo)致無(wú)法進(jìn)行真正的交互。


可控生成方法,包括ControlNet和基于LoRA的適配器,可以實(shí)現(xiàn)有針對(duì)性的編輯和風(fēng)格轉(zhuǎn)換,但需要離線(xiàn)微調(diào),不適合實(shí)時(shí)逐幀提示。


Mirage自身之前的系統(tǒng)Oasis首次在受限域內(nèi)實(shí)現(xiàn)了實(shí)時(shí)因果生成。MirageLSD則將其擴(kuò)展到開(kāi)放域、可提示的視頻,具有零延遲、實(shí)時(shí)速度和無(wú)限穩(wěn)定性,這是先前研究無(wú)法實(shí)現(xiàn)的組合。


結(jié)語(yǔ):實(shí)時(shí)無(wú)限生成視頻


精確控制仍然有限


MirageLSD雖然實(shí)現(xiàn)了實(shí)時(shí)、可提示且穩(wěn)定的視頻生成,但仍面臨一些挑戰(zhàn)。首先,該系統(tǒng)目前依賴(lài)于有限的過(guò)去幀窗口。引入長(zhǎng)期記憶機(jī)制可以提高擴(kuò)展序列的連貫性,從而實(shí)現(xiàn)更一致的角色身份、場(chǎng)景布局和長(zhǎng)期動(dòng)作。


此外,雖然MirageLSD支持文本引導(dǎo)的轉(zhuǎn)換,但對(duì)特定對(duì)象、空間區(qū)域或運(yùn)動(dòng)的精確控制仍然有限。集成結(jié)構(gòu)化控制信號(hào)(例如關(guān)鍵點(diǎn)或場(chǎng)景注釋?zhuān)┗蛟S可以在實(shí)時(shí)場(chǎng)景中實(shí)現(xiàn)更精細(xì)的用戶(hù)控制編輯。


Mirage提出,團(tuán)隊(duì)需要進(jìn)一步研究來(lái)提升語(yǔ)義和幾何一致性,尤其是在極端風(fēng)格轉(zhuǎn)換的情況下的表現(xiàn)。解決這個(gè)問(wèn)題需要在提示驅(qū)動(dòng)的指導(dǎo)下建立更強(qiáng)大的內(nèi)容保存機(jī)制。


本文來(lái)自微信公眾號(hào) “智東西”(ID:zhidxcom),作者:李水青,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com