Sora同款思路的微軟爆裂級(jí)單圖生數(shù)字人,“比AI劉強(qiáng)東還真”
微軟發(fā)布一張圖片生成數(shù)字人技術(shù)VASA-1,網(wǎng)民們看到了大喊“爆裂級(jí)效果”,比“AI劉強(qiáng)東還真”。
話不多說(shuō),直接上一分鐘演示視頻:
要達(dá)到真假難辨的效果,不需要對(duì)特定人物進(jìn)行訓(xùn)練,只需上傳一張人臉圖片,一段音頻,即使不是真人也可以。
例如能讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊(duì)名字的場(chǎng)景。
或讓素描人像念華強(qiáng)臺(tái)詞。
項(xiàng)目主頁(yè)上還有更多1分鐘的視頻,以及更多15秒的視頻可以觀看。
不同性別、年齡、種族的數(shù)字人,用不同的口音說(shuō)話。
根據(jù)論文中團(tuán)隊(duì)的描述,VASA-1具有以下特點(diǎn):
唇型與語(yǔ)音的精確同步
它是最基本的,VASA-1在定量評(píng)估方面也達(dá)到了頂級(jí)水平。
豐富而自然的面部情緒
不但可以讓照片“張嘴說(shuō)話”,眉毛、眼睛、微表情等也可以協(xié)調(diào)運(yùn)動(dòng),防止顯得呆板。
人性化的頭部動(dòng)作
適當(dāng)?shù)狞c(diǎn)頭、擺頭、歪頭等操作,可以使人物看起來(lái)更生動(dòng),更有說(shuō)服力。
總的來(lái)說(shuō),如果你仔細(xì)看,你的眼睛還是有一些漏洞的,但是已經(jīng)被網(wǎng)友評(píng)為迄今為止最好的演示”。
但更可怕的是,整個(gè)系統(tǒng)的推理速度仍然很快。即時(shí)級(jí)的。
用英偉達(dá)RTX4090顯卡生成512x512分辨率的視頻,可以跑到40fps。
那么,VASA-第一,怎樣做到這一點(diǎn)?
01 三大核心技術(shù),Sora同款思路
一句話概括:
并非直接生成視頻幀,而是在潛在空間中生成動(dòng)作代碼,然后轉(zhuǎn)換成視頻。
是否與Sora的想法非常相似?
實(shí)際上VASA-1模型架構(gòu)選擇Diffusionion Transformer,還與Sora核心部件一致。
根據(jù)論文描述,背后還有三大核心技術(shù):
學(xué)習(xí)人臉潛編碼,這個(gè)部分是高度解耦的。
在大量真實(shí)的演講視頻中,團(tuán)隊(duì)學(xué)到了一個(gè)理想的人臉特征空間。
在隱藏的空間中剝離身份、外貌、表情、姿態(tài)等因素。這樣,同樣的動(dòng)作可以驅(qū)動(dòng)不同的臉部,對(duì)任何人來(lái)說(shuō)都是自然的。
頭部運(yùn)動(dòng)生成模型,這個(gè)部分是高度統(tǒng)一的。
不同于以往的方法各自建模嘴唇、眼睛、眉毛、頭部姿勢(shì)等局部動(dòng)作,VASA-用Diffutiontion動(dòng)態(tài)統(tǒng)一編碼所有面部。 為了建模其概率分布,Transfromer模型,即SORA同款核心部件。
這不僅可以產(chǎn)生更加和諧自然的整體動(dòng)作,而且可以借助transformer強(qiáng)大的時(shí)間建模能力,長(zhǎng)期依賴學(xué)習(xí)。
舉例來(lái)說(shuō),給出一組原始序列(下圖第一列),最后可以做到:
改變面部情緒(第二列),采用原始頭部姿態(tài)。
改變頭部姿勢(shì)(第三列),使用原始面部情緒。
利用原始面部情緒,生成全新的頭部姿態(tài)(第四列)
最后是高效率推理。
為實(shí)現(xiàn)秒即時(shí)生成,團(tuán)隊(duì)大大提高了擴(kuò)散模式的推理過(guò)程。
此外,VASA-1還允許用戶輸入一些可選的控制指令,如人物的視覺(jué)方向、情感基調(diào)等,進(jìn)一步提高可控性。
02 人工智能造假的成本越來(lái)越低
在被VASA-1效果震驚之后,許多人開(kāi)始思考,把AI數(shù)字人做得這么真實(shí),發(fā)布這樣的技術(shù)真的合適嗎?
說(shuō)到底,我們已經(jīng)看到了太多用AI偽造音頻和視頻詐騙的例子。
就在兩個(gè)多月前,一個(gè)假冒企業(yè)CFO開(kāi)了一個(gè)視頻會(huì)議,直接騙了1.8億。
同時(shí),微軟團(tuán)隊(duì)也意識(shí)到了這個(gè)問(wèn)題,并發(fā)表了如下聲明:
本研究的關(guān)鍵在于為數(shù)字人生成視覺(jué)情緒,以實(shí)現(xiàn)正面應(yīng)用。無(wú)意建立誤導(dǎo)或欺騙的內(nèi)容。
但是,就像其它相關(guān)內(nèi)容生成技術(shù)一樣,它仍然可能被濫用來(lái)模仿人類。
我們反對(duì)任何誤導(dǎo)或有害內(nèi)容創(chuàng)造真實(shí)人物的行為,并有興趣應(yīng)用我們的技術(shù)來(lái)促進(jìn)偽造檢測(cè)...
現(xiàn)在VASA-1只發(fā)表了論文,看來(lái)Demo或者開(kāi)源代碼在短時(shí)間內(nèi)也不會(huì)發(fā)表。
微軟表示,這種方法產(chǎn)生的視頻仍然包含可識(shí)別的痕跡,數(shù)字分析表明,與真實(shí)視頻的真實(shí)性仍有差距。
如果不去專業(yè)的評(píng)價(jià)方法,如果人們看到了,可以仔細(xì)挑剔或者直接對(duì)比真人視頻,確實(shí)可以發(fā)現(xiàn)VASA-1演示視頻中的一些缺陷。
比如牙齒偶爾會(huì)變形。
而且眼睛還沒(méi)有真人那么豐富。(眼睛的確是心靈的窗戶啊)
但是以AIGC一天,世界一年”就進(jìn)步速度而言,修復(fù)這些缺陷恐怕也不需要很長(zhǎng)時(shí)間。
而且你能保證每時(shí)每刻都提高警惕,辨別視頻的真?zhèn)螁幔?/p>
看到不再是真的。默認(rèn)情況下,不相信任何視頻,成為今天許多人的選擇。
無(wú)論如何,就像一個(gè)網(wǎng)友的總結(jié)。
已經(jīng)完成的發(fā)明我們無(wú)法撤銷,只能擁抱未來(lái)。
參考鏈接:
[1]https://www.microsoft.com/en-us/research/project/vasa-1/
[2]https://x.com/bindureddy/status/1780737428715950460
本文來(lái)自微信微信官方賬號(hào)“量子位”(ID:QbitAI),作者:關(guān)注前沿技術(shù),授權(quán)發(fā)布36氪。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com