亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<label id="vi3kc"></label>

Sora同款思路的微軟爆裂級(jí)單圖生數(shù)字人，“比AI劉強(qiáng)東還真”

2024-04-24

微軟發(fā)布一張圖片生成數(shù)字人技術(shù)VASA-1，網(wǎng)民們看到了大喊“爆裂級(jí)效果”，比“AI劉強(qiáng)東還真”。

話不多說(shuō)，直接上一分鐘演示視頻：

要達(dá)到真假難辨的效果，不需要對(duì)特定人物進(jìn)行訓(xùn)練，只需上傳一張人臉圖片，一段音頻，即使不是真人也可以。

例如能讓蒙娜麗莎唱Rap，模仿安妮海瑟薇即興吐槽狗仔隊(duì)名字的場(chǎng)景。

或讓素描人像念華強(qiáng)臺(tái)詞。

項(xiàng)目主頁(yè)上還有更多1分鐘的視頻，以及更多15秒的視頻可以觀看。

不同性別、年齡、種族的數(shù)字人，用不同的口音說(shuō)話。

根據(jù)論文中團(tuán)隊(duì)的描述，VASA-1具有以下特點(diǎn)：

唇型與語(yǔ)音的精確同步

它是最基本的，VASA-1在定量評(píng)估方面也達(dá)到了頂級(jí)水平。

豐富而自然的面部情緒

不但可以讓照片“張嘴說(shuō)話”，眉毛、眼睛、微表情等也可以協(xié)調(diào)運(yùn)動(dòng)，防止顯得呆板。

人性化的頭部動(dòng)作

適當(dāng)?shù)狞c(diǎn)頭、擺頭、歪頭等操作，可以使人物看起來(lái)更生動(dòng)，更有說(shuō)服力。

總的來(lái)說(shuō)，如果你仔細(xì)看，你的眼睛還是有一些漏洞的，但是已經(jīng)被網(wǎng)友評(píng)為迄今為止最好的演示”。

但更可怕的是，整個(gè)系統(tǒng)的推理速度仍然很快。即時(shí)級(jí)的。

用英偉達(dá)RTX4090顯卡生成512x512分辨率的視頻，可以跑到40fps。

那么，VASA-第一，怎樣做到這一點(diǎn)？

01 三大核心技術(shù)，Sora同款思路

一句話概括：

并非直接生成視頻幀，而是在潛在空間中生成動(dòng)作代碼，然后轉(zhuǎn)換成視頻。

是否與Sora的想法非常相似？

實(shí)際上VASA-1模型架構(gòu)選擇Diffusionion Transformer，還與Sora核心部件一致。

根據(jù)論文描述，背后還有三大核心技術(shù)：

學(xué)習(xí)人臉潛編碼，這個(gè)部分是高度解耦的。

在大量真實(shí)的演講視頻中，團(tuán)隊(duì)學(xué)到了一個(gè)理想的人臉特征空間。

在隱藏的空間中剝離身份、外貌、表情、姿態(tài)等因素。這樣，同樣的動(dòng)作可以驅(qū)動(dòng)不同的臉部，對(duì)任何人來(lái)說(shuō)都是自然的。

頭部運(yùn)動(dòng)生成模型，這個(gè)部分是高度統(tǒng)一的。

不同于以往的方法各自建模嘴唇、眼睛、眉毛、頭部姿勢(shì)等局部動(dòng)作，VASA-用Diffutiontion動(dòng)態(tài)統(tǒng)一編碼所有面部。為了建模其概率分布，Transfromer模型，即SORA同款核心部件。

這不僅可以產(chǎn)生更加和諧自然的整體動(dòng)作，而且可以借助transformer強(qiáng)大的時(shí)間建模能力，長(zhǎng)期依賴學(xué)習(xí)。

舉例來(lái)說(shuō)，給出一組原始序列(下圖第一列)，最后可以做到：

改變面部情緒(第二列)，采用原始頭部姿態(tài)。

改變頭部姿勢(shì)(第三列)，使用原始面部情緒。

利用原始面部情緒，生成全新的頭部姿態(tài)(第四列)

最后是高效率推理。

為實(shí)現(xiàn)秒即時(shí)生成，團(tuán)隊(duì)大大提高了擴(kuò)散模式的推理過(guò)程。

此外，VASA-1還允許用戶輸入一些可選的控制指令，如人物的視覺(jué)方向、情感基調(diào)等，進(jìn)一步提高可控性。

02 人工智能造假的成本越來(lái)越低

在被VASA-1效果震驚之后，許多人開(kāi)始思考，把AI數(shù)字人做得這么真實(shí)，發(fā)布這樣的技術(shù)真的合適嗎？

說(shuō)到底，我們已經(jīng)看到了太多用AI偽造音頻和視頻詐騙的例子。

就在兩個(gè)多月前，一個(gè)假冒企業(yè)CFO開(kāi)了一個(gè)視頻會(huì)議，直接騙了1.8億。

同時(shí)，微軟團(tuán)隊(duì)也意識(shí)到了這個(gè)問(wèn)題，并發(fā)表了如下聲明：

本研究的關(guān)鍵在于為數(shù)字人生成視覺(jué)情緒，以實(shí)現(xiàn)正面應(yīng)用。無(wú)意建立誤導(dǎo)或欺騙的內(nèi)容。

但是，就像其它相關(guān)內(nèi)容生成技術(shù)一樣，它仍然可能被濫用來(lái)模仿人類。

我們反對(duì)任何誤導(dǎo)或有害內(nèi)容創(chuàng)造真實(shí)人物的行為，并有興趣應(yīng)用我們的技術(shù)來(lái)促進(jìn)偽造檢測(cè)...

現(xiàn)在VASA-1只發(fā)表了論文，看來(lái)Demo或者開(kāi)源代碼在短時(shí)間內(nèi)也不會(huì)發(fā)表。

微軟表示，這種方法產(chǎn)生的視頻仍然包含可識(shí)別的痕跡，數(shù)字分析表明，與真實(shí)視頻的真實(shí)性仍有差距。

如果不去專業(yè)的評(píng)價(jià)方法，如果人們看到了，可以仔細(xì)挑剔或者直接對(duì)比真人視頻，確實(shí)可以發(fā)現(xiàn)VASA-1演示視頻中的一些缺陷。

比如牙齒偶爾會(huì)變形。

而且眼睛還沒(méi)有真人那么豐富。(眼睛的確是心靈的窗戶啊)

但是以AIGC一天，世界一年”就進(jìn)步速度而言，修復(fù)這些缺陷恐怕也不需要很長(zhǎng)時(shí)間。

而且你能保證每時(shí)每刻都提高警惕，辨別視頻的真?zhèn)螁幔?/p>

看到不再是真的。默認(rèn)情況下，不相信任何視頻，成為今天許多人的選擇。

無(wú)論如何，就像一個(gè)網(wǎng)友的總結(jié)。

已經(jīng)完成的發(fā)明我們無(wú)法撤銷，只能擁抱未來(lái)。

參考鏈接：

[1]https://www.microsoft.com/en-us/research/project/vasa-1/

[2]https://x.com/bindureddy/status/1780737428715950460

本文來(lái)自微信微信官方賬號(hào)“量子位”（ID:QbitAI），作者：關(guān)注前沿技術(shù)，授權(quán)發(fā)布36氪。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

老板智庫(kù)丨電梯廣告行業(yè)簡(jiǎn)析：龍頭企業(yè)地位穩(wěn)固，投屏創(chuàng)新“突出重圍”

早安，嘉定 | 啟幕

最新動(dòng)態(tài)！關(guān)于南昌站林俊杰演唱會(huì)

谷雨｜雨生百谷萬(wàn)物向榮

項(xiàng)目推薦

康小虎 · 健康小屋

藍(lán)絲帶

<i id="gycp9"><meter id="gycp9"></meter></i>

<rt id="gycp9"></rt>

<li id="gycp9"><tbody id="gycp9"></tbody></li>

<rt id="gycp9"></rt>

<center id="gycp9"></center>