亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Sora遭遇了強敵,夢想機器爆紅:實測效果出人意料

2024-06-16

過去半年,AI 生成視頻一直處于不斷推進的狀態(tài)。


在 OpenAI 年初推出 Sora 時間引起前所未有的討論后,號稱國內(nèi)首個自研視頻大模型。 Vidu,以及后續(xù)字節(jié)、騰訊、快手等國內(nèi)廠商推出的視頻生成模型,不時引起外界關(guān)注。就在幾天前,雷科技還推出了快手的大型視頻模型「可靈」進行內(nèi)測感受。


但是,這兩天 AI 制作視頻的確又火了。


01 一發(fā)布就火了,「造夢機器」把社交網(wǎng)絡(luò)全部燒掉


6 月 12 日本,創(chuàng)業(yè)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢機),并向公眾開放測試。不久,不僅官方發(fā)布了一系列樣片,社交網(wǎng)絡(luò)上也出現(xiàn)了大量的網(wǎng)友通過網(wǎng)友通過。「造夢機器」制作視頻。


比如現(xiàn)代風格的樣片,在少女和貓咪的呈現(xiàn)效果上是相當高的,尤其是貓咪的頭部和眼部動作。


圖片被壓縮,圖片/ Luma AI


還有一種奇幻風格,產(chǎn)生的人物或物體也確實是奇幻的,甚至還有一些克蘇魯?shù)奈兜馈?/p>


圖片被壓縮,剪輯,圖片/ Luma AI


此外,「造夢機器」它不僅支持通過文本生成視頻,還支持基于圖片和文本生成視頻。所以你也可以看到跳出《戴珍珠耳環(huán)的女孩》的女孩,以及房產(chǎn)中介可能喜歡的女孩?!冈鯓影丫坝^圖變成景觀視頻?」。


甚至,有些人已經(jīng)開始使用它?!冈靿魴C器」創(chuàng)造一種敘述「一日生活」影像故事,包括美國中學(xué)生從早起到上學(xué)再到舞會的刻畫。


不只是顧客玩得開心,海外和國內(nèi)媒體也注意到了?!冈靿魴C器」熱度。然而,有一種說法是,一些國內(nèi)媒體明顯吹過頭,什么超越了? Sora、比 Sora 更加準確順暢,這些我們先后再談,但是「造夢機器」哪來的支持 120 秒生成視頻?


實際上,「造夢機器」只支持生成 5 秒視頻,官網(wǎng)講的是生成視頻需要的視頻。 120 秒,排隊等待時間另說。而且如果在官網(wǎng)上獨立打開樣片,也會發(fā)現(xiàn)一切都是一樣的。 5 秒(除非有剪輯)。



圖/ Luma AI


與國產(chǎn)視頻大模型相比,這段視頻的持續(xù)時間 Vidu 的 16 秒(最近又聲稱增加到了。 32 不用說,秒的有聲視頻),更不用說將會發(fā)生。 AI 視頻生成時間突破到 60 秒的 Sora。


按照 OpenAI 官方公布的信息,Sora 能實現(xiàn)視頻時長突破,主要功臣就是它所使用的擴散。 Transformer 架構(gòu),在 Diffusion 在擴散模型的基礎(chǔ)上 U-Net 結(jié)構(gòu)被替換為 Transformer 架構(gòu)。


「造夢機器」呢?目前 Luma AI 公司沒有透露實際情況。


當然,5 你不能說第二個視頻時間太短,因為目前大量的視頻生成模型只能生成。 5 秒視頻,包括聲稱能產(chǎn)生最長時間的視頻。 2 分鐘快手可靈,至少現(xiàn)在也只能生成。 5 秒的視頻。而我們也不能只看「視頻時長」在一個層面上,還要看畫面的可用性和使用潛力。


02 驚艷的表現(xiàn),但是內(nèi)容可靠嗎?


坦率地講,「造夢機器」給小雷的第一印象還是挺亮眼的,先感受一下官方發(fā)布的樣片。


圖片被壓縮,圖片/ Luma AI


比如在這段時間里,一個持槍的人在一個氣氛中透露出危險的房間里小心翼翼地前進。


除人物主體與背景的一致性外,最令人驚訝的可能是光線的變化。不僅是手槍上明顯的光反射,在男人的臉上,還可以看到原本詭異的紅光在人物移動過程中逐漸由暖轉(zhuǎn)冷,與相鄰的燈源趨同,包括亮度的變化也符合基本的物理規(guī)律。


另一段是在一個廢棄的房子里爆炸,鏡頭從遠到近。雖然還是會有白色的桿狀物憑空固定,但是在鏡頭移動的過程中,無論是家具的不變,還是氣流變化導(dǎo)致的碎紙飛來飛去,都可以稱之為直覺。


此外「造夢機器」還展示了作為動畫創(chuàng)作工具的潛力,比如在一個視頻中,鏡頭從人物的正面轉(zhuǎn)變?yōu)楸趁妫呀?jīng)非常接近動畫創(chuàng)作中的特寫。


圖片被壓縮,圖片/ Luma AI


然而,這些最終仍然是官方的。「嚴選」出來。無論是文字、照片還是視頻生成模型,官方 Demo 每個人都可以理解這一點,但是從普通用戶的角度來看,很容易誤以為是模型的平均水平。


即使在那些相當亮眼的少數(shù)作品中,在實際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,你也能看到或多或少的錯誤。


例如@minchoi 用「造夢機器」創(chuàng)作的美少女視頻,幾段完全堪比真人實拍。


圖/ X


但是人物的手還是有渲染問題的,人物的形態(tài)還是會有一定的變化,在上面提到的《戴珍珠耳環(huán)的女孩》視頻中更為明顯。



圖片被壓縮,圖片/ Luma AI


另外,一致性的問題也體現(xiàn)在風格上,有些顯然是明顯的 2D 動畫風格,慢慢地開始往往 3D 動畫片的風格轉(zhuǎn)變。



圖片被壓縮,圖片/ Luma AI


小雷也試著使用它「造夢機器」制作一個視頻,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實際效果還是挺不好的:人物怪異的后退,背后拿著傘的怪異行為,還有一把飛傘。



圖片被壓縮,圖片/ Luma AI


但也有一些優(yōu)點,比如路面的倒影,背景與人物的一致性。


即便如此,這些問題歸根結(jié)底還是沒有阻止廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora,「造夢機器」至少可以公開使用,而且每月都有 30 第二次免費生成機會。與大多數(shù)可用的視頻生成模型相比,「造夢機器」同時,一致性也有了明顯的進步。


除免費客戶外,「造夢機器」現(xiàn)在還提供三檔付費選項,包括 29.99 99.99美元的標準文件 美金的專業(yè)文件和 499.99 美元的高級檔,不同的是每月可以生成視頻的次數(shù)。


圖/ Luma AI


對普通用戶來說,這些定價可能有點離譜,但是對那些開始通過的人來說,「造夢機器」創(chuàng)作視頻在 TikTok 對于賺錢的創(chuàng)作者來說,估計還是可以接受的。


03 從 AI 繪圖到 AI 錄像,大模型再一次混戰(zhàn)


AI 視頻不是從「造夢機器」一開始,當然也不是從 Sora 開始。事實上,早在 2022 年,AI 當繪畫開始讓世界大吃一驚時,AI 錄像便開始吸引大量的關(guān)注。


第一,我們需要回去 2022 那一年的時間點,那時 ChatGPT 還在考慮(年底才發(fā)布),在大眾眼中,AI 技術(shù)發(fā)展最快的領(lǐng)域應(yīng)該屬于 AI 繪畫。


2022 年 4 月,OpenAI 新版本的文本生成圖像程序已經(jīng)發(fā)布?!狣ALL-E 2,一張由 DALL-E 2 產(chǎn)生的「宇航員在太空中騎馬」相片開始跳紅社交網(wǎng)絡(luò),讓一群畫家真正擁有?!赶聧彙沟慕箲]。


圖/ OpenAI


包含以后的 Midjourney,與以前的產(chǎn)品相比,它們在生成圖像方面具有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚,但憑借開源的優(yōu)勢,超越了用戶的關(guān)注度和使用范圍。 Midjourney 和 DALL-E,最早的進步也是最明顯的。


事實上,那時候 AI 繪畫開始了「侵入」社會的各個方面,無論是獲獎的《太空歌劇院》(Midjourney 生成),或者各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報甚至內(nèi)容作品。


照片能夠 AI 生成,視頻還會遠嗎?眾所周知,視頻本質(zhì)上是由一幀一幀的照片組成的。所以在這里 2022 年,谷歌和 Meta 事實上,一個關(guān)于它的問題已經(jīng)開始了。 AI 產(chǎn)生視頻競爭,Meta 有 Make-A-Video,谷歌有 Imagen Video,兩者都是通過文字直接生成視頻擴散模式,底層還是底層? AI 那一套制圖。


圖/ Meta


當時,AI 生成視頻的時長不超過 5 秒,分辨率也很低,同時畫面變化很小,與其說是視頻,不如說是讓照片看起來更好?!竸右粍印?。更為重要的是,谷歌和 Meta 由于大公司的身份和慣性,他們沒有選擇向用戶和創(chuàng)作者開放。更多的是研究成果的展示,影響力基本局限于圈內(nèi)。


相比之下,Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司看起來更像是「靈活」。去年發(fā)布的 Gen-2 上,Runway 不但提高了視頻生成的質(zhì)量,而且增加了 Motion Slider(運動滾輪)、Camera Motion (相機運動)等功能,為客戶提供更多視頻控制權(quán)。


去年火了一陣子 Pika 又是一款比較受關(guān)注的款式。 AI 由于畫質(zhì)較高,甚至一度被稱為視頻生成工具?!敢曨l版 Midjourney」,同時相比 Runway Gen-2,Pika 為確保內(nèi)容的可控性和可擴展性,也進一步給創(chuàng)作者更多的控制權(quán),例如能夠精細地計劃生成眼睛和表情。


此后,包含 Stable Diffusion 以及 Midjourney 同時也紛紛推出了生成視頻版本,讓 AI 在戰(zhàn)國時期生成視頻。但是不管是哪一個,就是 AI 生成視頻的畫面表現(xiàn)實際上并沒有太大的差別,更多的是產(chǎn)品層面的差異。


直到 Sora 帶著 Transformer 架構(gòu)出道即輾壓。


04 大語言模型,正在發(fā)生變化 AI 視頻生成


Sora 引起的震撼與討論可謂有目共睹,甚至有人認為 Sora 將是通向 AGI快車道(通用人工智能)。Sora 要不要真正了解物理世界的運行規(guī)律,我們先放在一邊,但是可以肯定的是,Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。


圖片被壓縮,剪輯,圖片/ OpenAI


Sora 一個最令人震驚的技術(shù)突破就是它的視頻輸出時間,當其它家庭一般只能生成幾秒鐘的視頻時,Sora 只是突破了時間 60 秒。


事實上,包括最新發(fā)布的內(nèi)容?!冈靿魴C器」還可以生成幾秒鐘的視頻,一旦需要更長的視頻,第二次,第三次, N 二次生成的視頻容易變形,導(dǎo)致前后畫面差異過大,無法使用。


此外,AI 基于時間的連接問題在生成視頻時仍然很常見,但是一個關(guān)于小狗的故事。 Sora 視頻中,行人完全屏蔽畫面后,小狗依然可以保持連接,主體沒有明顯變化。此外,每個人都提到過很多次?!改M」,能很好地模擬符合物理世界規(guī)則的動作。


而 Sora 這一優(yōu)點很大程度上來自于結(jié)構(gòu)上的核心差異,所以在結(jié)構(gòu)上 Sora 以后,Transformer 全新的技術(shù)路線與架構(gòu)和擴散模型相結(jié)合,迅速引起廣泛關(guān)注,包含生數(shù)技術(shù)(聯(lián)合清華大學(xué))Vidu、愛詩科技 PixVerse、快手可靈也都采用了這條路線。


雖然,從這個角度來看, Luma AI 沒有公開「造夢機器」結(jié)合生成視頻中所表現(xiàn)的一致性和邏輯性能,很難相信采用的架構(gòu)模式?!冈靿魴C器」它是純擴散模型的產(chǎn)物,概率很高,也是參考。 Sora 將 Transformer 結(jié)構(gòu)融入擴散模型的做法。


這當然只是一種猜測。但是是的。 AI 就視頻而言,這越來越成為一種必然。


本文來自微信微信官方賬號“價值研究所”(ID:jiazhiyanjiusuo),作者:冬季果醬,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com