亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<big id="xfe9u"><sup id="xfe9u"></sup></big>

Sora遭遇了強敵，夢想機器爆紅：實測效果出人意料

2024-06-16

過去半年，AI 生成視頻一直處于不斷推進的狀態(tài)。

在 OpenAI 年初推出 Sora 時間引起前所未有的討論后，號稱國內(nèi)首個自研視頻大模型。 Vidu，以及后續(xù)字節(jié)、騰訊、快手等國內(nèi)廠商推出的視頻生成模型，不時引起外界關(guān)注。就在幾天前，雷科技還推出了快手的大型視頻模型「可靈」進行內(nèi)測感受。

但是，這兩天 AI 制作視頻的確又火了。

01 一發(fā)布就火了，「造夢機器」把社交網(wǎng)絡(luò)全部燒掉

6 月 12 日本，創(chuàng)業(yè)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢機)，并向公眾開放測試。不久，不僅官方發(fā)布了一系列樣片，社交網(wǎng)絡(luò)上也出現(xiàn)了大量的網(wǎng)友通過網(wǎng)友通過。「造夢機器」制作視頻。

比如現(xiàn)代風格的樣片，在少女和貓咪的呈現(xiàn)效果上是相當高的，尤其是貓咪的頭部和眼部動作。

圖片被壓縮，圖片/ Luma AI

還有一種奇幻風格，產(chǎn)生的人物或物體也確實是奇幻的，甚至還有一些克蘇魯?shù)奈兜馈?/p>

圖片被壓縮，剪輯，圖片/ Luma AI

此外，「造夢機器」它不僅支持通過文本生成視頻，還支持基于圖片和文本生成視頻。所以你也可以看到跳出《戴珍珠耳環(huán)的女孩》的女孩，以及房產(chǎn)中介可能喜歡的女孩?！冈鯓影丫坝^圖變成景觀視頻？」。

甚至，有些人已經(jīng)開始使用它?！冈靿魴C器」創(chuàng)造一種敘述「一日生活」影像故事，包括美國中學(xué)生從早起到上學(xué)再到舞會的刻畫。

不只是顧客玩得開心，海外和國內(nèi)媒體也注意到了?！冈靿魴C器」熱度。然而，有一種說法是，一些國內(nèi)媒體明顯吹過頭，什么超越了？ Sora、比 Sora 更加準確順暢，這些我們先后再談，但是「造夢機器」哪來的支持 120 秒生成視頻？

實際上，「造夢機器」只支持生成 5 秒視頻，官網(wǎng)講的是生成視頻需要的視頻。 120 秒，排隊等待時間另說。而且如果在官網(wǎng)上獨立打開樣片，也會發(fā)現(xiàn)一切都是一樣的。 5 秒(除非有剪輯)。

圖/ Luma AI

與國產(chǎn)視頻大模型相比，這段視頻的持續(xù)時間 Vidu 的 16 秒(最近又聲稱增加到了。 32 不用說，秒的有聲視頻)，更不用說將會發(fā)生。 AI 視頻生成時間突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息，Sora 能實現(xiàn)視頻時長突破，主要功臣就是它所使用的擴散。 Transformer 架構(gòu)，在 Diffusion 在擴散模型的基礎(chǔ)上 U-Net 結(jié)構(gòu)被替換為 Transformer 架構(gòu)。

「造夢機器」呢？目前 Luma AI 公司沒有透露實際情況。

當然，5 你不能說第二個視頻時間太短，因為目前大量的視頻生成模型只能生成。 5 秒視頻，包括聲稱能產(chǎn)生最長時間的視頻。 2 分鐘快手可靈，至少現(xiàn)在也只能生成。 5 秒的視頻。而我們也不能只看「視頻時長」在一個層面上，還要看畫面的可用性和使用潛力。

02 驚艷的表現(xiàn)，但是內(nèi)容可靠嗎？

坦率地講，「造夢機器」給小雷的第一印象還是挺亮眼的，先感受一下官方發(fā)布的樣片。

圖片被壓縮，圖片/ Luma AI

比如在這段時間里，一個持槍的人在一個氣氛中透露出危險的房間里小心翼翼地前進。

除人物主體與背景的一致性外，最令人驚訝的可能是光線的變化。不僅是手槍上明顯的光反射，在男人的臉上，還可以看到原本詭異的紅光在人物移動過程中逐漸由暖轉(zhuǎn)冷，與相鄰的燈源趨同，包括亮度的變化也符合基本的物理規(guī)律。

另一段是在一個廢棄的房子里爆炸，鏡頭從遠到近。雖然還是會有白色的桿狀物憑空固定，但是在鏡頭移動的過程中，無論是家具的不變，還是氣流變化導(dǎo)致的碎紙飛來飛去，都可以稱之為直覺。

此外「造夢機器」還展示了作為動畫創(chuàng)作工具的潛力，比如在一個視頻中，鏡頭從人物的正面轉(zhuǎn)變?yōu)楸趁妫呀?jīng)非常接近動畫創(chuàng)作中的特寫。

圖片被壓縮，圖片/ Luma AI

然而，這些最終仍然是官方的。「嚴選」出來。無論是文字、照片還是視頻生成模型，官方 Demo 每個人都可以理解這一點，但是從普通用戶的角度來看，很容易誤以為是模型的平均水平。

即使在那些相當亮眼的少數(shù)作品中，在實際網(wǎng)友創(chuàng)作和分享的內(nèi)容中，你也能看到或多或少的錯誤。

例如@minchoi 用「造夢機器」創(chuàng)作的美少女視頻，幾段完全堪比真人實拍。

圖/ X

但是人物的手還是有渲染問題的，人物的形態(tài)還是會有一定的變化，在上面提到的《戴珍珠耳環(huán)的女孩》視頻中更為明顯。

圖片被壓縮，圖片/ Luma AI

另外，一致性的問題也體現(xiàn)在風格上，有些顯然是明顯的 2D 動畫風格，慢慢地開始往往 3D 動畫片的風格轉(zhuǎn)變。

圖片被壓縮，圖片/ Luma AI

小雷也試著使用它「造夢機器」制作一個視頻，Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實際效果還是挺不好的：人物怪異的后退，背后拿著傘的怪異行為，還有一把飛傘。

圖片被壓縮，圖片/ Luma AI

但也有一些優(yōu)點，比如路面的倒影，背景與人物的一致性。

即便如此，這些問題歸根結(jié)底還是沒有阻止廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora，「造夢機器」至少可以公開使用，而且每月都有 30 第二次免費生成機會。與大多數(shù)可用的視頻生成模型相比，「造夢機器」同時，一致性也有了明顯的進步。

除免費客戶外，「造夢機器」現(xiàn)在還提供三檔付費選項，包括 29.99 99.99美元的標準文件美金的專業(yè)文件和 499.99 美元的高級檔，不同的是每月可以生成視頻的次數(shù)。

圖/ Luma AI

對普通用戶來說，這些定價可能有點離譜，但是對那些開始通過的人來說，「造夢機器」創(chuàng)作視頻在 TikTok 對于賺錢的創(chuàng)作者來說，估計還是可以接受的。

03 從 AI 繪圖到 AI 錄像，大模型再一次混戰(zhàn)

AI 視頻不是從「造夢機器」一開始，當然也不是從 Sora 開始。事實上，早在 2022 年，AI 當繪畫開始讓世界大吃一驚時，AI 錄像便開始吸引大量的關(guān)注。

第一，我們需要回去 2022 那一年的時間點，那時 ChatGPT 還在考慮(年底才發(fā)布)，在大眾眼中，AI 技術(shù)發(fā)展最快的領(lǐng)域應(yīng)該屬于 AI 繪畫。

2022 年 4 月，OpenAI 新版本的文本生成圖像程序已經(jīng)發(fā)布?！狣ALL-E 2，一張由 DALL-E 2 產(chǎn)生的「宇航員在太空中騎馬」相片開始跳紅社交網(wǎng)絡(luò)，讓一群畫家真正擁有?！赶聧彙沟慕箲]。

圖/ OpenAI

包含以后的 Midjourney，與以前的產(chǎn)品相比，它們在生成圖像方面具有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚，但憑借開源的優(yōu)勢，超越了用戶的關(guān)注度和使用范圍。 Midjourney 和 DALL-E，最早的進步也是最明顯的。

事實上，那時候 AI 繪畫開始了「侵入」社會的各個方面，無論是獲獎的《太空歌劇院》（Midjourney 生成)，或者各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報甚至內(nèi)容作品。

照片能夠 AI 生成，視頻還會遠嗎？眾所周知，視頻本質(zhì)上是由一幀一幀的照片組成的。所以在這里 2022 年，谷歌和 Meta 事實上，一個關(guān)于它的問題已經(jīng)開始了。 AI 產(chǎn)生視頻競爭，Meta 有 Make-A-Video，谷歌有 Imagen Video，兩者都是通過文字直接生成視頻擴散模式，底層還是底層？ AI 那一套制圖。

圖/ Meta

當時，AI 生成視頻的時長不超過 5 秒，分辨率也很低，同時畫面變化很小，與其說是視頻，不如說是讓照片看起來更好?！竸右粍印?。更為重要的是，谷歌和 Meta 由于大公司的身份和慣性，他們沒有選擇向用戶和創(chuàng)作者開放。更多的是研究成果的展示，影響力基本局限于圈內(nèi)。

相比之下，Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司看起來更像是「靈活」。去年發(fā)布的 Gen-2 上，Runway 不但提高了視頻生成的質(zhì)量，而且增加了 Motion Slider(運動滾輪)、Camera Motion (相機運動)等功能，為客戶提供更多視頻控制權(quán)。

去年火了一陣子 Pika 又是一款比較受關(guān)注的款式。 AI 由于畫質(zhì)較高，甚至一度被稱為視頻生成工具?！敢曨l版 Midjourney」，同時相比 Runway Gen-2，Pika 為確保內(nèi)容的可控性和可擴展性，也進一步給創(chuàng)作者更多的控制權(quán)，例如能夠精細地計劃生成眼睛和表情。

此后，包含 Stable Diffusion 以及 Midjourney 同時也紛紛推出了生成視頻版本，讓 AI 在戰(zhàn)國時期生成視頻。但是不管是哪一個，就是 AI 生成視頻的畫面表現(xiàn)實際上并沒有太大的差別，更多的是產(chǎn)品層面的差異。

直到 Sora 帶著 Transformer 架構(gòu)出道即輾壓。

04 大語言模型，正在發(fā)生變化 AI 視頻生成

Sora 引起的震撼與討論可謂有目共睹，甚至有人認為 Sora 將是通向 AGI快車道(通用人工智能)。Sora 要不要真正了解物理世界的運行規(guī)律，我們先放在一邊，但是可以肯定的是，Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。

圖片被壓縮，剪輯，圖片/ OpenAI

Sora 一個最令人震驚的技術(shù)突破就是它的視頻輸出時間，當其它家庭一般只能生成幾秒鐘的視頻時，Sora 只是突破了時間 60 秒。

事實上，包括最新發(fā)布的內(nèi)容?！冈靿魴C器」還可以生成幾秒鐘的視頻，一旦需要更長的視頻，第二次，第三次， N 二次生成的視頻容易變形，導(dǎo)致前后畫面差異過大，無法使用。

此外，AI 基于時間的連接問題在生成視頻時仍然很常見，但是一個關(guān)于小狗的故事。 Sora 視頻中，行人完全屏蔽畫面后，小狗依然可以保持連接，主體沒有明顯變化。此外，每個人都提到過很多次?！改M」，能很好地模擬符合物理世界規(guī)則的動作。

而 Sora 這一優(yōu)點很大程度上來自于結(jié)構(gòu)上的核心差異，所以在結(jié)構(gòu)上 Sora 以后，Transformer 全新的技術(shù)路線與架構(gòu)和擴散模型相結(jié)合，迅速引起廣泛關(guān)注，包含生數(shù)技術(shù)(聯(lián)合清華大學(xué))Vidu、愛詩科技 PixVerse、快手可靈也都采用了這條路線。

雖然，從這個角度來看， Luma AI 沒有公開「造夢機器」結(jié)合生成視頻中所表現(xiàn)的一致性和邏輯性能，很難相信采用的架構(gòu)模式?！冈靿魴C器」它是純擴散模型的產(chǎn)物，概率很高，也是參考。 Sora 將 Transformer 結(jié)構(gòu)融入擴散模型的做法。

這當然只是一種猜測。但是是的。 AI 就視頻而言，這越來越成為一種必然。

本文來自微信微信官方賬號“價值研究所”（ID：jiazhiyanjiusuo），作者：冬季果醬，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

隨著工業(yè)化的加速，人形機器人站在風口浪尖，潛力股名單先看(附表)

2024年的AI服務(wù)器，相當于2018年的新能源汽車。

各方力量“參與式治理”，社區(qū)兒童公園煥然一新。

下午局部下雨！中考天氣出來了。我知道天氣。

女性員工擔心走光，在工作站打傘18天被開除！法庭判決如此→