開始嘗試快手的視頻AI,我發(fā)現(xiàn)它有點領(lǐng)先。。
Sora 不再向大家開放,真的會被同行給予。 " 輾壓 " 了。。。
首先,前幾天,快手新制作了一個文生視頻模型。可靈 AI ,悄悄地摸著外網(wǎng)火了。
一出來,網(wǎng)友們就直接跟著它。 Sora 把它放在擂臺上,令人驚訝的是,可靈 AI 居然一點也不輸,有時效果比較 Sora 還要好一點。
就比如 " 螞蟻爬進巢穴 " 這種提示詞,可以靈生成視頻的質(zhì)感。跟 Sora 差不太多,并且它還創(chuàng)造了太陽光照進洞穴時的光影。
還有同樣是 " 拉力賽車 " 場景,可靈的理解比較 Sora 更加符合初衷。我們可以清楚地看到, Sora 圖片中的車在同一個地方打圈,而可靈產(chǎn)生的跑車確實在跑道上飆升。
它也能像 Sora 就像這樣,生成兩分鐘的所有視頻。 " 小男孩在花園里騎自行車,經(jīng)歷秋冬春夏四季的變化。 " 視頻,畫面穩(wěn)定,光影變化等等, Sora 那個經(jīng)典視頻有得一拼。
相較于 Sora ,可靈 AI 還會更中國嬰兒的體質(zhì)適合我們。一些,像熊貓這種中國元素,它也可以很快 get 到。
甚至已經(jīng)有外國人為了玩快手而玩。 AI ," 求 " 希望國內(nèi)網(wǎng)友幫他制作一些視頻。。
可以在世超琢磨可靈 AI 當(dāng)時,一個新的視頻模型突然從網(wǎng)上跳出來。 Luma AI ,同樣能生成將近兩分鐘超清視頻。而且官網(wǎng)示例的效果,也是直追。 Sora 。
正如它在潛水時產(chǎn)生的那一刻,面部周圍的氣泡變化就像真的一樣,在整個大運動過程中,面部也沒有出現(xiàn)任何畸變。
還有房間爆炸時,鏡頭推動的場景,整個人都有一種觀看的場景。好萊塢大片的錯覺了。
看到這里,我不知道我的朋友們是什么感受。簡而言之,世超已經(jīng)有點不平靜了。他立即要求朋友從Aautorapper那里獲得內(nèi)部測試資格,順便登上。 Luma 試驗界面,準備親自上手試試這兩個。 AI ,看看他們究竟有沒有傳說中的那么厲害。
根據(jù)他們兩人的宣傳,可靈 AI 和 Luma 每個人都有自己擅長的領(lǐng)域??伸`這一塊,網(wǎng)友們都說它生成了。吃播視頻是一絕,而 Luma 網(wǎng)站上的宣傳就是這樣 " 電影感 " ,還能通過照片 提示詞生成視頻。
那么我們也不廢話,直接從他們各自的地盤上開始測試。
第一,我們來到的比賽地點,是快手比較擅長的。 " 吃播 " ,讓它們同時產(chǎn)生一個段落 " 一名男子正在吃意大利面。 " 的視頻。
一說一,可靈 AI 其它圖片說是說是在啰嗦的時候有點不穩(wěn)定,從快手的吃播視頻中截取的,估計很多人都被忽悠了。
到了 Luma 這兒,畫風(fēng)突然變得怪異起來,男嘉賓就像有超能力一樣,什么餐具都不用吃,而且嘴也很不自然。
現(xiàn)在已經(jīng)生成了吃播的視頻 Luma 不太好,那么接下來我們就試試它比較擅長的東西。 " 電影感 " 。
本以為 Luma 要大施拳腳了,沒想到它一上來就出來了。拉了坨大的。
讓它產(chǎn)生一個段落 " 外星人大戰(zhàn)機器人 " 場景,還是那個老問題,同一個角色,一會兒變成機器人,一會兒變成怪物,整個過程都沒有看到打斗的痕跡。
給可靈喂同樣的提示,它卻把戰(zhàn)斗場面整理出來,只是有點經(jīng)不起細看,手里拿著的東西刀都是軟的。。。
幸好后來的表現(xiàn)還可以,讓它們同時產(chǎn)生。 " 頂級富豪在別墅里開派對。 " 視頻,都挺像樣的,唯一的缺點就是臉部情緒。都不太穩(wěn)定。
各自擅長的領(lǐng)域都比完了,那么接下來的第二輪,考驗這兩個。 AI 了解物理世界水平。
讓它們產(chǎn)生一個段落 " 貓與正在睡覺的主人互動。 " 首先,視頻 Luma 這兒,它一上來就直接擺爛了,只生成了一個黑貓的視頻,甚至沒有看到人的影子。
要不說全靠同行襯托,對比下可靈。 AI 效果更強。有貓,有睡覺的人,堅持扣缺陷的話,就是看不到貓和主人之間的互動。
后邊世超又試了一點,發(fā)現(xiàn)了一些簡短的提示,快手可靈的表現(xiàn)都不錯。,比如玩偶熊在瀑布前彈吉他,樣品騎自行車等等。
Luma 這兒就像支使久了,想罷工一樣,各種 Bug 都出來了,小熊彈吉他都可以彈出幻覺。
也把羊自己變成了自行車。。
更加抽象的是,因為 Luma 有照片輸入,試的時候總能得到很多樂趣。比如讓它給豬人整個后續(xù)的表情圖,拿到一半就給。整成驚悚片了。。
還有經(jīng)典的 " 外國老頭 nice " 梗圖,他喝可樂就是這樣,多少有些鬼畜。
甚至還有網(wǎng)友給各種梗圖,都是腦補后續(xù)。
總而言之,經(jīng)過整體體驗,世超覺得,要論效果,快手可靈。 AI 效果仍然會更加穩(wěn)定,更好一些。至少和其它可用的東西視頻 AI 比方說,它已經(jīng)相當(dāng)不錯了。
而且把模型訓(xùn)練成這樣,快手就是摸著 Sora 這塊石頭過河,也到用了。 DiT 架構(gòu)。把 transformer 整合到擴散模型中,這樣,堆疊參數(shù),堆疊訓(xùn)練數(shù)據(jù)等等可以提高模型性能,但是在視頻數(shù)據(jù)這一塊,快手自然不缺。
但如今除了效果,視頻 AI 還有一個問題需要注意,商業(yè)化。
不知大伙們有沒有注意到,盡管 Sora 之后,相似的 AI 就連字節(jié)、阿里這樣的大廠商,也紛紛爭先恐后地走上這條賽道。
但大多數(shù)廠商在宣布自己也有這樣的模型之后,幾乎沒有進一步的行動。。
像是 Sora ,他們的案例庫已經(jīng)好幾個月沒有更新了,還有其他視頻向大家開放。 AI ,也只升級到 5s 這段視頻的長度不再持續(xù)。。
而且弄成這樣,說白了還是做視頻? AI 花費太多,又找不到任何賺錢的方法。
像是學(xué)圖片 AI 同樣收取會費,根本就是 cover 不要失去它的成本,據(jù)調(diào)查機構(gòu) Factorial Funds 稱,以 Sora 為例,它 30 億主流猜測(主流猜測 )練習(xí)費用,比較 1.8 萬億參數(shù) GPT-4 還多。
這個只是訓(xùn)練,實際上費時的推理費用更高,國內(nèi)有。 AI 公司做了一個轉(zhuǎn)換,視頻花了將近兩分鐘。 180 元錢,看看這些數(shù)據(jù),也難怪 AI 制造商不敢公開進展。。
不過話說回來,世超還是挺看好快手做這種事的。 AI 是的,畢竟它本身就有一個視頻平臺。也許以后可靈也可以像因為粘土濾鏡而爆紅的那樣。 Remini 一樣,靠 " 發(fā)帖助手 " 找到一種賺錢的方法。
事實并非如此,世超立刻想到了一個想法,不如學(xué)這次的學(xué)習(xí)。 Luma ,玩抽象游戲,意味著流量可能會來。( 狗頭 )
發(fā)文:松鼠
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




