大廠沉默,創(chuàng)業(yè)公司亂斗,文生視頻產(chǎn)品超過10款,國產(chǎn)Sora誰最有希望?
就像2023年ChatGPT帶來的震撼一樣,2024年的AI圈,到處都是Sora的故事。
近來,聲稱R&D比Sora早。「Vidu」文生視頻大模型亮相,這是清華大學(xué)中長期、高一致性、高動態(tài)視頻大模型,由學(xué)生數(shù)學(xué)科技聯(lián)合發(fā)布。
輿論立刻非常熱烈,因?yàn)閺墓嫉陌咐曨l效果來看,Vidu已經(jīng)可以支持超清視頻內(nèi)容,一鍵生成16秒,分辨率1080P。Vidu不僅可以模擬真實(shí)的物理世界,還具有多鏡頭、時(shí)空一致性等想象力的特點(diǎn)。如果這個(gè)特征可以在第一次測試中呈現(xiàn)出來,那無疑已經(jīng)和Sora相媲美了。
實(shí)際上,Vidu并不是第一個(gè)被稱為國產(chǎn)Sora產(chǎn)品,也不是北京大學(xué)的Open。 Sora、Dreaminam、VideoCrafter22、Vega,右腦技術(shù) AI、PixVerser愛詩科技、藝術(shù)AIMewXAI、未來的Pixeling,NeverEnds和Morph Studio,此外,昆侖萬維、萬興科技公司推出了10多款文生視頻產(chǎn)品的視覺大模型。
大部分都是靠算法圖片轉(zhuǎn)視頻,真正的文生視頻大模型為底座的屈指可數(shù)。
為什么Sora成為AI圈明珠?
為什么Sora在國內(nèi)AI領(lǐng)域再次重現(xiàn)了百模對決的盛況?
Sora可能源于一個(gè)共識,它具有跨時(shí)代的意義。這是LLMM大語言模型的結(jié)合。(ChatGPT、Claude和文心一言)和圖形模型diffusion(midjourney、Stable diffusion),可以完美理解文字,然后根據(jù)文字生成圖片到視頻。
本圖對Sora的原理進(jìn)行了深入分析,左腦負(fù)責(zé)語言/邏輯/記憶,LLM大語言模型復(fù)制了這種模式,右腦負(fù)責(zé)形象/創(chuàng)意/藝術(shù),Unconditional Diffusion擴(kuò)散模型更擅長這一點(diǎn)。結(jié)合這兩個(gè)模型,從文生視頻中誕生了大模型Sora。
因此,可以說,Sora代表了真正的仿人腦智能,而其他模型只是模仿了一部分。通過這個(gè)原則,我們可以識別許多偽Sora。
比如美圖公司的文生視頻產(chǎn)品Whee,制作出來的圖片簡單動一下,不到3秒,大概用過了。SDXLXLStableDiffusion模型,與Diffusion和Transformer相結(jié)合的架構(gòu)U-ViT。前一種視頻很難制作超過10秒的視頻,文字理解能力也不會很好,模型決定了天花板。
所以Vidu之所以迅速走紅,是因?yàn)樗暮诵募夹g(shù)U-ViT架構(gòu)。該技術(shù)于2022年9月提出,它是世界上第一個(gè)將Diffusion與Transformer結(jié)合起來的結(jié)構(gòu)。
這一結(jié)構(gòu)的高增長,代表了Sora在兩到三年內(nèi)制作AI短劇/電影/廣告宣傳片等,將在數(shù)小時(shí)內(nèi)完成,
Sora已經(jīng)驗(yàn)證了這種可能性。Shyy,新媒體公司 Kids 團(tuán)隊(duì)只用 3 人類團(tuán)隊(duì),使用Sora在大約 1.5 到 2 周內(nèi)設(shè)計(jì)了《Air Head》。Patrick 感覺現(xiàn)階段的Sora對畫面的連續(xù)性和鏡頭運(yùn)動的認(rèn)知還是有一些問題的;而且這部電影是720P,也是用AE特效軟件編輯的。
但3 到 20 秒,渲染時(shí)間在 10 到 20 在幾分鐘內(nèi),效率大大提高??苹秒娪啊栋⒎策_(dá)》花了8年時(shí)間,從拍攝到制作,一兩個(gè)月就可以實(shí)現(xiàn),內(nèi)容制作成本降低了幾萬。
阿里云創(chuàng)始人王堅(jiān)說,中國工程院教授只說可能會影響短視頻等行業(yè),所以我認(rèn)為這是對它的極大侮辱,它的意義遠(yuǎn)遠(yuǎn)超過這種東西。就像核彈剛爆炸的時(shí)候,沒有人能想到這個(gè)東西以后可以作為核電廠發(fā)電,可以實(shí)現(xiàn)微型化,還有很多其他用途。
Sora當(dāng)然還處于嬰兒期。Sora的核心創(chuàng)始人timi在最近的一次采訪中表示:“我認(rèn)為Sora的發(fā)展就像一個(gè)新的視覺模型GPT-1。我們對Sora的前景持樂觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看,我們認(rèn)為Sora將有一天超越人類的智慧,成為世界模型的代表?!盨ora的核心創(chuàng)始人timi在最近的一次采訪中表示。
清華北大 創(chuàng)業(yè)公司使Sora努力
現(xiàn)在國內(nèi)Sora創(chuàng)業(yè)大潮中,學(xué)術(shù)機(jī)構(gòu) 創(chuàng)業(yè)公司搭配性能,更亮眼。
2023年3月,清華這支Vidu團(tuán)隊(duì)開源了世界上第一個(gè)基于組合的大模型。UniDiffuser,第一個(gè)驗(yàn)證了大規(guī)模練習(xí)和擴(kuò)展的規(guī)律。但由于計(jì)算成本高,團(tuán)隊(duì)一時(shí)的主要精力轉(zhuǎn)向了文生圖和文生3D領(lǐng)域。今年1月,團(tuán)隊(duì)可以形成4秒視頻,實(shí)現(xiàn)Pika、Runway的效果。
轉(zhuǎn)折點(diǎn)是2024年2月,Sora的發(fā)布震驚了圈內(nèi)圈外人士。團(tuán)隊(duì)回到文學(xué)時(shí)代評論領(lǐng)域,第一時(shí)間緊急啟動攻關(guān),并向海淀區(qū)領(lǐng)導(dǎo)匯報(bào),當(dāng)時(shí)得到了很多支持。
在接下來的兩個(gè)月里,從1月的4秒到3月底的8秒,Vidu在4月底展示了16秒的結(jié)果,直接超越了國內(nèi)大部分Sora模型,達(dá)到了Sora的同等水平。
Vidu案例視頻
相對于Vidu的突然爆紅,北大的爆紅Open Sora從出生開始,鑼鼓就誕生了。
Open-Sora 由北京大學(xué)-兔展AIGC聯(lián)合實(shí)驗(yàn)室聯(lián)合發(fā)起的Plan,目前已推出 1.0 同時(shí),版本模型發(fā)布了一個(gè)名為MagicTime的項(xiàng)目,從Time開始。-lapse 在視頻中學(xué)習(xí)真實(shí)世界的物理知識。
這支初始團(tuán)隊(duì)共有13人:北京大學(xué)信息工程學(xué)院助理教授、袁粒博士生導(dǎo)師、北京大學(xué)計(jì)算機(jī)學(xué)院教授、田永鴻博士生導(dǎo)師等。 ,兔展公司是合作創(chuàng)業(yè)公司。
由于資源不足,團(tuán)隊(duì)選擇開源生態(tài)共創(chuàng),AnimateDiff大神也參與其中。
當(dāng)前我國視頻生成領(lǐng)域,愛詩科技是知名產(chǎn)品。PixVerse,該公司剛剛完成了A2輪融資,上個(gè)月宣布完成了A1輪融資。核心創(chuàng)始人離開字節(jié)跳動創(chuàng)業(yè),主要解決了視頻鏡頭控制與一致性的問題。許多實(shí)際測量結(jié)果超過了Pika和runway等競爭對手。
PixVerse的重點(diǎn)發(fā)力方向似乎不是多模態(tài)大模型,計(jì)算能力的需求也不如Sora高。因此,現(xiàn)在看來,在國內(nèi)實(shí)際應(yīng)用中,PixVerse用戶已經(jīng)在88天內(nèi)生成了超過1000萬個(gè)視頻。
還有一家公司值得一提。4月28日,萬興公司發(fā)布了“天慕”音視頻模型,聲稱依托15億用戶行為數(shù)據(jù)和100億本土音視頻數(shù)據(jù),可以通過文字視頻能力,實(shí)現(xiàn)不同風(fēng)格、豐富場景、主題的銜接。第一次支持一鍵生成時(shí)間60秒 。在60秒內(nèi)創(chuàng)造了國內(nèi)文生視頻時(shí)長的記錄。
畢竟,從OpenAI不到100人,Midjourney的11人創(chuàng)業(yè)團(tuán)隊(duì)來看,團(tuán)隊(duì)規(guī)模并不是AI創(chuàng)業(yè)成功的關(guān)鍵,核心是首席科學(xué)家的團(tuán)隊(duì)沖鋒能力。那就是為什么國內(nèi)Sora創(chuàng)業(yè)公司會突然出現(xiàn)的核心原因。
當(dāng)然,計(jì)算資源仍然是一個(gè)很大的門檻。根據(jù)Vidu朱軍的說法,“在訓(xùn)練UniDiffuser的第一個(gè)版本時(shí),使用的計(jì)算率是去年年中訓(xùn)練同一模型的近40倍,團(tuán)隊(duì)在半年內(nèi)將計(jì)算能力的需求減少40倍?!边@也是其重要的技術(shù)突破。
大廠不掀文生視頻門簾。
在轟轟烈烈的AGI創(chuàng)業(yè)浪潮中,BAT是2023年的大型創(chuàng)業(yè)明星。但是在Sora的浪潮中,百度、阿里、騰訊、字節(jié)等大公司看起來有點(diǎn)安靜,有些風(fēng)頭被創(chuàng)業(yè)公司搶走了。
作為All in AGI動作最快的百度,發(fā)布了一款名為“百度”“UniVG”視頻生成模型。用戶只需提供一張圖片或一段文字,就可以生成一個(gè)流暢的視頻。雖然UniVG生成的每一幀圖片都比早期的AI視頻生成工具更穩(wěn)定、更連貫,但實(shí)際上這個(gè)模型更注重算法,而不是Sora的多模態(tài)大模型路線。
百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏在2023年Q4及全年業(yè)績會上表示,多模式或多模式的結(jié)合,如從文字到視頻,實(shí)際上是未來基礎(chǔ)模式開發(fā)的一個(gè)非常重要的方向,這是AGI的必要方向。百度已經(jīng)投資了這些領(lǐng)域,未來還會繼續(xù)投資。
在這方面,字節(jié)動作相對穩(wěn)定。早在年初,字節(jié)跳動就發(fā)布了超高清文生視頻模型。MagicVideo-V2。據(jù)悉,該模型在超清度、潤化度、連接性、文本語義恢復(fù)等方面的輸出視頻比目前主流的文生視頻模型要好。Gen-2、Stable Video Diffusion、Pika1.0等更出色。
字節(jié)文生視頻產(chǎn)品是Dreammina,現(xiàn)在文生視頻已經(jīng)處于內(nèi)部測試階段,這也是大廠唯一發(fā)布的Sora產(chǎn)品。AI鯨選社 社區(qū)里的朋友田際云對此進(jìn)行了內(nèi)測:
附評價(jià):1、Dreamina提示“一位工程師,坐在辦公桌前敲代碼”,還不錯(cuò);2、對于漢字的理解非常不足,認(rèn)為“寫”就是在筆記本上寫,實(shí)際上是在計(jì)算機(jī)上輸入輸出。3、Dreamina這幾天使用的總結(jié):當(dāng)代元素和人物的形成比古代元素和人物更準(zhǔn)確,海外元素的形成比國內(nèi)元素要好得多。底層模型很明顯。
而阿里云旗下的魔搭社區(qū)(Model-Scope)在線文本生成視頻模型。目前由三個(gè)子網(wǎng)絡(luò)組成:文本特征提取、文本特征到視頻隱藏空間擴(kuò)散模型、視頻隱藏空間到視頻視覺空間,整體模型參數(shù)約17億。
目前,阿里最熱門的視頻模型應(yīng)該是最近剛剛在通義上線的。EMO,這種AI商品讓照片說話唱歌,屬于算法定義的商品,目前已在通義APP上使用。
騰訊推出的視頻模型是Mira,當(dāng)前模型可生成分辨率為128x80長達(dá) 20 秒視頻和分辨率為384x240長達(dá) 10 秒視頻。并且提供了數(shù)據(jù)標(biāo)記和模型訓(xùn)練工具。
所以目前大廠有一些基本的視頻模型,但是真正的對比Sora模型還沒有公布。這也是一個(gè)奇怪的地方。大工廠不缺人才、計(jì)算率和資金。在可以露臉的文化視頻領(lǐng)域,動作相對緩慢,讓創(chuàng)業(yè)公司露臉。
自然,大廠也并非完全沒有動作,投資也是參與的一種方式。
由于2023年3月,Vidu背后的生數(shù)技術(shù)正式成立,RealAI瑞萊智慧、螞蟻和百度風(fēng)險(xiǎn)投資聯(lián)合孵化。2023年6月,公司完成天使輪融資近億元,由螞蟻集團(tuán)領(lǐng)先。BV百度風(fēng)險(xiǎn)投資和卓源資本跟進(jìn),投資后估值達(dá)到1億美元。天使 輪,錦秋基金獨(dú)家投資該公司,其前身是字節(jié)戰(zhàn)投部門。
現(xiàn)在看來,國內(nèi)Sora的競爭剛剛吹響號角,有些成績還不算領(lǐng)先。
本文來自微信公眾號“AI鯨選社”(ID:aijingxuanshe),作者:鯨哥,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com