國產(chǎn) Sora 隱藏在這支清華大模型團(tuán)隊中的秘密
2024 年,Sora 一直生活在聚光燈下。
馬斯克毫不猶豫地贊美這個詞?!溉嗽敢赓€服輸」;在紅衣教主周鴻祎的眼中, Sora 人類實現(xiàn) AGI 將減少到一兩年。即使是賣付費(fèi)課程的微商,也會拿來?!窼ora」再一次組裝自己的鐮刀。
這一狂熱的蔓延,從美國到中國,從一級到二級,甚至到三級市場,就像波瀾一樣,蔓延到世界。
因為,理想情況下,長視頻產(chǎn)生的底層邏輯,大約等于世界模型。十秒或幾十秒的視頻包括基本的圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等現(xiàn)實規(guī)律和知識的投射。從小處看,這是關(guān)鍵的一步,可以打翻傳統(tǒng)電影和游戲制作的桌子,從大處看,通向通用人工智能。
與此同時,在一群長視頻生成算法中,Sora 技術(shù)突破是革命性的。。相較于傳統(tǒng) Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 結(jié)構(gòu),既解決了問題 Stable Diffusion 缺乏可擴(kuò)展性,更加在內(nèi)容生成的準(zhǔn)確性和靈活性方面有了質(zhì)的飛躍。
唯一美中不足的是,Sora 不是開源算法。
沒有開源,就沒有再現(xiàn)的可能;如果沒有再現(xiàn)的可能,那么即使是經(jīng)濟(jì)管理背景的合作伙伴睡前閱讀材料也會變成《Scalable diffusion models with transformers》,投資者一周跑遍北京、深圳科技產(chǎn)業(yè)園三尺,每個人都要承認(rèn)一個現(xiàn)實,盡管有很多大型視頻公司,但是也許還沒有等到國產(chǎn) Sora 視頻大模型淘汰賽的正式挖掘已經(jīng)結(jié)束。。
業(yè)界「哇聲一片」,一級市場卻空前焦慮。中國AI公司,只能眼睜睜地看著自己的距離。 Sora 是不是越走越遠(yuǎn)?
「國產(chǎn) Sora」來了?
場中 VC 幾乎絕望的時候,誰也沒有想到,國產(chǎn)產(chǎn)品 Sora 秘密,首先揭曉謎底的,竟然是成立僅一年多的大型企業(yè)——生數(shù)科技。
近日,學(xué)生數(shù)學(xué)科技聯(lián)合清華大學(xué)宣布推出國內(nèi)首個基于純自主研究的國內(nèi)。 U-ViT 視頻大模型結(jié)構(gòu)「Vidu」,支持一鍵生成接近 16 秒,分辨率高達(dá) 1080p 超清晰視頻內(nèi)容。根據(jù)官方公布的短片,Vidu 就多鏡頭生成、時間與空間的一致性、真實物理世界的模擬、想象等而言,幾乎與 Sora 相平。
與其它國產(chǎn)產(chǎn)品相比「類 Sora」工作,Vidu 最明顯的特征之一就是畫面時間足夠長。
提示:一艘木制玩具船在地毯上航行。注意:這是 Vidu 一段官方視頻可以在生數(shù)科技旗下發(fā)布。 PixWeaver 平臺查看
一直以來,十秒幾乎都是?!竾a(chǎn) Sora」一條生死線。要實現(xiàn)或超過十秒,就意味著對訓(xùn)練材料的積累,以及如何處理算法記憶消失的問題,需要進(jìn)行深入的研究。
這是 Vidu 另外一段官方視頻發(fā)布,從視頻中可以看出,白色老式 SUV 在山坡和土路上行駛時,滾動的輪胎會揚(yáng)起灰塵,軌跡自然連貫;在陽光的照射下,周圍的森林遵循了現(xiàn)實世界中的投射規(guī)律,留下了斑駁的光影。
形成對比的是,在保證視頻時長的前提下,大多數(shù)國產(chǎn)產(chǎn)品「類 Sora」人物和場景的連貫性很難維持,也很難真正遵循物理世界的規(guī)律,比如吃漢堡留下咬痕,開車時留下尾氣和灰塵的痕跡。
據(jù)業(yè)內(nèi)人士透露,目前市場上以前的一些人「類 Sora」事實上,大多數(shù)模型都是通過插幀的方式,在視頻的每兩幀圖片中加入一幀或多幀來提高視頻的長度。
這樣就需要對視頻進(jìn)行逐幀處理,通過插入額外的幀來改變視頻的長度和質(zhì)量。整個畫面會顯得僵硬而緩慢。
但是生數(shù)技術(shù)的作用原理明顯不同。基于單個模型的完全端到端生成實現(xiàn)底層算法,直觀上我們可以看到「一鏡到底」絲滑感,視頻從頭到尾不斷生成,沒有插幀痕跡。
另外,還有一些工具類長視頻使用?!笓Q湯不換藥」的做法。許多其它模型的工作都集中在底層,比如先基于。 Stable Diffusion、Midjourney 生成單張圖片,然后生成圖片 4s 短片,再做拼接。換言之,如果你想要一個十幾秒鐘的長視頻,那就把多個視頻 4s 短片拼在一起就好了,不但整體場景流暢度會大大降低,底層也沒有實現(xiàn)長片生成能力的突破。
除生成時間有質(zhì)的突破外,我們還可以從官方的視頻中看到,Vidu 同時也使畫面持續(xù)流暢,具有細(xì)節(jié),邏輯連貫。盡管都是運(yùn)動畫面,但是很少出現(xiàn)穿模、鬼影、運(yùn)動不符合實際規(guī)律的問題。
做一個簡單的對比。以下是一個熱門視頻模型團(tuán)隊的視頻生成效果截圖。雖然整個視頻只有四秒鐘的長度,但只有一個準(zhǔn)備跳躍的動作指令,足以讓畫面中的小貓變成 6 只有腳,或者三條尾巴?!腹碛啊埂?/p>
對比度如此鮮明,讓人不禁疑惑:為什么ChatGPT發(fā)布后,市場立刻涌現(xiàn)出一批「達(dá)到 GPT 3.5,逼近 GPT4.0」大型商品。同樣的追求,為什么? Sora 商品就是這么難?
答案是,ChatGPT 發(fā)布不久,Meta LLama2 開源,開源平替解決國內(nèi)問題 ChatGPT 技術(shù)再現(xiàn)的燃眉之急。和 Sora 沒有開源,技術(shù)細(xì)節(jié)沒有公開,從而實現(xiàn)?!竾a(chǎn) Sora」只剩下自研這條路可走。
根據(jù) OpenAI 技術(shù)報告公布,Sora 一篇名為“核心技術(shù)架構(gòu)”的文章背后《Scalable Diffusion Models with Transformers》論文中,論文提出了一篇即將到來的論文。 Diffusion(擴(kuò)散模型)和 Transformer 結(jié)合的架構(gòu)——DiT,后邊被 Sora 選用。
巧合的是,比 DiT 兩個多月前,清華團(tuán)隊提出使用。 Transformer 取代基于 CNN 的 U-Net 的網(wǎng)絡(luò)結(jié)構(gòu) U-ViT。在架構(gòu)路線上,兩者并不一致。即使在這個過程中,也有一個小插曲,因為發(fā)布日期比較早,最初的計算機(jī)視覺頂會 CVPR 2023 包括清華大學(xué) U-ViT 論文,卻以「缺乏創(chuàng)新」為由拒稿了 Sora 底層使用的 DiT 論文。
學(xué)生數(shù)學(xué)技術(shù)的創(chuàng)始團(tuán)隊起源于清華大學(xué)的論文團(tuán)隊。公司 CTO 這篇論文的第一作者鮑凡就是這篇論文。 Vidu 模型底部采用的是 U-ViT 結(jié)構(gòu)。換言之,生數(shù)技術(shù)不屬于追求 Sora 其中一個人,一大早就踏上了同一起跑線,甚至更早。
由此窺探,生數(shù)科技雖然成立時間短,但來頭并不小。
深挖發(fā)現(xiàn),在人才方面,其團(tuán)隊核心成員來自清華大學(xué)人工智能研究所,是國內(nèi)最早的深層生成研究團(tuán)隊。在技術(shù)方面,團(tuán)隊的許多研究成果 OpenAI、蘋果、Stability AI 等應(yīng)用于 DALL·E 2、Stable Diffusion 等模型中,是目前在生成式領(lǐng)域發(fā)表文章成績最多的國內(nèi)團(tuán)隊。從背景來看,生數(shù)科技已經(jīng)獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 眾多知名機(jī)構(gòu)的認(rèn)可,如百度風(fēng)投、字節(jié)系錦秋基金等,完成了數(shù)億元的融資。
而且真正做到這一切,為何是生數(shù)?
為何是生數(shù)技術(shù)?
或許最重要的答案是,生數(shù)科技很早就走對了技術(shù)路線。
基于市場上大多數(shù)視頻生成算法的使用 U-Net 傳統(tǒng)的卷積結(jié)構(gòu)擴(kuò)散模式不同,這次發(fā)布的生數(shù)技術(shù) Vidu 與 Sora 所有使用的結(jié)合架構(gòu)(即上面提到的) U-ViT 與 DiT)。
所謂的結(jié)合架構(gòu),可以理解為 Diffusion(擴(kuò)散模型)和 Transformer 的結(jié)合。
Transformer 在大語言模型中使用架構(gòu)是眾所周知的,其優(yōu)點(diǎn)是 scale 特性,參數(shù)越多,效果越好, Diffusion 常用于傳統(tǒng)的視覺任務(wù)(圖像和視頻生成)。
結(jié)合架構(gòu)就是在這里 Diffusion Model(擴(kuò)散模型),使用 Transformer 更換常用的 U-Net 卷積網(wǎng)絡(luò),將 Transformer 可擴(kuò)展性和可擴(kuò)展性 Diffusion 將視覺數(shù)據(jù)的自然優(yōu)勢與模型處理相結(jié)合,可以在視覺任務(wù)中展現(xiàn)出優(yōu)秀的出現(xiàn)能力。
2022 年 9 月亮,團(tuán)隊提交了 U-ViT 在世界范圍內(nèi)首次提出擴(kuò)散模型和論文 Transformer 結(jié)合架構(gòu)思路。兩個多月后推出的 DiT 同樣的結(jié)構(gòu)也采用了這個思路,然后 Sora 選用。
相比僅在 ImageNet 上面做了實驗 DiT,U-ViT 仍然是小數(shù)據(jù)(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù) MSCOCO 他們都做了實驗。而且,與傳統(tǒng)相比, Transformer,U-ViT 提出了一項「長連接」技術(shù),大大提高了訓(xùn)練的收斂速度。
之后,團(tuán)隊繼續(xù)深入。2023 年 3 月亮,團(tuán)隊是基于 U-ViT 大規(guī)模的圖形數(shù)據(jù)架構(gòu) LAION-5B 上訓(xùn)練出近 10 十億參數(shù)模型 UniDiffuser,并且把它開源,UniDiffuser 支持圖形模態(tài)之間的隨機(jī)生成和轉(zhuǎn)換。
UniDiffuser 實現(xiàn)有一個重要的價值——首次驗證了大規(guī)模訓(xùn)練任務(wù)中結(jié)合架構(gòu)的可擴(kuò)展性(Scaling Law),相當(dāng)于在大規(guī)模訓(xùn)練任務(wù)中運(yùn)行結(jié)合架構(gòu)的所有階段。
值得注意的是,同樣的圖文模型,UniDiffuser 直到最近才切換到 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先一年。
不過,雖然都選擇了結(jié)合架構(gòu),但是在后續(xù)商品路徑的推廣上,基于資源等方面的考慮,Sora 團(tuán)隊挑選「每日基本不睡覺,高強(qiáng)度工作一年?!筧ll in 長片,生數(shù)科技選擇從長片, 2D 圖像開始,然后進(jìn)一步擴(kuò)展到 3D 和視頻。
路線沒有對錯之分,一個基礎(chǔ)知識就是國內(nèi)創(chuàng)業(yè)公司,技術(shù)路線可以和 OpenAI 同樣,表示眼光足夠長久;但是商業(yè)玩法參考 OpenAI 就是自尋死路——Sora 背后是 OpenAI 技術(shù)實力,以及微軟幾乎無限的算率支持,一般企業(yè)沒有學(xué)習(xí)資本。
所以,回顧整個故事 2023 2008年,生數(shù)科技的主要資源全部放置在圖像和 3D 去吧。今年到了 1 月份,生數(shù)科技正式上線。 4 秒短視頻生成,2 月份 Sora 公司發(fā)布后,公司正式攻堅,不久就在 3 這個月突破了 8 秒視頻生成,4 月份實現(xiàn) 16 秒長突破,產(chǎn)生質(zhì)量和時長,全面取得突破。
僅僅2個月的時間就完成了 4 秒到 16 第二次訓(xùn)練任務(wù),速度驚人。
其背后不僅來自技術(shù)架構(gòu)方面?!盖罢啊?,還有就是通過過去圖像到 3D 由淺入深的視頻,使團(tuán)隊積累了高效的工程經(jīng)驗。
本質(zhì)上,視頻是時間序列中圖像的擴(kuò)展,可以看作是一個連續(xù)多幀的圖像。因此,從圖像開始,基礎(chǔ)設(shè)施的工程化工作,如數(shù)據(jù)收集、清理、標(biāo)注和模型高效訓(xùn)練,可以重用。Sora 就是這樣做的:它采用了 DALL·E 3 通過對視覺訓(xùn)練數(shù)據(jù)進(jìn)行詳細(xì)的描述,使模型能夠更準(zhǔn)確地按照客戶的文本指令生成視頻。
據(jù)悉,「Vidu」我還重用了生數(shù)技術(shù)在圖形任務(wù)方面的許多經(jīng)驗。通過前期圖像等任務(wù)的準(zhǔn)備,生數(shù)技術(shù)利用視頻數(shù)據(jù)壓縮技術(shù)降低了輸入數(shù)據(jù)的序列水平,同時采用了自主研發(fā)的分布式培訓(xùn)框架,在保證計算精度的同時提高了通信效率。 1 倍數(shù),顯存費(fèi)用減少 80%的訓(xùn)練速度累計提高 40 倍。
路要一步一步走,飯要一口一口吃。在這個爭奪「國產(chǎn) Sora」在商業(yè)游戲中,技術(shù)上尋找和尋找方向是第一步;并且走出去「國產(chǎn)」特征,也是生存的前提,兩者缺一不可。
本文來自微信微信官方賬號“極客公園”(ID:geekpark),作者:劉芮Ray,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com