亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

國產(chǎn) Sora 隱藏在這支清華大模型團(tuán)隊中的秘密

2024-05-03

2024 年,Sora 一直生活在聚光燈下。


馬斯克毫不猶豫地贊美這個詞?!溉嗽敢赓€服輸」;在紅衣教主周鴻祎的眼中, Sora 人類實現(xiàn) AGI 將減少到一兩年。即使是賣付費(fèi)課程的微商,也會拿來?!窼ora」再一次組裝自己的鐮刀。


這一狂熱的蔓延,從美國到中國,從一級到二級,甚至到三級市場,就像波瀾一樣,蔓延到世界。


因為,理想情況下,長視頻產(chǎn)生的底層邏輯,大約等于世界模型。十秒或幾十秒的視頻包括基本的圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等現(xiàn)實規(guī)律和知識的投射。從小處看,這是關(guān)鍵的一步,可以打翻傳統(tǒng)電影和游戲制作的桌子,從大處看,通向通用人工智能。


與此同時,在一群長視頻生成算法中,Sora 技術(shù)突破是革命性的。。相較于傳統(tǒng) Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 結(jié)構(gòu),既解決了問題 Stable Diffusion 缺乏可擴(kuò)展性,更加在內(nèi)容生成的準(zhǔn)確性和靈活性方面有了質(zhì)的飛躍。


唯一美中不足的是,Sora 不是開源算法。


沒有開源,就沒有再現(xiàn)的可能;如果沒有再現(xiàn)的可能,那么即使是經(jīng)濟(jì)管理背景的合作伙伴睡前閱讀材料也會變成《Scalable diffusion models with transformers》,投資者一周跑遍北京、深圳科技產(chǎn)業(yè)園三尺,每個人都要承認(rèn)一個現(xiàn)實,盡管有很多大型視頻公司,但是也許還沒有等到國產(chǎn) Sora 視頻大模型淘汰賽的正式挖掘已經(jīng)結(jié)束。


業(yè)界「哇聲一片」,一級市場卻空前焦慮。中國AI公司,只能眼睜睜地看著自己的距離。 Sora 是不是越走越遠(yuǎn)?


「國產(chǎn) Sora」來了?

場中 VC 幾乎絕望的時候,誰也沒有想到,國產(chǎn)產(chǎn)品 Sora 秘密,首先揭曉謎底的,竟然是成立僅一年多的大型企業(yè)——生數(shù)科技。


近日,學(xué)生數(shù)學(xué)科技聯(lián)合清華大學(xué)宣布推出國內(nèi)首個基于純自主研究的國內(nèi)。 U-ViT 視頻大模型結(jié)構(gòu)「Vidu」,支持一鍵生成接近 16 秒,分辨率高達(dá) 1080p 超清晰視頻內(nèi)容。根據(jù)官方公布的短片,Vidu 就多鏡頭生成、時間與空間的一致性、真實物理世界的模擬、想象等而言,幾乎與 Sora 相平


與其它國產(chǎn)產(chǎn)品相比「類 Sora」工作,Vidu 最明顯的特征之一就是畫面時間足夠長。


提示:一艘木制玩具船在地毯上航行。注意:這是 Vidu 一段官方視頻可以在生數(shù)科技旗下發(fā)布。 PixWeaver 平臺查看


一直以來,十秒幾乎都是?!竾a(chǎn) Sora」一條生死線。要實現(xiàn)或超過十秒,就意味著對訓(xùn)練材料的積累,以及如何處理算法記憶消失的問題,需要進(jìn)行深入的研究。


這是 Vidu 另外一段官方視頻發(fā)布,從視頻中可以看出,白色老式 SUV 在山坡和土路上行駛時,滾動的輪胎會揚(yáng)起灰塵,軌跡自然連貫;在陽光的照射下,周圍的森林遵循了現(xiàn)實世界中的投射規(guī)律,留下了斑駁的光影。


形成對比的是,在保證視頻時長的前提下,大多數(shù)國產(chǎn)產(chǎn)品「類 Sora」人物和場景的連貫性很難維持,也很難真正遵循物理世界的規(guī)律,比如吃漢堡留下咬痕,開車時留下尾氣和灰塵的痕跡。


據(jù)業(yè)內(nèi)人士透露,目前市場上以前的一些人「類 Sora」事實上,大多數(shù)模型都是通過插幀的方式,在視頻的每兩幀圖片中加入一幀或多幀來提高視頻的長度。


這樣就需要對視頻進(jìn)行逐幀處理,通過插入額外的幀來改變視頻的長度和質(zhì)量。整個畫面會顯得僵硬而緩慢。


但是生數(shù)技術(shù)的作用原理明顯不同。基于單個模型的完全端到端生成實現(xiàn)底層算法,直觀上我們可以看到「一鏡到底」絲滑感,視頻從頭到尾不斷生成,沒有插幀痕跡。


另外,還有一些工具類長視頻使用?!笓Q湯不換藥」的做法。許多其它模型的工作都集中在底層,比如先基于。 Stable Diffusion、Midjourney 生成單張圖片,然后生成圖片 4s 短片,再做拼接。換言之,如果你想要一個十幾秒鐘的長視頻,那就把多個視頻 4s 短片拼在一起就好了,不但整體場景流暢度會大大降低,底層也沒有實現(xiàn)長片生成能力的突破。


除生成時間有質(zhì)的突破外,我們還可以從官方的視頻中看到,Vidu 同時也使畫面持續(xù)流暢,具有細(xì)節(jié),邏輯連貫。盡管都是運(yùn)動畫面,但是很少出現(xiàn)穿模、鬼影、運(yùn)動不符合實際規(guī)律的問題。


做一個簡單的對比。以下是一個熱門視頻模型團(tuán)隊的視頻生成效果截圖。雖然整個視頻只有四秒鐘的長度,但只有一個準(zhǔn)備跳躍的動作指令,足以讓畫面中的小貓變成 6 只有腳,或者三條尾巴?!腹碛啊埂?/p>



對比度如此鮮明,讓人不禁疑惑:為什么ChatGPT發(fā)布后,市場立刻涌現(xiàn)出一批「達(dá)到 GPT 3.5,逼近 GPT4.0」大型商品。同樣的追求,為什么? Sora 商品就是這么難?


答案是,ChatGPT 發(fā)布不久,Meta LLama2 開源,開源平替解決國內(nèi)問題 ChatGPT 技術(shù)再現(xiàn)的燃眉之急。和 Sora 沒有開源,技術(shù)細(xì)節(jié)沒有公開,從而實現(xiàn)?!竾a(chǎn) Sora」只剩下自研這條路可走。


根據(jù) OpenAI 技術(shù)報告公布,Sora 一篇名為“核心技術(shù)架構(gòu)”的文章背后《Scalable Diffusion Models with Transformers》論文中,論文提出了一篇即將到來的論文。 Diffusion(擴(kuò)散模型)和 Transformer 結(jié)合的架構(gòu)——DiT,后邊被 Sora 選用。


巧合的是,比 DiT 兩個多月前,清華團(tuán)隊提出使用。 Transformer 取代基于 CNN 的 U-Net 的網(wǎng)絡(luò)結(jié)構(gòu) U-ViT。在架構(gòu)路線上,兩者并不一致。即使在這個過程中,也有一個小插曲,因為發(fā)布日期比較早,最初的計算機(jī)視覺頂會 CVPR 2023 包括清華大學(xué) U-ViT 論文,卻以「缺乏創(chuàng)新」為由拒稿了 Sora 底層使用的 DiT 論文。


學(xué)生數(shù)學(xué)技術(shù)的創(chuàng)始團(tuán)隊起源于清華大學(xué)的論文團(tuán)隊。公司 CTO 這篇論文的第一作者鮑凡就是這篇論文。 Vidu 模型底部采用的是 U-ViT 結(jié)構(gòu)。換言之,生數(shù)技術(shù)不屬于追求 Sora 其中一個人,一大早就踏上了同一起跑線,甚至更早。


由此窺探,生數(shù)科技雖然成立時間短,但來頭并不小。


深挖發(fā)現(xiàn),在人才方面,其團(tuán)隊核心成員來自清華大學(xué)人工智能研究所,是國內(nèi)最早的深層生成研究團(tuán)隊。在技術(shù)方面,團(tuán)隊的許多研究成果 OpenAI、蘋果、Stability AI 等應(yīng)用于 DALL·E 2、Stable Diffusion 等模型中,是目前在生成式領(lǐng)域發(fā)表文章成績最多的國內(nèi)團(tuán)隊。從背景來看,生數(shù)科技已經(jīng)獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 眾多知名機(jī)構(gòu)的認(rèn)可,如百度風(fēng)投、字節(jié)系錦秋基金等,完成了數(shù)億元的融資。


而且真正做到這一切,為何是生數(shù)?


為何是生數(shù)技術(shù)?

或許最重要的答案是,生數(shù)科技很早就走對了技術(shù)路線。


基于市場上大多數(shù)視頻生成算法的使用 U-Net 傳統(tǒng)的卷積結(jié)構(gòu)擴(kuò)散模式不同,這次發(fā)布的生數(shù)技術(shù) Vidu 與 Sora 所有使用的結(jié)合架構(gòu)(即上面提到的) U-ViT 與 DiT)。


所謂的結(jié)合架構(gòu),可以理解為 Diffusion(擴(kuò)散模型)和 Transformer 的結(jié)合。


Transformer 在大語言模型中使用架構(gòu)是眾所周知的,其優(yōu)點(diǎn)是 scale 特性,參數(shù)越多,效果越好, Diffusion 常用于傳統(tǒng)的視覺任務(wù)(圖像和視頻生成)。


結(jié)合架構(gòu)就是在這里 Diffusion Model(擴(kuò)散模型),使用 Transformer 更換常用的 U-Net 卷積網(wǎng)絡(luò),將 Transformer 可擴(kuò)展性和可擴(kuò)展性 Diffusion 將視覺數(shù)據(jù)的自然優(yōu)勢與模型處理相結(jié)合,可以在視覺任務(wù)中展現(xiàn)出優(yōu)秀的出現(xiàn)能力。


2022 年 9 月亮,團(tuán)隊提交了 U-ViT 在世界范圍內(nèi)首次提出擴(kuò)散模型和論文 Transformer 結(jié)合架構(gòu)思路。兩個多月后推出的 DiT 同樣的結(jié)構(gòu)也采用了這個思路,然后 Sora 選用。


相比僅在 ImageNet 上面做了實驗 DiT,U-ViT 仍然是小數(shù)據(jù)(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù) MSCOCO 他們都做了實驗。而且,與傳統(tǒng)相比, Transformer,U-ViT 提出了一項「長連接」技術(shù),大大提高了訓(xùn)練的收斂速度。


之后,團(tuán)隊繼續(xù)深入。2023 年 3 月亮,團(tuán)隊是基于 U-ViT 大規(guī)模的圖形數(shù)據(jù)架構(gòu) LAION-5B 上訓(xùn)練出近 10 十億參數(shù)模型 UniDiffuser,并且把它開源,UniDiffuser 支持圖形模態(tài)之間的隨機(jī)生成和轉(zhuǎn)換。


UniDiffuser 實現(xiàn)有一個重要的價值——首次驗證了大規(guī)模訓(xùn)練任務(wù)中結(jié)合架構(gòu)的可擴(kuò)展性(Scaling Law),相當(dāng)于在大規(guī)模訓(xùn)練任務(wù)中運(yùn)行結(jié)合架構(gòu)的所有階段。


值得注意的是,同樣的圖文模型,UniDiffuser 直到最近才切換到 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先一年。


不過,雖然都選擇了結(jié)合架構(gòu),但是在后續(xù)商品路徑的推廣上,基于資源等方面的考慮,Sora 團(tuán)隊挑選「每日基本不睡覺,高強(qiáng)度工作一年?!筧ll in 長片,生數(shù)科技選擇從長片, 2D 圖像開始,然后進(jìn)一步擴(kuò)展到 3D 和視頻。


路線沒有對錯之分,一個基礎(chǔ)知識就是國內(nèi)創(chuàng)業(yè)公司,技術(shù)路線可以和 OpenAI 同樣,表示眼光足夠長久;但是商業(yè)玩法參考 OpenAI 就是自尋死路——Sora 背后是 OpenAI 技術(shù)實力,以及微軟幾乎無限的算率支持,一般企業(yè)沒有學(xué)習(xí)資本。


所以,回顧整個故事 2023 2008年,生數(shù)科技的主要資源全部放置在圖像和 3D 去吧。今年到了 1 月份,生數(shù)科技正式上線。 4 秒短視頻生成,2 月份 Sora 公司發(fā)布后,公司正式攻堅,不久就在 3 這個月突破了 8 秒視頻生成,4 月份實現(xiàn) 16 秒長突破,產(chǎn)生質(zhì)量和時長,全面取得突破。


僅僅2個月的時間就完成了 4 秒到 16 第二次訓(xùn)練任務(wù),速度驚人。


其背后不僅來自技術(shù)架構(gòu)方面?!盖罢啊?,還有就是通過過去圖像到 3D 由淺入深的視頻,使團(tuán)隊積累了高效的工程經(jīng)驗。


本質(zhì)上,視頻是時間序列中圖像的擴(kuò)展,可以看作是一個連續(xù)多幀的圖像。因此,從圖像開始,基礎(chǔ)設(shè)施的工程化工作,如數(shù)據(jù)收集、清理、標(biāo)注和模型高效訓(xùn)練,可以重用。Sora 就是這樣做的:它采用了 DALL·E 3 通過對視覺訓(xùn)練數(shù)據(jù)進(jìn)行詳細(xì)的描述,使模型能夠更準(zhǔn)確地按照客戶的文本指令生成視頻。


據(jù)悉,「Vidu」我還重用了生數(shù)技術(shù)在圖形任務(wù)方面的許多經(jīng)驗。通過前期圖像等任務(wù)的準(zhǔn)備,生數(shù)技術(shù)利用視頻數(shù)據(jù)壓縮技術(shù)降低了輸入數(shù)據(jù)的序列水平,同時采用了自主研發(fā)的分布式培訓(xùn)框架,在保證計算精度的同時提高了通信效率。 1 倍數(shù),顯存費(fèi)用減少 80%的訓(xùn)練速度累計提高 40 倍。


路要一步一步走,飯要一口一口吃。在這個爭奪「國產(chǎn) Sora」在商業(yè)游戲中,技術(shù)上尋找和尋找方向是第一步;并且走出去「國產(chǎn)」特征,也是生存的前提,兩者缺一不可。


本文來自微信微信官方賬號“極客公園”(ID:geekpark),作者:劉芮Ray,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com