亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

文生視頻時代已到,百度、訊飛、字節(jié)誰能率先做出“國產(chǎn) Sora ”?

商界觀察
2024-02-26

繼 ChatGPT 后,OpenAI 又在文生視頻的領(lǐng)域中扔下了一顆深水炸彈,引爆了海內(nèi)外 AI 圈。

 

2 月 16 日,OpenAI 的文字生成視頻模型—— Sora 首次面世。據(jù)介紹,Sora 可以根據(jù)所輸入的 prompt,直接輸出最高長達 60 秒的視頻,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個角色。

 

在 OpenAI 創(chuàng)始人阿爾特曼的社交網(wǎng)站上,其也放出了 Sora 生成的視頻,如下便是以 "A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view"(一場在海洋上舉行的自行車比賽,不同的動物作為運動員騎著自行車,通過無人機攝像機視角進行拍攝)為提示詞生成的視頻。

 

此外,用更具體的 prompt 也可以獲得時長更久的視頻,如下便是以 " 一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去 " 為提示詞生成的視頻。

 

上述兩個視頻,如果不告訴你它們是由 AI 生成的,誰又能辨別出來呢?

 

那么,OpenAI 的首款文生視頻模型 Sora 是如何完成文生視頻的?其與 Runway Gen-2、Pika 等 AI 視頻工具相比,有著什么樣的進步,又有哪些不足?Sora 的出現(xiàn),會讓哪些行業(yè)出現(xiàn)翻天覆地的變化?對國內(nèi)的 AI 企業(yè),又有哪些啟示呢?

 

Sora 的底層邏輯,其實和大語言模型相同?

 

要深入探索 Sora 的多方面特征,我們首先需從其技術(shù)根基著手。換句話說,我們最先需要明白的是,Sora 生成視頻內(nèi)容的背后,究竟是依托于怎么樣的技術(shù)實現(xiàn)的?

 

在當(dāng)今的人工智能領(lǐng)域,大模型的發(fā)展都離不開 Transformer 架構(gòu)。這一架構(gòu)的核心思想是利用海量數(shù)據(jù)進行學(xué)習(xí),以便在特定的目標(biāo)場景中實現(xiàn)泛化效果,即通過分析先前的內(nèi)容來預(yù)測后續(xù)的內(nèi)容。

 

這種方法在文本生成領(lǐng)域中表現(xiàn)出色,因為文本數(shù)據(jù)的結(jié)構(gòu)和標(biāo)準(zhǔn)相對一致。然而,對于視頻數(shù)據(jù),情況就大不相同了。視頻數(shù)據(jù)包含了圖像內(nèi)容、時間、顏色等多種維度的信息,如何將這些不同維度的因素有效結(jié)合,成為了構(gòu)建 AI 視頻模型的關(guān)鍵挑戰(zhàn)。

 

在 Sora 項目的推進過程中,OpenAI 深入思考并參考了大型語言模型的成功之道,即通過互聯(lián)網(wǎng)上的超大規(guī)模數(shù)據(jù)訓(xùn)練,以獲得通用的處理能力,從而成功將代碼、數(shù)字和各種自然語言進行了有效的統(tǒng)一處理。

 

而為了讓視覺數(shù)據(jù)模型繼承這樣的好處,Sora 也采用了與大語言模型相同的思路,即 LLMs 既然可以使用 token 標(biāo)記,那么 Sora 與采用類似于視覺領(lǐng)域中的 token 不就可以解決問題了嗎?

 

具體來看,Sora 模型構(gòu)建了 Visual Encoder 視頻壓縮網(wǎng)絡(luò),將視頻轉(zhuǎn)換到低維空間 Latent Space,然后將 Latent Space 分解成 Patch 表示,將視頻生成的任務(wù)轉(zhuǎn)化成通過已知 Patch 預(yù)測接下來的 Patches 的任務(wù),然后通過 Decoder 將 Latent 還原成人類可理解的高像素視頻并拼接起來,最終生成目標(biāo)視頻。

 

圖源:OpenAI-Sora 技術(shù)文檔

 

也正是因為將視頻轉(zhuǎn)換成 Patch 表示,所以 Sora 模型并不像傳統(tǒng)的視覺模型那樣,需要被高寬比、分辨率、時間等因素限制,讓整個模型的范化能力和通用性變得更強,還支持更多的 Prompt 類型,完成圖生視頻、視頻擴展、多個視頻之間連接等功能。

 

與先前的文本生成視頻軟件如 Runway、Pika 和 Stable Video 等 " 前輩 " 相比,Sora 不僅在技術(shù)層面取得了突破性的進步,視頻效果上更是實現(xiàn)了如代際碾壓般的降維打擊。

 

首先,最直接差距的便是視頻長度的提升,社交平臺上一位名為 "Gabor Cselle" 的博主將相同的 prompt" 美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位購物,絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚 " 輸入給 Sora、Pika、Runway、Stable Video 四個模型后,它們給出的結(jié)果是這樣的。

 

可以看到,當(dāng)前主流的 AI 視頻生成軟件 Pika、Runway 和 Stable Video 視頻生成的時長普遍被限制在 5 秒內(nèi),在特定情況下,應(yīng)用戶要求,這些平臺能擴展至 16 秒,這已是 2024 年以前 AI 生成視頻領(lǐng)域公認(rèn)的最長時間紀(jì)錄。而 Sora 則突破常規(guī),其獨特的能力允許它生成長達一分鐘的視頻,這一時長無疑將其置于行業(yè)絕對的領(lǐng)先地位。

 

而在簡單的時長增加外,Sora 多鏡頭切換的能力,也讓人十分驚嘆。

 

眾所周知,在真正的視頻拍攝中,多鏡頭場景的拍攝并不是件易事,不僅需要多個機位共同參與,還需要在后期進行復(fù)雜的剪輯,所以過去的 AI 視頻大多都是單鏡頭出現(xiàn),但 Sora 放出的文生視頻很多都出現(xiàn)了多角度的鏡頭切換,并可以在不停的切換之間實現(xiàn)拍攝對象的一致性,這都是其他 AI 視頻軟件無法完成的。

 

此外,Sora 創(chuàng)造出的場景和角色,已經(jīng)達到了以假亂真的地步,從各種細(xì)節(jié)上來看,都好像是真實拍攝的一般,譬如下圖人物的瞳孔、睫毛等細(xì)節(jié)處理,都看不出任何的 AI 味道。

 

不過盡管 Sora 在文本生成視頻的領(lǐng)域取得了顯著的進展,它仍然只是文生視頻革命的初步嘗試。OpenAI 在其技術(shù)文檔中也坦誠,Sora 存在不少局限性,例如,其無法準(zhǔn)確地模擬許多涉及到交互的物理特性譬如玻璃破碎等,也會出現(xiàn)吃掉餅干一部分后餅干仍然完好無損的情況。

 

然而,雖然 Sora 距離完美還有漫長的道路,但它的問世已經(jīng)在海外被廣泛視作第四次科技革命的一個里程碑。這可以類比于第一次工業(yè)革命中火車上首次應(yīng)用蒸汽機,那一刻人們意識到,原本需要數(shù)日騎馬車完成的旅程,現(xiàn)在只需幾小時即可抵達。

 

360 公司的董事長周鴻祎對 Sora 的評價更是高度肯定,他表示,"Sora 不僅僅是一次簡單的嘗試,它所展示的,是大模型在理解和模擬真實世界方面取得的新成就和突破 "," 就像做夢一樣 "。他甚至預(yù)言,Sora 的出現(xiàn)可能會將通用人工智能(AGI)的實現(xiàn)時間從 10 年縮短至一到兩年,這無疑是對 Sora 以及人工智能未來潛力的極大認(rèn)可和期待。

 

Sora,將顛覆這些傳統(tǒng)行業(yè)

 

OpenAI Sora 的推出,讓我們見證了一個技術(shù)奇跡的誕生。這個能夠快速且優(yōu)質(zhì)地將文字描述轉(zhuǎn)化為引人入勝視頻的 AI 工具,不僅僅代表著技術(shù)上的一次巨大飛躍,也預(yù)示著我們熟悉的許多行業(yè)即將面臨一場革命。

 

受其影響最大的行業(yè),莫過于視頻行業(yè)大類下的諸多細(xì)分行業(yè)了。

 

目前,全球有超過 60 億人口是視頻工具和短視頻的用戶,而其中與視頻產(chǎn)業(yè)相關(guān)的從業(yè)者可能已經(jīng)超過了將近 10 億人,占到了全球總?cè)丝诘?13% 到 14%,這些從業(yè)者涵蓋了影視行業(yè)、短視頻行業(yè)以及我們?nèi)粘S|手可及的各種視頻展示領(lǐng)域,包括廣告制作等行業(yè)。隨著人工智能(AI)技術(shù)在視頻領(lǐng)域的融合與創(chuàng)新,這些從業(yè)者所在行業(yè)正在經(jīng)歷一場由 AI 視頻技術(shù)引發(fā)的變革。

 

對于影視行業(yè)來說,AI 視頻模型的出現(xiàn),將極大地降低拍攝劇集的門檻。

 

博主快刀青衣發(fā)文表示,在與業(yè)內(nèi)人士的溝通中,做了 20 年影視導(dǎo)演的陳坤看到 Sora 后說的第一句話是 " 要變天了 ",第二句話是 " 我直到今天才慶幸自己是個導(dǎo)演 "。

 

而在追問中,陳坤表示現(xiàn)在的影視行業(yè),分工極其精細(xì),很多工種和里面的從業(yè)者都是階段式配合,只有導(dǎo)演是需要從前期跟到后期的,然后去不停協(xié)調(diào)各個工種,從舞美、化妝、道具到燈光、攝像、攝影,從演員、編劇、劇務(wù)到動畫特效,可以說一個環(huán)節(jié)掉鏈子,整個戲就可能功虧一簣。而如果 AI 視頻按照現(xiàn)在的發(fā)展速度,至少很多簡單的鏡頭、群演、燈光布景等,都可以用 AI 去完成了。

 

可以說,那些過去需要拍一年,花費數(shù)千萬乃至上億的影視作品,在未來憑借 AI 的能力,或許只需要一個月時間,成本也將大幅壓縮,一變革不僅將對影視制作的效率產(chǎn)生深遠(yuǎn)影響,更可能引發(fā)對從業(yè)者技能要求的重大轉(zhuǎn)變,未來有創(chuàng)意、會寫 prompt 的導(dǎo)演,或許才是最需要的人才。

 

如果說對于影視行業(yè)從業(yè)者來說,AI 視頻模型是好幫手的話,那么對于廣告行業(yè)從業(yè)者來說,更像是一場突如其來的 " 滅頂之災(zāi) "。

 

原本高度依賴人力創(chuàng)意和精細(xì)制作流程的廣告拍攝與后期制作,在 AI 技術(shù)的賦能下,得以實現(xiàn)大規(guī)模的效率提升與成本優(yōu)化。比如,以往制作一支高品質(zhì)廣告片,從策劃、腳本撰寫、場景搭建、模特選擇到拍攝剪輯、特效合成等環(huán)節(jié),可能耗時數(shù)月并耗費高昂預(yù)算。

 

而隨著 AI 視頻模型的應(yīng)用,部分標(biāo)準(zhǔn)化及重復(fù)性高的工作內(nèi)容,如背景替換、動態(tài)貼圖、群演模擬等,均可以借助 AI 快速生成,從而極大地縮短了項目周期。

 

同時,AI 作為 " 無情的學(xué)習(xí)機器 ",完全可以替代人類根據(jù)品牌需求自動生成多版本廣告創(chuàng)意,并通過機器學(xué)習(xí)不斷優(yōu)化傳播效果,這無疑將對廣告行業(yè)傳統(tǒng)的創(chuàng)意生產(chǎn)模式帶來前所未有的挑戰(zhàn),試想,在未來的競標(biāo)中,諸多友商報出數(shù)百萬元價格的時候,AI 視頻廣告公司卻能以數(shù)十萬元甚至數(shù)萬元的成本完美解決用戶需求,誰又能中標(biāo)呢?

 

可以說,對于廣告行業(yè)來說,AI 視頻帶來的影響并不只是激烈的競爭,更意味著整個行業(yè)的組織模式與商業(yè)模式的重構(gòu)。

 

此外,對于短視頻行業(yè)來說,可以生成一分鐘視頻的 Sora,已經(jīng)對短視頻從業(yè)者構(gòu)成了極大的威脅。

 

在全球范圍內(nèi),無論是中國的抖音、快手、B 站和小紅書等平臺,還是國際版的 TikTok,短視頻內(nèi)容消費正處于前所未有的高峰,而隨著 Sora 的出現(xiàn),用戶現(xiàn)在能夠迅速制作出各種類型的視頻內(nèi)容,未來稀缺的不再將是視頻拍攝或者剪輯的能力,只要擁有獨特的創(chuàng)意,便可輕松入局,也將會在短視頻行業(yè)中掀起另一場風(fēng)暴。

 

在 Sora 這一技術(shù)現(xiàn)象的輻射范圍內(nèi),在其對視頻產(chǎn)業(yè)帶來的挑戰(zhàn)與變革之外,也正悄然為其他領(lǐng)域開辟出新的機遇。其中,算力行業(yè)自然首當(dāng)其沖,受益于 Sora 驅(qū)動的 AI 視頻生成技術(shù)對強大計算能力的持續(xù)渴求,市場需求將迎來顯著增長。但此處先按下不表,轉(zhuǎn)而聚焦于另一個重要領(lǐng)域——安全行業(yè)。

 

海外研究界普遍認(rèn)為,在 AI 視頻生成廣泛應(yīng)用后,安全領(lǐng)域的革新將會是最受惠的方向之一??梢灶A(yù)見的是,隨著技術(shù)的發(fā)展和普及,市場上將涌現(xiàn)一大批專注于視頻真?zhèn)舞b別技術(shù)研發(fā)與服務(wù)的新興企業(yè)。這些公司將利用最先進的算法和技術(shù)手段,為全球范圍內(nèi)的政府、企業(yè)和個人用戶提供視頻內(nèi)容真實性驗證服務(wù),以及相關(guān)的數(shù)據(jù)安防解決方案。

 

Sora 帶起的這一波浪潮不僅會推動視頻認(rèn)證技術(shù)本身的進步,還將帶動整個信息安全產(chǎn)業(yè)鏈的升級與完善,包括但不限于數(shù)字水印技術(shù)、深度學(xué)習(xí)檢測模型、區(qū)塊鏈存證等前沿技術(shù)的深度融合應(yīng)用。一個全新的、圍繞視頻內(nèi)容安全防護的生態(tài)系統(tǒng)也將在全球范圍內(nèi)逐步構(gòu)建起來,為維護信息社會的公信力與秩序提供有力支撐。

 

百度、訊飛與字節(jié),誰能摘下國產(chǎn) Sora 桂冠?

 

在探討了 OpenAI 的 Sora 模型與其對其他行業(yè)帶來的深遠(yuǎn)影響之后,我們也該將視角轉(zhuǎn)向國內(nèi),關(guān)注一下中國企業(yè)在文生視頻領(lǐng)域的進展了。

 

年后 A 股開盤后,在 Sora 的催化之下,諸多概念股迅速升溫,當(dāng)日當(dāng)虹科技、中文在線、因賽集團等公司均以漲停收盤,盤后也有許多企業(yè)在投資者交流平臺交流相關(guān)進展。

 

其中,2 月 19 日虹軟科技官微宣,其核心大模型技術(shù)引擎——虹軟 ArcMuse 再次升級。而此次升級將支持面向商拍的商業(yè)視頻自動生成。

 

據(jù)介紹,與 Open AI Sora 類似,虹軟 ArcMuse 大模型視頻生成基于 diffusion-transformer 技術(shù)架構(gòu),具備豐富多樣的創(chuàng)意力和想象力。通過圖像,ArcMuse 大模型能夠捕捉到商品的細(xì)節(jié)特征、質(zhì)感、色彩等方面的精確信息,生成更能展示商品真實面貌的動態(tài)商拍視頻。

 

而因賽集團則在與記者的交流中表示,其 AIGC 項目團隊按照計劃,將在三月進行文生視頻功能的開發(fā),等待時機成熟后投入公測。

 

而在大模型的主流玩家行列里,字節(jié)跳動早在年初就發(fā)布了超高清文生視頻模型 MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型 Gen-2、Stable Video Diffusion、Pika1.0 等更出色。

 

而就在前幾日,阿里云旗下魔搭社區(qū)(Model-Scope)上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這 3 個子網(wǎng)絡(luò)組成,整體模型參數(shù)約 17 億。

 

但整體看下來,除去字節(jié)跳動的 MagicVideo-V2 有一定的水平之外,其他大多都處于一言難盡,甚至還無法看到效果的階段,同 Sora 的距離還有很遠(yuǎn)很遠(yuǎn)。

 

至于國內(nèi)何時能復(fù)現(xiàn) Sora,復(fù)現(xiàn)過程中會遇到哪些問題,也有媒體采訪了某大模型團隊的工程副總裁。

 

在采訪中,對方表示,"Sora 的 ' 核彈效應(yīng) ' 表現(xiàn)為業(yè)內(nèi)廣泛認(rèn)可,是視覺 AI 的 'ChatGPT 時刻 '"," 但是 Sora 打通的這條道路并不神秘,總體上沒有很多超預(yù)期的技術(shù),它是沿著大一統(tǒng)多模態(tài)大模型的既定路線,在工程上取得的一項成果,沒有改變既定的技術(shù)范式和設(shè)計理念。"

 

但對于國內(nèi)大模型團隊的復(fù)現(xiàn)速度,他提醒道," 魔鬼在細(xì)節(jié)里,而細(xì)節(jié)在閉源模型的技術(shù)報告里幾乎沒有任何披露。追趕的速度也會由數(shù)據(jù)、算力和工程能力等硬約束。"

 

換一種說法便是,其實 Sora 實現(xiàn)文生視頻的大致思路和邏輯都已經(jīng)在技術(shù)文檔中公之于眾了,但想要真正完成復(fù)現(xiàn)甚至超越,仍然需要考驗國內(nèi) AI 企業(yè)包括算力、數(shù)據(jù)和工程能力在內(nèi)的諸多的綜合實力。

 

從這樣的角度來看,那最有望做出并肩甚至超越 Sora 模型的企業(yè),也無外乎在大語言模型中領(lǐng)先的百度、科大訊飛。

 

百度其實在很久之前就推出了文生視頻的能力,在百度的百家號中,當(dāng)用戶上傳文章之后,會有一部分文章被百度精選出來,自動生成視頻,而在最近也發(fā)布了一款名為 "UniVG" 的視頻生成模型,相關(guān)效果也位于除 Sora 之外的前列。

 

同時,百度作為國內(nèi)深耕 AI 行業(yè)最深的企業(yè),無論是算力的充足、數(shù)據(jù)的豐富還是工程能力的先進,都處于國內(nèi)第一梯隊,只要其以正常的速度進行推進,那么百度版的能力更強的文生視頻模型,也將于未來不久上線。

 

除百度外,科大訊飛作為專精 AI 賽道的公司,也是大語言模型競爭中的佼佼者,1 月底,星火認(rèn)知大模型剛完成了 V3.5 的升級,并在華為的幫助之下,相關(guān)算力與工程能力得到了較快的提升。也有接近科大訊飛人士透露,科大訊飛目前內(nèi)部已經(jīng)開始文生視頻進一步攻關(guān)研發(fā)。

 

而在 " 傳統(tǒng) " 領(lǐng)先的大模型企業(yè)外,字節(jié)跳動或?qū)⒔柚鎯?shù)據(jù)的優(yōu)勢彎道超車。

 

字節(jié)跳動在短視頻和社交媒體方面的海量數(shù)據(jù)資源,使會其在文生視頻模型的研發(fā)上占據(jù)獨特優(yōu)勢。MagicVideo-V2 的發(fā)布及其效果上的顯著提升,已經(jīng)證明了字節(jié)跳動在該領(lǐng)域的技術(shù)實力與創(chuàng)新能力。

 

隨著火山引擎大模型服務(wù)平臺 " 火山方舟 " 的推出,以及與多家合作伙伴共建的生態(tài)體系不斷完善,字節(jié)跳動不僅能夠利用自身的龐大用戶基礎(chǔ)產(chǎn)生的實時、多樣的數(shù)據(jù)流進行訓(xùn)練優(yōu)化,還有望通過高效的模型迭代和協(xié)同創(chuàng)新,在未來開發(fā)出能與 Sora 匹敵甚至超越的新一代文生視頻模型。

 

但這樣的優(yōu)勢也未曾不是一種包袱,作為數(shù)據(jù)層面最占優(yōu)勢的字節(jié),又能否快速補上工程能力上的短板,摘下國內(nèi)首個正式開放文生視頻的桂冠,仍需要時間來證明。

 

寫在最后

 

Sora 的出現(xiàn),無疑是 AI 領(lǐng)域的一次重大突破。它不僅展現(xiàn)了 AI 在視頻生成領(lǐng)域的巨大潛力,更為內(nèi)容創(chuàng)作和多個行業(yè)帶來了全新的思考和機遇,抖音、Tiktok、B 站、P 站等視頻平臺,都需要重新審視自己的內(nèi)容生態(tài)了。

 

而對于中國企業(yè)來說,Sora 的出現(xiàn)既是挑戰(zhàn)也是動力,國內(nèi) AI 企業(yè)前方又出現(xiàn)了一個需要追趕的目標(biāo),百度、科大訊飛等在大語言模型中領(lǐng)先的企業(yè),以及擁有海量數(shù)據(jù)資源的字節(jié)跳動,都應(yīng)該加速了。

 

參考資料:

 

1.《OpenAI 最新文生視頻模型 Sora 技術(shù)能力解密:基于 Patch 的數(shù)據(jù)規(guī)范性、多模態(tài) Prompt 支持、物體持久性和遠(yuǎn)程相干性能力》,Garvin Li;

 

2.《Sora 模型發(fā)布,哪些行業(yè)要變天?》,IT 魔術(shù)師;

 

3.《國內(nèi)復(fù)現(xiàn) Sora 能力幾何?李維:不存在跨不過的技術(shù)門檻》,中證金牛座;

 

4.《Sora 技術(shù)文檔》,OpenAI。

 

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com