亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

A16Z最新洞察:視頻模型從狂飆到分化,產(chǎn)品化帶來新機(jī)遇

5天前

在過去一年,視頻生成模型發(fā)展迅猛,幾乎每周都有新模型登場(chǎng),不斷刷新基準(zhǔn)成績(jī),如生成更長(zhǎng)視頻、展現(xiàn)更真實(shí)物理效果、呈現(xiàn)更一致角色與鏡頭語(yǔ)言等。但今年節(jié)奏改變,若關(guān)注基準(zhǔn)測(cè)試,會(huì)感覺‘進(jìn)步’放緩,多數(shù)主流模型能生成10 - 15秒帶同步音軌的視頻,效果雖驚人卻不再令人新奇。

不過,這并非壞事。A16Z合伙人賈斯汀·摩爾認(rèn)為,我們正步入視頻模型的‘產(chǎn)品時(shí)代’。簡(jiǎn)單來講,視頻模型的進(jìn)步不再體現(xiàn)于模型參數(shù)或基準(zhǔn)分?jǐn)?shù),而是體現(xiàn)在多樣性和專業(yè)化上。如今,不同模型在特定能力上各有突破,如物理模擬、卡通風(fēng)格、多鏡頭剪輯等,沒有一個(gè)模型能‘通吃全場(chǎng)’,但每個(gè)模型都在某一維度更擅長(zhǎng)。與此同時(shí),更大的機(jī)會(huì)從模型本身轉(zhuǎn)向‘圍繞模型’的產(chǎn)品構(gòu)建,那些能簡(jiǎn)化創(chuàng)作流程、抽象復(fù)雜操作的工具,正變得比模型本體更有價(jià)值。接下來,讓我們跟隨賈斯汀·摩爾看看視頻模型過去一年的變化。

01 視頻領(lǐng)域不存在最強(qiáng)模型

過去幾年,各大擴(kuò)散模型實(shí)驗(yàn)室不斷推出性能更強(qiáng)的新版本,在測(cè)試榜單上屢創(chuàng)新高。人們逐漸形成一種共識(shí):總有一天會(huì)出現(xiàn)一個(gè)‘神級(jí)模型’,在所有視頻生成任務(wù)中表現(xiàn)最出色,成為行業(yè)默認(rèn)標(biāo)準(zhǔn)。

然而,這一假設(shè)近期被打破。上個(gè)月發(fā)布的Sora 2,在LMarena等測(cè)試中表現(xiàn)不如Veo 3,成績(jī)不升反降。很多人開始懷疑擴(kuò)散模型的技術(shù)進(jìn)步是否變慢,所謂‘最強(qiáng)模型’的概念,在視頻領(lǐng)域可能根本不存在。

其實(shí),大語(yǔ)言模型也曾經(jīng)歷類似階段。2023 - 2025年,主流模型性能持續(xù)上升,之后在評(píng)測(cè)中漸趨穩(wěn)定。此時(shí),研究機(jī)構(gòu)開始將重心放在具體場(chǎng)景和垂直領(lǐng)域,而非單純追求高分,基于這些模型的AI產(chǎn)品也快速落地。

回顧視頻模型,其在公開測(cè)試上進(jìn)展放緩也不難理解。過去幾年,它們?cè)凇鎸?shí)感’方面進(jìn)步顯著,如今很多生成視頻已非常逼真。到了這一階段,再追求‘更真實(shí)’就很困難,因?yàn)橐雅c現(xiàn)實(shí)幾無差別。這就如同17、18世紀(jì)的油畫大師,能畫出接近照片的肖像和風(fēng)景,之后大家不再糾結(jié)寫實(shí),而是關(guān)注作品風(fēng)格和審美取向。

若‘更真實(shí)’不再是模型的優(yōu)勢(shì)來源,未來可能會(huì)出現(xiàn)更多風(fēng)格化、專業(yè)化的模型。每個(gè)模型不再追求通用,而是各有專長(zhǎng),資源豐富,選擇增多,視頻生成正進(jìn)入‘百花齊放’的新階段。

02 視頻模型價(jià)值開始分化

在探討模型‘專業(yè)化’之前,先回顧一下過去。2024年初,視頻生成技術(shù)還很原始,生成3 - 4秒的穩(wěn)定片段都困難,物理效果常出現(xiàn)問題,如人物突然‘融化’到地板上,籃球軌跡奇怪卻能進(jìn)籃筐等。當(dāng)時(shí)曾說,距離AI拍出像皮克斯那樣的短片還有很長(zhǎng)的路要走。而現(xiàn)在,一切都改變了。

谷歌推出的Veo模型登上多個(gè)排行榜榜首;OpenAI用30人團(tuán)隊(duì)、3000萬美元預(yù)算制作一部完整的AI動(dòng)畫長(zhǎng)片(雖非完全由模型生成,但也是一大飛躍)。如今,視頻長(zhǎng)度增加,物理細(xì)節(jié)更真實(shí),籃球從籃板反彈再落地已成為標(biāo)配。

不過,在整體水平提升的同時(shí),也出現(xiàn)了另一個(gè)趨勢(shì):模型變得專一,各有特長(zhǎng)。原因很簡(jiǎn)單,沒有一款模型能滿足所有用戶需求,有的團(tuán)隊(duì)專注提速和成本控制,有的專攻后處理階段,讓模型在某些場(chǎng)景表現(xiàn)出色。

例如:Veo 3最擅長(zhǎng)物理細(xì)節(jié)、復(fù)雜動(dòng)作,音畫同步也最佳;Sora 2可根據(jù)一句話生成有趣的多鏡頭視頻,像在幫用戶‘拍短劇’;Wan是開源模型,支持很多風(fēng)格化插件(LoRA),適合定制風(fēng)格;Grok速度快、成本低,適合動(dòng)畫內(nèi)容;Seedance Pro可一次生成多鏡頭結(jié)構(gòu);Hedra在長(zhǎng)時(shí)間對(duì)話類視頻中表現(xiàn)最穩(wěn)。

以Veo和Sora為例,兩者都很強(qiáng),但方向不同。Sora適合創(chuàng)作趣味內(nèi)容,如生成‘霍金打籃球’的視頻或把人放進(jìn)某部電影里,更像‘故事導(dǎo)演’,適合普通用戶和meme創(chuàng)作者,但在物理表現(xiàn)、音視頻同步方面不太穩(wěn)定。相比之下,Veo更‘專業(yè)’,缺乏幽默感,需要更清晰的指導(dǎo),但動(dòng)作、鏡頭、音畫同步更精確,適合內(nèi)容創(chuàng)作者、影視工作者等對(duì)質(zhì)量要求高的用戶。

這種‘專業(yè)化’趨勢(shì)帶動(dòng)了整個(gè)生態(tài)鏈的發(fā)展。像Fal、Replicate這樣的AI視頻云平臺(tái),托管了幾十種模型供用戶按需選擇;Krea這類編輯工具,提供中心平臺(tái),讓用戶與多個(gè)模型交互并建立工作流程。當(dāng)然,一些大公司仍在追求‘萬能型模型’,我們也期待它早日出現(xiàn),但在此之前,不同模型在不同場(chǎng)景‘各顯神通’,已是值得期待的現(xiàn)實(shí)階段。

03 AI視頻下一個(gè)方向是更好的產(chǎn)品化

熟悉我的朋友知道,我平時(shí)會(huì)用各種視頻和圖像生成模型制作定制化內(nèi)容,這一過程常需多個(gè)工具配合。比如,制作‘定制家具展示視頻’,我會(huì)用到Ideogram、nano - banana和Veo3;若要在已有視頻中添加‘產(chǎn)品贈(zèng)品’的動(dòng)畫片段,則需依靠nano - banana、Hedra,再加上Krea和Kapwing等編輯工具。

這些組合工作流程較為復(fù)雜,并非每個(gè)人都有時(shí)間和精力去折騰。我們確實(shí)需要更好的一體化產(chǎn)品來簡(jiǎn)化創(chuàng)作過程。目前模型能力已很強(qiáng),但對(duì)應(yīng)的產(chǎn)品進(jìn)度仍有很大提升空間。

很多創(chuàng)作者正手動(dòng)拼接多個(gè)模型的功能來完成本可自動(dòng)實(shí)現(xiàn)的事情。例如,要讓角色在不同鏡頭中保持一致,需手動(dòng)調(diào)整人物形象;延續(xù)上一個(gè)鏡頭的結(jié)尾畫面,要導(dǎo)出最后一幀作為下一段的起始條件重新生成;控制鏡頭運(yùn)動(dòng)軌跡,要先用圖像模型畫出起點(diǎn)和終點(diǎn)畫面,再通過其他工具推導(dǎo)中間過渡過程;做一張故事板,也要靠拼貼、截圖、剪輯多個(gè)片段完成。

這些本可由模型自動(dòng)處理的工作,如今仍依賴創(chuàng)作者手動(dòng)拼接,這正是產(chǎn)品體驗(yàn)和創(chuàng)作效率之間的巨大斷層。不過,有些團(tuán)隊(duì)已開始嘗試解決這些問題。Runway發(fā)布了一套工具,可讓用戶修改鏡頭角度、生成下一個(gè)鏡頭、切換風(fēng)格、改變天氣,還能在畫面里添加或刪除東西。OpenAI的Sora Storyboard支持更細(xì)致地控制視頻中每一幀的動(dòng)作;谷歌剛發(fā)布的Veo 3.1更像是‘產(chǎn)品更新’而非‘模型升級(jí)’,圍繞音頻控制和視覺控制做了很多功能增強(qiáng)。

其實(shí),這和大語(yǔ)言模型(LLM)類似,即便模型性能不再突飛猛進(jìn),圍繞它構(gòu)建實(shí)用產(chǎn)品的空間依然很大。視頻模型現(xiàn)在也處于這個(gè)階段,能力不缺,缺的是好用的產(chǎn)品。

未來,我們會(huì)看到更多‘小而美’的模型,專門為某個(gè)行業(yè)或某種場(chǎng)景優(yōu)化,如室內(nèi)設(shè)計(jì)、營(yíng)銷、動(dòng)畫制作等。同時(shí),我們也需要更強(qiáng)大的‘創(chuàng)意工具包’來打通各種模態(tài),讓視頻、配音、音樂等元素的生成與編輯更順暢,最終形成一整套真正閉環(huán)的AI視頻工作流。

本文來自微信公眾號(hào)“烏鴉智能說”,作者:智能烏鴉,36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com