亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

年末5天連更5次 可靈AI以“狂飆式”升級引領生成式AI新賽道

3天前
允中 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI



12月剛拉開序幕,可靈AI便接連推出重磅功能。


全球首款統(tǒng)一的多模態(tài)視頻與圖片創(chuàng)作工具——“可靈O1”、擁有“音畫同步生成”能力的可靈2.6模型、可靈數(shù)字人2.0功能……


短短5天內完成5次“上新”,直接將生成式AI領域的競爭推向了更激烈的高度。


可靈O1:從圖片到視頻,實現(xiàn)更強的創(chuàng)作“可控性”


可靈2.0發(fā)布時,曾創(chuàng)新性地提出全新交互理念——Multimodal Visual Language(MVL),讓用戶能結合圖像參考、視頻片段等多模態(tài)信息,把腦海中包含身份、外觀、風格、場景、動作、表情、運鏡的多維度復雜創(chuàng)意,高效地傳遞給AI。


基于MVL理念,在最新迭代中,可靈O1將所有生成與編輯任務整合到一個全能引擎里,為用戶構建全新的多模態(tài)創(chuàng)作流程,實現(xiàn)從靈感到成品的一站式閉環(huán)。


正如a16z投資合伙人Justine Moore在產(chǎn)品發(fā)布后第一時間評價的:


我們終于迎來了視頻界的Nano Banana。


以可靈視頻O1模型為例,它打破了傳統(tǒng)單一視頻生成任務的模型界限,把參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務,融合進同一個全能引擎,讓用戶無需在多個模型和工具間切換,就能一站式完成從生成到修改的全部創(chuàng)作步驟。


無論是創(chuàng)作者長期困擾的主體一致性難題,還是視頻畫面的可控性問題,在這次模型迭代中都得到了相對完善的解決。


在圖片生成方面,可靈AI也完成了創(chuàng)新性迭代。


最新上線的圖像O1模型,能實現(xiàn)從基礎圖像生成到高階細節(jié)編輯的全鏈路無縫銜接。對用戶而言,既可以通過純文本生成圖像,也能上傳最多10張參考圖進行融合再創(chuàng)作。


“音畫同出”能力來了!可靈2.6模型完成里程碑式迭代


可靈擁有眾多忠實的“發(fā)燒友”,他們既是產(chǎn)品的深度使用者,也能從功能層面提出專業(yè)見解。


O1發(fā)布后,不少網(wǎng)友排隊“許愿”功能,排名靠前的幾乎都在關注可靈何時推出伴隨視頻畫面的語音及音效直出功能。


答案很快揭曉。


12月3日晚,可靈AI繼續(xù)“放大招”,正式推出2.6模型。


這次更新中,可靈AI上線了里程碑式的“音畫同出”能力,徹底改變了傳統(tǒng)AI視頻生成模型“先生成無聲畫面、再人工配音”的工作流程。


它能在單次生成中,輸出包含自然語言、動作音效和環(huán)境氛圍音的完整視頻,重構了AI視頻創(chuàng)作的工作流,大幅提升創(chuàng)作效率。


可靈AI海外超級創(chuàng)作者、AI電影導演Simon Meyer制作的宣傳片,生動展現(xiàn)了可靈2.6的能力創(chuàng)新點。


對創(chuàng)作者來說,輸入文本或結合圖片與提示詞文本,都能直接生成帶有語音、音效及環(huán)境音的視頻。


語音部分目前支持中文和英文生成,視頻長度最長可達10秒(據(jù)悉,更多語言體系及固定聲線等功能正在研發(fā))。


通過對物理世界聲音與動態(tài)畫面的深度語義對齊,可靈2.6模型在音畫協(xié)同、音頻質量和語義理解上表現(xiàn)出色。


對“音畫同出”能力感興趣的朋友可以盡快嘗試,說不定會和Simon Meyer產(chǎn)生強烈共鳴。


密集更新背后,可靈AI的布局深意


除了全新推出的可靈O1和2.6模型這兩大重磅更新,可靈上周還相繼推出數(shù)字人2.0、可靈O1主體庫&對比模板等功能,從AI內容生成的實際流程出發(fā),帶來更便捷的操作體驗。


5天內5次“上新”,功能精進的背后是可靈對生成式AI技術的極致追求。


比如12月1日推出的視頻O1模型,打破了視頻模型在生成、編輯與理解上的功能割裂,構建了全新的生成式底座。


融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長上下文(Multimodal Long Context),實現(xiàn)了多任務的深度融合與統(tǒng)一。


根據(jù)可靈AI團隊的內部測評,在“圖片參考”任務上,可靈AI對Google Veo 3.1的整體效果勝負比達247%;在“指令變換”任務上,與Runway Aleph對比的整體效果勝負比為230%。


值得一提的是,作為國產(chǎn)視頻生成大模型領域的代表,自2024年6月正式推出以來,可靈AI的每一次迭代幾乎都能引發(fā)業(yè)界的“集體關注”。


從早期備受熱議的“吃面條”案例,到特斯拉創(chuàng)始人馬斯克的點贊,再到此次“批量上新”操作,在視覺生成技術逐步成熟的過程中,可靈AI無疑是常引發(fā)共鳴的關鍵角色。


△ X網(wǎng)友Min Choi發(fā)布的文章,對比了不同技術下“威爾·史密斯吃意大利面”的經(jīng)典場景


在持續(xù)引發(fā)討論的同時,推進技術的廣泛應用落地也是生成式AI平臺必須面對的問題。


數(shù)據(jù)顯示,可靈AI目前覆蓋的企業(yè)用戶超2萬家,涵蓋影視制作、廣告、創(chuàng)意設計、自媒體、游戲、電商等多個領域。


多元的行業(yè)客戶結構,要求可靈AI不斷突破技術應用的上限。


比如此次升級的可靈2.6模型,支持說話、對話、旁白、唱歌、Rap、環(huán)境音效、混合音效等多種聲音的單獨或混合生成,能廣泛應用于各行業(yè)實際創(chuàng)作場景,大幅提升效率;


再如數(shù)字人2.0功能迭代,創(chuàng)作者只需上傳角色圖、添加配音內容并描述角色表現(xiàn),就能得到表現(xiàn)力生動的“自定義數(shù)字人”,更令人驚喜的是,視頻內容最長可達5分鐘。


快手高級副總裁、可靈AI事業(yè)部負責人兼社區(qū)科學線負責人蓋坤曾在多個場合表示:


我們的初心是讓每個人都能用AI講好故事,也真切希望這一天早日到來。


從可靈AI年末的一系列更新中,我們感受到這一天越來越近了。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com