馬斯克發(fā)布免費(fèi)可玩視頻大模型叫板Sora 2,前英偉達(dá)何宜暉參與其中
馬斯克和阿爾特曼又杠上了!
智東西10月8日消息,今日凌晨,馬斯克的大模型獨(dú)角獸xAI推出了最新視頻生成模型Imagine v0.9,并免費(fèi)向所有用戶開放。
一周前,OpenAI發(fā)布了旗艦視頻和音頻生成模型Sora 2,此次xAI的更新或許是馬斯克對(duì)Sora 2的直接回應(yīng)。
xAI并未發(fā)布完整的技術(shù)博客,僅提及Imagine v0.9相比初代版本,在視覺質(zhì)量、動(dòng)作、音頻生成方面有所提升,還上傳了幾個(gè)生成視頻案例。
馬斯克在X上發(fā)文稱,Imagine v0.9生成視頻的時(shí)間不到20秒,而且用戶能基于語音優(yōu)先界面,只需說話就能創(chuàng)建視頻、圖像和文本。

總體而言,Imagine v0.9生成速度更快,在20秒以內(nèi),而Sora 2生成視頻可能需要一兩分鐘;Imagine v0.9已免費(fèi)向所有用戶開放,Sora 2采用邀請(qǐng)制,僅允許部分用戶使用;Imagine v0.9生成的視頻時(shí)長約6秒,Sora 2支持15秒視頻生成。
智東西對(duì)比了Imagine v0.9和Sora 2的生成效果,使用OpenAI官方示例的提示詞時(shí),Imagine v0.9會(huì)出現(xiàn)提示詞理解錯(cuò)誤、視頻畫面與音頻不符、不提示深度偽造風(fēng)險(xiǎn)、無法說中文等問題。
值得注意的是,這也是馬斯克今年7月挖走英偉達(dá)高級(jí)算法工程師何宜暉(Ethan He)后,何宜暉在xAI參與的首個(gè)項(xiàng)目。
何宜暉2018年本科畢業(yè)于西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),2019年在卡內(nèi)基梅隆大學(xué)獲得計(jì)算機(jī)視覺碩士學(xué)位,2023年加入英偉達(dá)擔(dān)任高級(jí)深度學(xué)習(xí)算法工程師,曾參與英偉達(dá)世界基礎(chǔ)模型Cosmos研發(fā)。

盡管Imagine v0.9可免費(fèi)使用,但智東西嘗試后發(fā)現(xiàn),Web端目前無法正常工作,移動(dòng)端雖可體驗(yàn),但也會(huì)出現(xiàn)連接失敗的情況。
秒生電影大片效果
還能添加自然對(duì)話
Imagine v0.9集成到了Grok中,它會(huì)先根據(jù)文字生成圖片再創(chuàng)建視頻,或者直接將用戶上傳的圖片轉(zhuǎn)化為視頻。
xAI在博客中表示,Imagine v0.9突破了原生音頻 + 視頻生成的界限,無需編輯就能創(chuàng)建類似電影效果的視頻。例如下面這段視頻中還伴有實(shí)時(shí)的龍的怒吼。
Imagine v0.9的另一大升級(jí)是運(yùn)動(dòng)控制,如下面視頻中的滑雪片段,人物飛起到落下的動(dòng)作十分絲滑。
第三點(diǎn)是用戶可為視頻添加動(dòng)態(tài)相機(jī)效果,如智能焦點(diǎn)轉(zhuǎn)移,下面視頻中根據(jù)鏡頭位置變化,會(huì)對(duì)應(yīng)虛化街景突出人物。
第四點(diǎn)是Imagine v0.9支持添加自然對(duì)話,或者生成具有表現(xiàn)力的歌聲等。
對(duì)比Sora 2文字理解錯(cuò)誤頻發(fā)
有深度偽造風(fēng)險(xiǎn)
智東西使用OpenAI演示Sora 2時(shí)的提示詞,對(duì)比了Imagine v0.9和Sora 2的生成效果。
提示詞:Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time(兩名山地探險(xiǎn)者穿著色彩鮮艷的專業(yè)沖鋒衣,臉上結(jié)著冰霜,眼神急切地瞇成一條縫,在雪地里輪流大喊)
OpenAI放出的Sora 2生成視頻:
Imagine v0.9的生成視頻:
可以看到,Imagine v0.9生成的視頻中音頻沒有“喊叫”,只是畫面中人物在張嘴。
提示詞:a guy does a backflip(一個(gè)男人后空翻)
OpenAI放出的Sora 2生成視頻:
Imagine v0.9的生成視頻:
智東西選擇Grok生成的第一張圖創(chuàng)建視頻,視頻中主角完全無視重力開始在空中360度旋轉(zhuǎn)。
最后,智東西還體驗(yàn)了Imagine v0.9的自定義語音能力,上傳了馬斯克的照片,讓他說出“Sam’s a sharp guy, and our relationship’s always been good. OpenAI’s built some impressive stuff in the AI space, and I really hope to partner with them someday to advance AI development togethe(薩姆是個(gè)敏銳的人,我和他的關(guān)系一直都很好。OpenAI 在人工智能領(lǐng)域做出了不少亮眼的成果,我真心希望有一天能和他們合作,共同推動(dòng)人工智能技術(shù)的發(fā)展)”這段話。
Imagine v0.9沒有提示深度偽造風(fēng)險(xiǎn),且生成的聲音與馬斯克本人略有差異。
目前該模型不支持中文,當(dāng)智東西讓馬斯克說出“我和薩姆·阿爾特曼是好朋友”,其生成視頻中只有“是好朋友”較為清晰。
結(jié)語:AI視頻生成競(jìng)賽升級(jí)
自定義語音功能或引發(fā)深度偽造風(fēng)險(xiǎn)
一周內(nèi),OpenAI、xAI相繼發(fā)布視頻生成模型新進(jìn)展,Sora 2不僅在模擬真實(shí)性、可控性及音效方面有所提升,還推出了全新Sora社交App,xAI則在功能升級(jí)的基礎(chǔ)上,通過免費(fèi)開放吸引了大量流量。
此次Imagine v0.9的一大升級(jí)是允許用戶在視頻中添加自定義語音。這項(xiàng)技術(shù)進(jìn)一步成熟后,用戶可以自行上傳公眾人物照片及說話內(nèi)容生成逼真視頻,這可能帶來深度偽造風(fēng)險(xiǎn)。
因此,未來如何平衡技術(shù)發(fā)展與風(fēng)險(xiǎn)防控,或許是所有視頻生成模型提供商都需面對(duì)的技術(shù)難題。
本文來自微信公眾號(hào) “智東西”(ID:zhidxcom),作者:程 茜,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





