Suno爆紅不到一個月,文生音樂的頭把交椅就要換了?
不到一個月,Suno就走紅了,文生音樂的頭把交椅迎來了新的挑戰(zhàn)者?!猆dio。
前幾天,一位知情人士透露,他看到了一個比Suno強兩倍的AI音樂產(chǎn)品演示,這給了他自Sora以來最大的震撼。他認為AI音樂將以這種模式席卷全球。
AI音樂已經(jīng)風靡全球兩次。
AI孫燕姿在2023年初的出現(xiàn),讓孫燕姿自己說“人類無法超越AI”。
上個月,Suno的出現(xiàn)讓音樂大家集體表示,低端編曲產(chǎn)業(yè)已不再需要存在。
比Suno還要強一倍?那么AI音樂的制作水平可能會淹沒到著名制作人的腳上。
四月十日,這款將“改變音樂產(chǎn)業(yè)”的商品終于正式發(fā)布。究竟能不能比Suno高兩倍?
Udio,將生成式音樂帶到錄音棚水準
Udio想稱王靠的絕技就是“還原度”。
經(jīng)過一輪深入檢查,Udio確實在音質(zhì)恢復方面擊敗了Suno。無論是器樂還是人聲,Udio幾乎都達到了混亂的水平。
那就是它敢于自稱強于Suno兩倍的自信。
過去的音樂生成軟件也可以生成高達32kHz的音樂,但無論如何,它們離真實音樂總有一點“生成味”,即使是Suno也逃不掉。但是Udio基本上跨越了這個音質(zhì)氧化的障礙。
比如“生成味”往往體現(xiàn)在聲音和聲音的聯(lián)系上。在過去的音樂生成中,似乎總有一座橋在聲音和聲音之間發(fā)生變化,切割并不簡單。但是Udio產(chǎn)生的音樂聲音非常清晰。聲音和聲音之間的聯(lián)系沒有以前的音樂生成軟件那么粘和清晰。
另一個“產(chǎn)生味道”的重災區(qū)在于器樂的音質(zhì)。在過去的合成音樂中,器樂有一種無果的擦拭聲和一種有點突然禿頂?shù)馁|(zhì)感。然而,在Udio這里,器樂上幾乎完全沒有產(chǎn)生的音色,恢復真的達到了一個全新的高度。而且和弦更豐富,混響更飽滿。
Udio在人聲方面的改善更加清晰。Suno的“產(chǎn)生味道”相當明顯,可能會在一句話的結尾或開頭留下扭曲的殘影。但是Udio的聲音幾乎達到了11。 像Lab這樣的合成音的真實性。
除了最容易識別的音質(zhì)恢復,Udio在編曲的豐富性上并不遜色于Suno,可以產(chǎn)生多變的音樂開發(fā)部門。
但是我們基本上不知道為什么Udio能有這么好的效果,它在模型上做了什么。就像Suno一樣,沒有開源,沒有論文,甚至沒有技術博客。
致命的短板是挑戰(zhàn)者的
在聲音特征上,Udio的確“遙遙領先”。
但是它也有“致命的弱點”。Udio和C端的流行很可能會失去這些弱點。
最為致命的就是產(chǎn)生時間問題。
在騰訊科技之前,我們分析了Suno成功的原因,并將其定位為它能夠理解音樂的長結構。默認情況下,它過去的產(chǎn)品的生成片段和理解能力控制在30s左右,所以我們根本無法理解音樂的結構,也無法形成完整的音樂。
但是Udio的默認生成長度也只有33秒。Suno的默認生成長度是1分半以上的三倍。這大約是六個歌詞在自己的產(chǎn)品介紹中的長度。這個可以用嗎?
所以Udio是否和它的前輩一樣,無法理解曲子的結構?
不是。Udio提供了延伸生成的選項。過去AI音樂的延伸可能只是根據(jù)結構生成的,而不是根據(jù)結構生成的,因為它不能理解結構。與它們不同,在Udio的延伸中,你也可以選擇延伸段落在結構中的哪一部分,它可以延伸引子和結尾,然后生成一首結構完整的音樂。
它表明Udio實際上可以理解整首歌曲的結構。
我嘗試過《謝天謝帝》。它的延伸非常完美,保持了風格的一致性,理解了音樂的結構,正確制作了介紹。
然而,這一步其實相當復雜。如果你想形成一首完整的音樂,你必須至少延伸兩次同一首音樂,增加一個開頭和結尾,每次都需要獨立生成。
更加可怕的是,它產(chǎn)生的時間是相當死板的,默認的33秒生成長度,你想再增加33秒。每一次增加都是固定的時間。對定制歌詞的方法來說,這是非常不友好的。歌詞很長,放不下,歌詞很短,就像上面的例子一樣,Udio可能會自動用生成的歌詞填空。而且更糟糕的是,如果你寫的歌詞是中文的,那么Udio的中文生成支持是有限的,它只能無緣無故地產(chǎn)生一些呢喃。
事實上,我并不理解Udio這樣設定的想法,即使是根據(jù)歌詞長度來產(chǎn)生適應性,也遠遠優(yōu)于現(xiàn)在的方法。
這一缺點會使創(chuàng)作受到完全不自由的限制。你們要根據(jù)音樂速度自己算出要多少句歌詞,然后去填詞。
一鍵生成的快樂游戲變成了寫律詩。
其次是商品。
Udio的產(chǎn)品界面與Suno高度相似。邊欄分為三個部分:探索廣場/我的創(chuàng)作/我最喜歡的音樂庫。音樂可以通過直接在上部輸入Prompt來生成。
但是問題出在創(chuàng)作欄上。
下拉列表將出現(xiàn)在您生成音樂的過程中,具有三個比較重要的功能。
上面有一個開關,是“手動模式”。根據(jù)它的介紹,Udio會嚴格按照你的Prompt來制作手動模式下的音樂。如果不打開這個選項,模型會在生成之前自動潤色你的指令翻譯。
在中間,也可以選擇音樂的類型,不要因為對你Prompt的誤解而跑得太遠。
以下是三個歌詞選項,包括三個選項:“定制歌詞”、“純樂器”和“一鍵生成”。如果選擇定制歌詞,會有一個可以填充歌詞的下拉框。
水平放置的Prompt窗口,過度壓縮的功能界面。這些都會讓用戶有一種沉積感,讓你覺得自己填不進去。
但是在Suno中,只要你進入創(chuàng)作界面,創(chuàng)作信息就在左欄,頻道本身也提供了足夠的上下兩行文字框,減少了壓縮感。但是在Udio這里,即使進入創(chuàng)作頁面,它的創(chuàng)作欄總是在上面,仍然缺乏延伸感。這將大大降低創(chuàng)作者的輸入主動性。
而且一種明顯定位toC的創(chuàng)意商品,能否讓用戶有創(chuàng)意欲望才是核心的贏家。
所有的核心團隊都來自谷歌期貨項目。
去年12月,Udio背后的企業(yè)成立。Davidid是其核心成員。 Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez,都是從谷歌Deepmind開始創(chuàng)業(yè)的。
這四位研究人員在業(yè)內(nèi)并不出名,但是這家公司一經(jīng)創(chuàng)業(yè)就獲得了包括a16z和Instagram在內(nèi)的知名度。 CTO Mike 像Krieger這樣的硅谷大佬的投資。Krieger還對團隊說了一句贊美的話:“這些技術合作伙伴是那些非常務實的人,因為我們的進步一直很快?!?/p>
那是肯定的。由于這個企業(yè)創(chuàng)立了三個核心技術人員,包括CEO David 在離開谷歌之前,Ding已經(jīng)為谷歌最新的AI音樂生成軟件Lyria做出了重要的研究。
(Lyria項目的聲明和感謝部分)
(谷歌lyria項目博客頁面)
去年11月谷歌首次發(fā)布Lyria產(chǎn)品時,引起了相當大的震驚。它的音色恢復水平超出了當年所有其他音樂的AI。尤其是聲音恢復,水平相當驚人。即使和Udio相比,差別也不是很明顯。
此時距離Suno誕生還有四個月。每個人都認為這一生成應用的完成率確實足以“改變音樂的未來”。
谷歌制定了一個雄心勃勃的計劃,準備將其整合到Youtube中,作為一個沒有版權配樂的短視頻生產(chǎn)設備,并將其命名為Dream。 Track。
但事實上,到目前為止,你不能在Youtube上使用它。這個工具只在1-2月對Youtube上的一小群創(chuàng)作者開放,從未批量放開。
谷歌認真嘗試,不敢放手。結果,Suno從天而降。這張本可能被視為音樂領域的Sora牌不會響。
而且從Udio的表現(xiàn)來看,我們也知道,它本來是可以響的。
這讓我們想起了谷歌最初是行業(yè)領導者,Transformer模型提出者。顯然,手頭有類似ChatGPT的功能。 的AI CahtBot,只是擔心輿論不敢發(fā)表。最終被OpenAI劃掉了時代,自己成了后來者。
這個習慣在2023年沒有太大變化。谷歌的AI部門一直在發(fā)論文,但三四個月后才發(fā)布產(chǎn)品和模型。那些令人羨慕的新功能和尖端模型最終都是期貨。
今天Udio的發(fā)布,讓我們再一次確定:如果谷歌在AI時代被埋葬,那是因為他每天只發(fā)期貨。
強大的理由,也是Udio的阿喀琉斯之后。
然而,谷歌并沒有發(fā)布Lyria,也許是不得已而為之。由于它可能無法解決訓練模型的版權問題。
過去OpenAI的成功證明了Scaling。 實際效果。更多數(shù)據(jù),更大的參數(shù)模型=更好的效果。
Suno和Udio突然突破了過去AI文學音樂的各種瓶頸,一方面依靠模型的進步。但是可以實現(xiàn)跨越性的突破,大量的數(shù)據(jù)是不可逾越的障礙。
當我在之前的文章中分析Suno的技術突破時,我提到了更多的訓練材料,這可能是這個突破的關鍵。在過去的文學音樂模式中,谷歌、OpenAI和Meta給出的版權訓練庫只集中了30萬小時左右的音樂,也就是150萬首歌。
但是有多少音樂可以使用呢?基于Music Business 根據(jù)Worldwide的統(tǒng)計,到2022年底,Apple 確定曲庫的Music有超過1億首歌曲。當初,全球音樂集團CEO兼董事長盧西恩·格蘭奇(Grainge)“在新加坡舉行的”Music Matters“論壇上透露,每天大約有10萬首新歌被上傳到音樂流媒體平臺。十五十萬首歌,不過是可以用音樂的滄海一粟而已。
雖然Suno還沒有被抓,但它有一個明確使用音樂家聲音的情況。但僅僅兩天后,Udio就被發(fā)現(xiàn)有相當多的異常歌曲。
他們確定Udio產(chǎn)生的音樂在滾石雜志的相關文章中是有用的。 Petty聲音產(chǎn)生的演唱。在Twitter上,網(wǎng)絡上會發(fā)現(xiàn)形成類似約翰·列儂聲線的音樂。
(一位專注于AI音樂的開發(fā)者質(zhì)疑其中一位生成音樂和著名RapperCommon的聲音重合度為99%)
Udio的CEO也很清楚這一點。
當MusicAlly接受采訪時,David Ding在回答其信息來源時表示:“對于語言模型和圖像模型,事實證明,為了獲得高質(zhì)量的導出,你必須練習大量高質(zhì)量的輸入。“但顯然,這里的目標不是復制披頭士樂隊或類似的東西。如果我想重現(xiàn)披頭士樂隊,我可以直接聽披頭士樂隊的歌?!?/p>
沒有拷貝但是用了吧?
(在接受WSJ采訪時,OpenAICTO米拉·穆拉蒂被問到Sora訓練內(nèi)容源時的經(jīng)典尷尬表情)
另一位聯(lián)創(chuàng)Sanchez很快補充道:“這就是為什么我們有非常強大的藝術家過濾器和版權重點,以確保我們不會反芻任何版權音樂?!?/p>
但是你不能用它來訓練。最近,全球音樂和Concord都加入了一個名為“公平訓練”的音樂家項目,呼吁音樂家的版權內(nèi)容在未經(jīng)允許的情況下被禁止練習。這基本上是音樂家內(nèi)部的共識。
與文字或視頻領域不同,有許多模糊的版權界限。音樂領域的版權墻一直是最高的?;旧纤械囊魳范加邢鄳陌鏅啵瑥木幥礁枋值穆曇舳际前_萬象的,這些版權都是由具體的音樂公司維護的。作為以內(nèi)容為核心資產(chǎn)的企業(yè),他們都有很強的訴訟能力。
即使谷歌手握Youtube,這也是谷歌。 Music的版權庫,都不敢用它來訓練AI。就算Lyria真的用了,它也不敢發(fā)布核心原因。
所以也許Udio在登上文生音樂之前,必須跌倒在版權上。
本文來自微信微信官方賬號“騰訊科技”(ID:qqtech),作者:郝博陽,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com