亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

AI音樂形成浪潮:技術(shù)科普、變革暢想和倫理應(yīng)對(duì)

2024-06-03


科普技術(shù):熱鬧的百模對(duì)決,焦慮的音頻模型


1.1 AI進(jìn)入大語(yǔ)言到多模態(tài)「日更」方式

2023年被稱作「生成式AI元年」。2022年11月,OpenAI GPT-3.5 ChatGPT是模型的核心。ChatGPT出現(xiàn)了前后文學(xué)習(xí)、思維鏈等高度智能,被認(rèn)為具有顛覆性的技術(shù)突破和跨領(lǐng)域的實(shí)用價(jià)值。AI Agent等衍生方向也被認(rèn)為具有平臺(tái)和入口級(jí)的意義。以此為節(jié)點(diǎn),大規(guī)模參數(shù),大算率,「暴力求解」大語(yǔ)言模型的風(fēng)格(LLM)打開歷時(shí)過(guò)程。短短幾個(gè)月,大批AI創(chuàng)業(yè)公司和科技廠商紛紛進(jìn)入市場(chǎng),LLM領(lǐng)域進(jìn)入百模對(duì)決。


不同的信息方式,如自然語(yǔ)言、圖像、視頻、音頻等,在計(jì)算機(jī)領(lǐng)域被稱為不同的信息。「模態(tài)」。在人工智能領(lǐng)域,多模態(tài)研究一直是一個(gè)不同的分支。大型語(yǔ)言模型爆發(fā)后,多模態(tài)大模型也成為技術(shù)熱點(diǎn)。在計(jì)算機(jī)視覺領(lǐng)域,文生圖模型在兩年內(nèi)迅速飛躍。Midjourney于2022年2月發(fā)布初版,同年11月V4版本的真實(shí)性和藝術(shù)性大幅提升;Stable開源模型 2022年8月,Diffusion首次出現(xiàn),XL1.0版于2023年7月推出,體現(xiàn)了出色的寫實(shí)和對(duì)提示詞的理解。


視頻生成一直被稱為大型技術(shù)高地,Runway、Pika和其他公司在這里深耕了很長(zhǎng)時(shí)間。2024年2月,OpenAI推出了Sora模型生成的高質(zhì)量視頻案例,可以生成包括豐富角色、動(dòng)作和場(chǎng)景在內(nèi)的1080P真實(shí)視頻,并提供描述或靜態(tài)圖片。自此,文化視頻領(lǐng)域進(jìn)入了一個(gè)新的階段。


1.2 音頻模型:范式穩(wěn)定發(fā)展,爆發(fā)來(lái)得有點(diǎn)晚。

在音樂領(lǐng)域,大模型技術(shù)的突破似乎比預(yù)期的要晚。直到2024年3月,Suno V3的發(fā)布,引起了業(yè)界和社會(huì)的廣泛關(guān)注。TME天琴實(shí)驗(yàn)室音頻技術(shù)負(fù)責(zé)人趙偉峰介紹,事實(shí)上,自2023年以來(lái),音樂生成領(lǐng)域一直在不斷深化,不斷出現(xiàn)新的模式和范式。現(xiàn)在技術(shù)范式已經(jīng)達(dá)成共識(shí)。具體表現(xiàn)為:從符號(hào)音樂到音頻模型研究,大模型領(lǐng)域Diffusion和Transformer結(jié)構(gòu)介紹,逐步處理人聲唱詞問(wèn)題,文字/語(yǔ)音/音樂/音效綜合等。


業(yè)界代表性的音頻模型技術(shù)范式:


谷歌的MusicLM(以及202306,Meta的MusicLM)MusicGen)——選擇MuLan/Clap跨模式和自回歸Transformer模型。根據(jù)文字提示生成24kHz頻率、近5分鐘的音樂,可以指定音樂風(fēng)格、樂器、情感等,以純音樂為主,基本沒有聲音。


英國(guó)薩里大學(xué)和帝國(guó)理工學(xué)院的202302AudioLDM-選擇Latententent Diffusion模型架構(gòu),顯著降低了Diffusion模型對(duì)計(jì)算能力的要求。完成音樂、語(yǔ)音、音效等一體化。


202403,Suno V3(以及202404,Udio)——沒有公開的技術(shù)細(xì)節(jié)。根據(jù)文本提示,生成近2分鐘不同風(fēng)格的音樂。包括人聲歌詞,客戶也可以手動(dòng)輸入歌詞。


202404,Stability AI的Stable Audio 使用類似的Stable2.0- Diffusion Diffusion3 Transformer(DiT)結(jié)構(gòu),長(zhǎng)序列處理效果明顯??梢陨?4.1kHz頻率,3分鐘的歌曲。除文字提示外,還可以通過(guò)上傳音樂或哼唱來(lái)生成。但是人聲唱詞還是有問(wèn)題的。


*真正的里程碑是誰(shuí)?


MusicLM & MusicGen:技術(shù)里程碑從噪音產(chǎn)生音樂。


一線技術(shù)從業(yè)者指出,MusicLM和MusicGen在2023年上半年已經(jīng)解決了音樂生成中的大部分問(wèn)題。Transformer在已經(jīng)公開的技術(shù)架構(gòu)中也有很好的效果(詳細(xì)信息如何看待音樂效果的產(chǎn)生)。MusicLM和MusicGen在技術(shù)上更具里程碑意義。由于它將自然語(yǔ)言模式與音頻模式聯(lián)系起來(lái),并從噪音中產(chǎn)生音樂。


Suno & Udio:處理人聲唱詞,成為好商品


另外一個(gè)問(wèn)題是Suno和Udio:人聲歌詞。它使音樂的產(chǎn)生真正成為音樂的產(chǎn)生。從業(yè)者推斷,它可能使用類似MusicLM的結(jié)構(gòu)來(lái)產(chǎn)生音樂,或者使用現(xiàn)成的伴奏,然后用TTS技術(shù)唱出歌詞(客戶手動(dòng)輸入或調(diào)用大語(yǔ)言模型),從而產(chǎn)生對(duì)合效果。由于沒有公布技術(shù)規(guī)范,很難判斷其技術(shù)突破,但是它更好地融合了相關(guān)技術(shù),成為一種良好的產(chǎn)品。


TIPS:評(píng)估AI生成音樂的主要指標(biāo)(天琴實(shí)驗(yàn)室和合作團(tuán)隊(duì)經(jīng)驗(yàn)總結(jié))


1. 音樂性/樂理性:涉及旋律、和弦、編曲、節(jié)奏、樂器組合等,音樂的藝術(shù)性也是考慮因素。


2. 標(biāo)簽匹配度:顧客希望產(chǎn)生的音樂與最終產(chǎn)生的音樂是否匹配。


3. 歌詞(語(yǔ)義):具有語(yǔ)義能力,包括多語(yǔ)言、語(yǔ)義的理解、語(yǔ)義的完整性。


4. 長(zhǎng)序列的連接性和結(jié)構(gòu)性:雖然屬于音樂性,但長(zhǎng)序列是目前技術(shù)瓶頸,所以要重點(diǎn)關(guān)注。短期音樂不一定是長(zhǎng)序列的音樂。


5. 音質(zhì):音質(zhì)能否達(dá)到用戶可以欣賞的藝術(shù)作品水平。


6. 更多功能:如支持更多輸入,可編輯能力等。


1.3 技術(shù)線路:音頻產(chǎn)生熱量,或與符號(hào)音樂結(jié)合

從上面可以看出,從2023年到2024年,音頻模型取得了快速的突破,這在幾年前是不可想象的。在早期階段,AI音樂產(chǎn)生的技術(shù)熱點(diǎn)是另一條技術(shù)路線:音樂符號(hào)的生成。


音樂符號(hào)路線:詞曲編錄混合均可控制,但整體性不足


技術(shù)原理:提取音頻中的音樂知識(shí)(如歌詞、和弦、樂器),類似于MIDI,將其分割成類似音樂功能譜的數(shù)據(jù)形式「詞曲編錄混」包括AI作曲、AI編曲、AI歌聲生成等技術(shù)在內(nèi)的各個(gè)環(huán)節(jié)。


長(zhǎng)度版:最大的優(yōu)點(diǎn)是每個(gè)環(huán)節(jié)都可以控制,可以更好的嵌入音樂人的工作流程,成為幫助創(chuàng)作的工具。但是由于各種技術(shù)的串聯(lián),很難達(dá)到良好的整體效果。音樂是詞曲編錄的有機(jī)融合。有時(shí)候詞匯好,音樂好,但是組合不好。另一個(gè)問(wèn)題是樂譜的訓(xùn)練數(shù)據(jù)比音頻少得多。


音頻模型路線:整體效果較好,但編輯/分軌難度大。


技術(shù)原理:完整的音樂直接從端到端生成??梢岳斫鉃?,把一段音樂當(dāng)成一個(gè)頻譜圖,把頻譜圖當(dāng)成一張照片來(lái)訓(xùn)練AI,類似于圖片的生成,找到自然語(yǔ)言和音頻之間的關(guān)系。


長(zhǎng)度版:產(chǎn)生的作品具有很強(qiáng)的整體性,但由于是端到端,很難進(jìn)一步編輯調(diào)整(比如修改單句旋律),也很難獲得分軌、MIDI等制作文件。另一個(gè)問(wèn)題是,由于音頻復(fù)雜性高(每秒至少有44100個(gè)數(shù)據(jù)點(diǎn)),提高音質(zhì)需要很高的算率。


*路線之爭(zhēng)?路線結(jié)合!


在兩條技術(shù)路線的競(jìng)爭(zhēng)中,隨著MusicLM和Suno等模型產(chǎn)品的發(fā)布,技術(shù)熱點(diǎn)的平衡轉(zhuǎn)向了音頻模型的一側(cè)。不得不感嘆,音樂領(lǐng)域也驗(yàn)證了大模型的暴力解決方案風(fēng)格。但目前的音頻模型仍然面臨幾個(gè)技術(shù)卡點(diǎn):可編輯性不足、音樂性長(zhǎng)、音質(zhì)差。


其中,「可編輯能力」實(shí)用價(jià)值和行業(yè)需求都很高,也是音頻路線的短板,是符號(hào)路線的長(zhǎng)板。當(dāng)端到端模型反向處理編輯問(wèn)題時(shí),需要更精細(xì)地標(biāo)記音頻訓(xùn)練數(shù)據(jù)——回到符號(hào)路線。因此,DeepMusic智能音頻技術(shù)的創(chuàng)始人兼首席執(zhí)行官劉曉光認(rèn)為,未來(lái)的音頻模型和符號(hào)模型必須合作。通過(guò)音頻模型,我們可以使用不同維度的音樂符號(hào)來(lái)產(chǎn)生音樂。


應(yīng)用改革:放下路線之爭(zhēng),各自投石問(wèn)路


雖然音樂產(chǎn)生的技術(shù)結(jié)構(gòu)、路線尚未完全公開和統(tǒng)一,但大方向已經(jīng)得到驗(yàn)證,各方面的技術(shù)競(jìng)賽和應(yīng)用探索也在加速。以Suno、以Udio為代表的端到端商品,熱潮過(guò)后需要考慮其實(shí)用價(jià)值;作為符號(hào)路線的代表,DeepMusic正在更新個(gè)人能力;作為平臺(tái)的技術(shù)引擎,TME天琴實(shí)驗(yàn)室更多地探索了AI音樂生成與音樂平臺(tái)的深層聯(lián)系。


2.1 Suno/Udio類產(chǎn)品:低級(jí)替代,創(chuàng)造靈感和更多?

除了技術(shù)突破之外,Suno產(chǎn)品引起的反響在很大程度上取決于其流行特征:普通人第一次感受到?!竸?chuàng)作」盡管這幾乎是一種美妙的音樂。「一鍵生成」與傳統(tǒng)創(chuàng)作相比,這種體驗(yàn)的發(fā)生,使我們能夠更加合理地演繹AI音樂的未來(lái)。


行業(yè)內(nèi)有幾種比較有代表性的認(rèn)知:


音樂水平Suno:超過(guò)X%的音樂家作品。X的范圍從50%到80%不等,反映了從業(yè)者的主觀經(jīng)驗(yàn),而不是精確計(jì)算。一方面,AI音樂已經(jīng)達(dá)到了一個(gè)不低的水平。另一方面,由于音樂人參差不齊,許多作品的質(zhì)量不夠高。


音樂內(nèi)容過(guò)剩,AI音樂難以撼動(dòng)當(dāng)前的音樂消費(fèi)模式。在AI音樂到來(lái)之前,音樂行業(yè)已經(jīng)供大于求,只有少數(shù)作品能獲得高人氣。這些作品要么質(zhì)量很高,要么歸功于強(qiáng)大的宣傳。因此,除非宣傳環(huán)境發(fā)生變化,否則達(dá)到中等水平的AI音樂是不夠的。


但是有些類別會(huì)被AI接管:低級(jí)配樂,公播音樂,短視頻BGM等等。AI比人工輸出更有效率,因?yàn)樗鄬?duì)標(biāo)準(zhǔn)化和模式化。此外,這些類別沒有個(gè)人IP特征(觀眾一般不知道創(chuàng)作者是誰(shuí))。許多熱門流行歌曲通常與創(chuàng)作者的個(gè)人IP聯(lián)系在一起,相互祝福。


音樂家可以用Suno來(lái)啟發(fā)靈感,「可編輯」成為必然趨勢(shì)。雖然Suno音樂遠(yuǎn)離專業(yè)音樂人的工作流,但它仍然對(duì)音樂創(chuàng)作有啟發(fā)性。畢竟創(chuàng)作是一種靈感的實(shí)踐活動(dòng)。但是如果你想實(shí)用,「可編輯能力」這是一種剛需,在視覺生成領(lǐng)域也得到了驗(yàn)證。


一個(gè)面向「中等音樂實(shí)踐者」簡(jiǎn)化音樂工作流程可能會(huì)誕生。劉曉光認(rèn)為,中度實(shí)踐者是一個(gè)愛玩音樂的群體,但并不一定想知道復(fù)雜的樂理。所以,音頻模型的發(fā)展將催生一種簡(jiǎn)化的音樂工作流程:1)大模型產(chǎn)生伴奏 歌詞 AI歌星演唱中含有自己的音色 簡(jiǎn)單的交互實(shí)現(xiàn)隨意的顆粒度修改 大模型制作專輯圖,MV等發(fā)行材料。現(xiàn)在仍然受到編輯能力和音質(zhì)的限制,但是在接下來(lái)的1-2年里,這種生產(chǎn)體驗(yàn)將會(huì)更加完善。


TIPS:DeepMusic的市場(chǎng)調(diào)查(DeepMusic)


根據(jù)音樂的參與和專業(yè)性,音樂群體可以分為三類:專業(yè)音樂人、音樂實(shí)踐者和泛音樂愛好者。音樂實(shí)踐是專業(yè)生產(chǎn)和純消費(fèi)之間的一種狀態(tài)。


專業(yè)音樂人:1.專業(yè)音樂人規(guī)模100萬(wàn)級(jí)。參與的主要方式是創(chuàng)作和表演,大約有10萬(wàn)人具備制作能力。


音樂實(shí)踐者:2.音樂實(shí)踐者規(guī)模1億。參與方式包括玩樂器、音樂APP。、音樂俱樂部等??梢苑譃樯疃群椭卸葘?shí)踐者。最大的區(qū)別在于,中度實(shí)踐者不一定愿意創(chuàng)作,也不需要精心控制音樂內(nèi)容。


泛音樂愛好者:規(guī)模10億。大部分都是聽歌,也包括唱K。、觀看音樂表演等情況。


2.2 DeepMusic和弦派:從專業(yè)工具傳播到不懂樂理的人

符號(hào)音樂的生成與Suno端到端產(chǎn)品相比,自然具有可編輯性,在服務(wù)專業(yè)音樂人方面更具優(yōu)勢(shì)。DeepMusic是一家深度培育符號(hào)路線的國(guó)內(nèi)代表性AI音樂創(chuàng)業(yè)公司。對(duì)此,劉曉光分析道:音頻模型就像「大力出奇跡」,不確定性高,國(guó)內(nèi)培訓(xùn)成本是國(guó)外的10倍。賭一個(gè)音頻模型不一定要花多少錢,成功需要多長(zhǎng)時(shí)間,ROI很低;但是當(dāng)符號(hào)模型效果不夠好的時(shí)候,有中間產(chǎn)品讓用戶自己修改,更有階段性價(jià)值。


伴隨著音頻模型的突破,DeepMusic將等到基本音頻模型開源后再跟進(jìn);并且充分發(fā)揮自身積累的優(yōu)勢(shì),利用精細(xì)注明的閉源數(shù)據(jù)來(lái)控制音頻模型。可以看出,從端到端的產(chǎn)品突破可編輯能力,到符號(hào)路線公司的音頻模型整合,兩種技術(shù)路線正在結(jié)合回歸,看誰(shuí)能取得更好的效果。


旗艦產(chǎn)品DeepMusic「和弦派」這是一個(gè)協(xié)助創(chuàng)作的工具。2024年初進(jìn)行了智能升級(jí),融合了AI編曲、AI歌曲等功能,可以一站式生成高質(zhì)量的演示,各個(gè)環(huán)節(jié)都可以控制。但是用戶還是需要面對(duì)門檻高的音樂功能譜。目前用戶構(gòu)成也是系統(tǒng)化的:20%音樂人、30%音樂老師、25%懂音樂理論的中度實(shí)踐者、25%不懂音樂理論的中度實(shí)踐者。4月底「和弦派」劉曉光指出,2.0版上線,下一步,目標(biāo)受眾將泛化,面向不懂樂理和功能譜的人,正式進(jìn)入中度實(shí)踐者跑道。


2.3 TME天琴實(shí)驗(yàn)室:技術(shù)能力第一,尋找B/C端價(jià)值場(chǎng)景。

大模型技術(shù)爆發(fā)后,國(guó)內(nèi)很多互聯(lián)網(wǎng)和硬件廠商都加入了不同程度的競(jìng)爭(zhēng)。TME作為一個(gè)音樂娛樂平臺(tái),面對(duì)語(yǔ)言、視覺和音頻模型技術(shù)的演變,從未停止思考。


TME天琴實(shí)驗(yàn)室高級(jí)總監(jiān)吳斌認(rèn)為,大模型有一個(gè)重要的特點(diǎn):核心模型數(shù)量很少。當(dāng)結(jié)構(gòu)充足且通用時(shí),需要通過(guò)堆疊計(jì)算率來(lái)測(cè)試數(shù)據(jù)。同時(shí),更好的開源模型不斷涌現(xiàn),使得很多公司的初始投資毫無(wú)意義。整個(gè)市場(chǎng)仍處于非常動(dòng)蕩的狀態(tài),盲目投資是不可取的。最重要的決定是「怎樣跟進(jìn)大模型趨勢(shì)才是最合理的?」。該平臺(tái)的核心能力是用戶和場(chǎng)景,每個(gè)人都可以在開源模型的基礎(chǔ)上,重新了解場(chǎng)景,提供更好的應(yīng)用服務(wù)。


就算沒選擇「All IN大模型」,但是在技術(shù)快速更新的時(shí)期,天琴實(shí)驗(yàn)室仍然做了這三件事:


跟蹤思維能力:吳斌強(qiáng)調(diào),即使不去硬訓(xùn)模型,對(duì)其一線認(rèn)知、訓(xùn)練能力還是要先具備。等條件成熟后,可立即發(fā)力。視覺模型已經(jīng)成為天琴最初的大模型發(fā)力點(diǎn)。Muse音樂視覺技術(shù)自主研發(fā)于2022年7月,從圖片推廣到視頻領(lǐng)域。MuseV虛擬人視頻生成框架于2024年3月正式開源,在視頻一致性、時(shí)長(zhǎng)和口型生成方面領(lǐng)先行業(yè),深受業(yè)界好評(píng)。


AI應(yīng)用試點(diǎn):基于技術(shù)實(shí)力,天琴還積極應(yīng)用試點(diǎn)項(xiàng)目。比如直播間的禮物生成,可以讓用戶的文字生成有創(chuàng)意、有個(gè)性的定制禮物,豐富了直播玩法,帶來(lái)了可觀的商業(yè)效益。有時(shí)候看似微妙的場(chǎng)景會(huì)有意想不到的反應(yīng),進(jìn)一步加深了平臺(tái)對(duì)用戶場(chǎng)景的認(rèn)知。


大型模型加速:其高調(diào)用成本決定了大模型的技術(shù)特性。加速大模型,就是降低模型推理的成本。天琴開發(fā)了MUSELight大模型推理加速發(fā)動(dòng)機(jī),并發(fā)現(xiàn)Stable加速版Stable Diffusion的成本可以達(dá)到原版本的1/10甚至更低。對(duì)于一個(gè)為大量用戶服務(wù)的C端平臺(tái),這是非常有意義的。2023年5月,天琴還將加速三個(gè)相關(guān)版本向全行業(yè)開源。


由于視覺、語(yǔ)言模型技術(shù)成熟較早,天琴早期音頻模型的投入比例并不高。趙偉峰介紹:從2023年到2024年,天琴的音頻模型投入不斷增加,研發(fā)重點(diǎn)也從歌聲生成模型開始?!盖夙崱罐D(zhuǎn)向音樂生成模式「琴樂」。


「琴韻」歌聲生成:從2023年開始,天琴?!盖夙崱垢杪暽赡J街饾u成熟。同時(shí),行業(yè)也出現(xiàn)了?!窤I孫燕姿」事件反映了歌唱技術(shù)可能被濫用的風(fēng)險(xiǎn)。因此,天琴發(fā)現(xiàn)了兩個(gè)合規(guī)應(yīng)用場(chǎng)景:一是作為用戶玩法,客戶在k歌場(chǎng)景中上傳自己的聲音,生成隨機(jī)演唱作品;第二,歌手授權(quán)合作,促成了「AI王力宏」演唱《Letting Go》等待熱門音樂事件。


「琴樂」音樂生成:自去年以來(lái),基于符號(hào)路線的AI作曲、編曲技術(shù)已經(jīng)在QQ音樂上推出了多種應(yīng)用。2024年,天琴使力音頻生成模型「琴樂」。文生純音樂1.0版于4月完成,已整合至1.0版?!竼⒚餍恰挂魳分谱鞣?wù)平臺(tái)?!盖贅贰雇瑫r(shí)也參加了上海民族樂團(tuán)的音樂會(huì)創(chuàng)作,得到了很好的反響。能夠翹首以待音樂生成等復(fù)雜能力。TME作為AI技術(shù)下的用戶平臺(tái),選擇了積極但理性的投資,努力在技術(shù)能力和用戶價(jià)值之間建立最佳的橋梁。



AI安全:處理一道未知的防線。 ,重要的應(yīng)該是多方參與


AI技術(shù)和應(yīng)用顯示出巨大的產(chǎn)業(yè)變革和社會(huì)效應(yīng),現(xiàn)在這些變化近在咫尺。從科技倫理的角度反思技術(shù)的社會(huì)影響,盡可能干預(yù)技術(shù)走向,是我們應(yīng)對(duì)不確定性的底線。在語(yǔ)言模型領(lǐng)域,價(jià)值觀對(duì)齊已經(jīng)成為產(chǎn)學(xué)和政策制定者關(guān)注的焦點(diǎn)。在AI音樂領(lǐng)域,關(guān)于音樂版權(quán)和創(chuàng)作者生存的問(wèn)題也成為討論的焦點(diǎn)。


3.1 音樂版權(quán):返回「激勵(lì)創(chuàng)作」的初衷

相關(guān)版權(quán)爭(zhēng)議同時(shí)存在于英語(yǔ)、視覺、音頻模型等領(lǐng)域。主要有兩個(gè)關(guān)鍵問(wèn)題:①模型化訓(xùn)練階段,訓(xùn)練數(shù)據(jù)版權(quán)合規(guī)問(wèn)題;②AI生成物在內(nèi)容生成階段的版權(quán)問(wèn)題。


在實(shí)踐階段,AI模型需要使用大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。如果訓(xùn)練數(shù)據(jù)包含受作權(quán)法保護(hù)的版權(quán)作品,則需要在作權(quán)法中滿足「合理使用」規(guī)則,或者獲得版權(quán)所有者的授權(quán)。


關(guān)于這個(gè)問(wèn)題,ChatGPT、Stable Diffusion等產(chǎn)品及其背后的企業(yè)都面臨著來(lái)自《紐約時(shí)報(bào)》等版權(quán)方或藝術(shù)家的訴訟,案件仍在進(jìn)行中。一方面,內(nèi)容行業(yè)長(zhǎng)期發(fā)展的命脈是通過(guò)版權(quán)保護(hù)來(lái)鼓勵(lì)創(chuàng)作;另一方面,新技術(shù)帶來(lái)的潛在機(jī)遇和競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn)正在迫使行業(yè)加速。這兩種需求需要平衡共贏。這個(gè)問(wèn)題在全球范圍內(nèi)還沒有取得明確的進(jìn)展。隨著科技產(chǎn)品的成熟,AI公司和版權(quán)所有者也在積極尋求談判,尋找許可證并分享利潤(rùn),這是未來(lái)的一個(gè)重要方向。


AI產(chǎn)生的內(nèi)容在生成階段是否具有版權(quán)?誰(shuí)屬于版權(quán)??目前,在大多數(shù)國(guó)家,作權(quán)法并不認(rèn)可人類以外的主體。然而,自生成式AI發(fā)展以來(lái),各國(guó)的立法和司法都在積極探討保護(hù)方法。一個(gè)重要原因是人類在AI生成中也發(fā)揮著非常重要的作用。以ChatGPT為例,人類在三個(gè)環(huán)節(jié)中反映了干涉或創(chuàng)造:①在模型訓(xùn)練中,“人工反饋強(qiáng)化學(xué)習(xí)”階段,②顧客使用中的創(chuàng)造性問(wèn)題,③內(nèi)容生成后的調(diào)整優(yōu)化。注意:參考2023植德人工智能年刊


2023年底,國(guó)內(nèi)首個(gè)「AI文生圖」在北京互聯(lián)網(wǎng)法院審結(jié)作權(quán)案件后,進(jìn)行了開創(chuàng)性的探索。了解這個(gè)案件的審理思路,有助于我們了解問(wèn)題的本質(zhì)和方向。


國(guó)內(nèi)首個(gè)「AI文生圖」作權(quán)案件:(參照人民法院報(bào)告)


案件回顧:原告李某使用Stable Diffusion,通過(guò)提示生成圖片,發(fā)布在小紅書平臺(tái);此后,被告李某在百家號(hào)的一篇文章圖片中使用了這張圖片,未經(jīng)原告許可,并切斷了簽名水印。


審判要點(diǎn)及結(jié)果:在最初構(gòu)思到最終選照的過(guò)程中,原告傾注了原告的審美選擇和個(gè)性判斷,通過(guò)設(shè)計(jì)人物展示形式、選擇提示詞、設(shè)置參數(shù)、多輪圖片優(yōu)化等活動(dòng)。這些照片反映了原告的照片?!缸畛醯闹巧掏度搿梗?/strong>因此,作品被認(rèn)定,作權(quán)歸原告所有,被告侵犯了信息網(wǎng)絡(luò)傳播權(quán)和簽名權(quán)。


裁判員分析:利用AI產(chǎn)生的內(nèi)容,是否構(gòu)成作品,需要個(gè)案判斷,不能一概而論。本案堅(jiān)持作權(quán)法只保護(hù)“自然人創(chuàng)造”的觀點(diǎn),同時(shí)考慮兩點(diǎn):①全新的傳統(tǒng)理論應(yīng)用領(lǐng)域。在AI時(shí)代,人類創(chuàng)作工具發(fā)生了根本性的變化,但并不意味著人類不應(yīng)該選擇和規(guī)劃畫面元素;第二,法律判斷以外的價(jià)值判斷。認(rèn)同「作品」屬性和「創(chuàng)作者」身份有利于鼓勵(lì)人們使用人工智能工具進(jìn)行創(chuàng)造,促進(jìn)人工智能生成內(nèi)容的識(shí)別和監(jiān)督,加強(qiáng)人們?cè)谌斯ぶ悄馨l(fā)展中的主導(dǎo)地位,促進(jìn)人工智能技術(shù)的創(chuàng)新發(fā)展和應(yīng)用。


業(yè)內(nèi)法律專家也指出,這一判決僅適用于案件本身,也不能作為類似案件的參考。AI生成內(nèi)容「可版權(quán)性」仍有爭(zhēng)議。一種較為常見的操作思路是:并非有人參與的就是創(chuàng)作,需要判斷人的參與程度。并且在語(yǔ)言、視覺、音頻等各個(gè)領(lǐng)域,參與程度有不同的認(rèn)定方法。


這兩個(gè)問(wèn)題都非常復(fù)雜,仍然需要時(shí)間才能找到雙贏的解決方案。但是我們可以看到背后一貫的價(jià)值邏輯:通過(guò)保護(hù)人類,作權(quán)法的立法目的是「最初的智商投入」,來(lái)「鼓勵(lì)創(chuàng)作與傳播」。AI技術(shù)具有解放生產(chǎn)力和促進(jìn)內(nèi)容產(chǎn)業(yè)發(fā)展的巨大潛力,但不能以犧牲人類創(chuàng)造力為代價(jià)。我們希望通過(guò)分析、約束和應(yīng)用,它能夠積極促進(jìn)創(chuàng)造性繁榮。


3.2 人機(jī)關(guān)系:放下競(jìng)爭(zhēng),尋找合作

人類創(chuàng)作者會(huì)被AI取代嗎?這是另一個(gè)討論熱點(diǎn)。不僅AI音樂,大模型技術(shù),甚至每一輪技術(shù)革命,每個(gè)人都有類似的不安。但歷史結(jié)果表明,新技術(shù)肯定會(huì)淘汰一些低級(jí)工作,但并不取代整體人類。而且隨著低級(jí)工作的淘汰,我們被迫創(chuàng)造更能體現(xiàn)自己價(jià)值的工作。于是就有了這樣的調(diào)侃:淘汰你的不是AI,而是會(huì)使用AI的人。


具體到AI音樂行業(yè),以上對(duì)Suno的幾個(gè)判斷也大致說(shuō)明了AI音樂所沒有的,因?yàn)橐魳穬?nèi)容供大于求,要想獲得市場(chǎng)認(rèn)可,通常需要達(dá)到極高的水平或者被強(qiáng)大的宣傳驅(qū)動(dòng)。高質(zhì)量的作品包含了人類藝術(shù)家獨(dú)特的個(gè)性、經(jīng)驗(yàn)和情感,這是AI音樂所沒有的。但是罐頭音樂等低級(jí)工作應(yīng)該逐漸被AI接管。


同時(shí),快速的AI音樂可以激發(fā)音樂人的靈感,AI工具可以解決音樂人工作流程中的非創(chuàng)造性勞動(dòng)。因此,更好的視角不是與之競(jìng)爭(zhēng),而是站在AI的肩膀上。著名音樂家、制作人陳珊妮曾明確表示:創(chuàng)作者應(yīng)該關(guān)心的也許不是「是否會(huì)被取代?」,而是「我們還能做些什么」。回歸人類的能動(dòng)性。技術(shù)從業(yè)者對(duì)音樂人的發(fā)展也給出了一些友好的建議:


技術(shù)員對(duì)音樂員的友好建議:


吳斌:我覺得你不妨多聽多玩。因?yàn)檫@種趨勢(shì)是無(wú)法阻止的,即使你不擁抱,大多數(shù)音樂人也會(huì)擁抱,最后被迫,所以還是早點(diǎn)好。知道AI能輕松做什么,不能做什么。有些事情AI就是做不好。這時(shí),音樂人可以充分發(fā)揮自己的優(yōu)勢(shì)。


劉曉光:簡(jiǎn)化的音樂流程將在一定程度上成為一種新的音樂生產(chǎn)方式。建議音樂人了解并與AI合作。請(qǐng)相信AI會(huì)越來(lái)越可控,讓音樂人實(shí)現(xiàn)自己想要的創(chuàng)作。但是,非IP音樂應(yīng)該慢慢做不到AI,音樂人需要越來(lái)越關(guān)注自己的IP特性,做出自己的專屬表達(dá)。


3.3 多角度:再?gòu)?qiáng)調(diào)也不過(guò)分。

李飛飛(斯坦福大學(xué)首任紅杉講座教授、前谷歌云人工智能和機(jī)器學(xué)習(xí)首席科學(xué)家)指出,培養(yǎng)人工智能的昂貴成本正在排除學(xué)術(shù)界,成為商業(yè)公司的特權(quán)。斯坦福大學(xué)報(bào)告指出,2022年,科技產(chǎn)業(yè)貢獻(xiàn)了32個(gè)關(guān)鍵的機(jī)器學(xué)習(xí)模式,而學(xué)術(shù)界只有3個(gè)。這就導(dǎo)致了一個(gè)問(wèn)題:商業(yè)行為的技術(shù)發(fā)展迅速,公共價(jià)值和處理社會(huì)風(fēng)險(xiǎn)的技術(shù)明顯落后。


雖然這個(gè)問(wèn)題很難完全解決,但是當(dāng)質(zhì)疑的聲音增加的時(shí)候,會(huì)帶來(lái)更多的公共保障行動(dòng),可以激發(fā)更多的商業(yè)公司的自省和安全部署。


技術(shù)、工業(yè)、學(xué)術(shù)界、第三方等。,具有不同的價(jià)值取向和專業(yè)能力。這種多角度的參與更有可能使新技術(shù)朝著符合人類價(jià)值的方向發(fā)展。在音樂領(lǐng)域,藝術(shù)家、工業(yè)和技術(shù)之間也有多種視角。然而,由于技術(shù)門檻高、藝術(shù)門檻高,這兩個(gè)群體之間存在很大的信息差異。


趙偉峰指出,在天琴實(shí)驗(yàn)室,R&D部門80%以上的人需要具備一定的音樂素養(yǎng),尤其是符號(hào)路線需要更深入的音樂知識(shí)。在音頻模型路線中,需要與專業(yè)音樂團(tuán)隊(duì)合作來(lái)判斷AI生成的內(nèi)容。這種互動(dòng)可以讓AI音樂更符合藝術(shù)家的標(biāo)準(zhǔn)。


職業(yè)評(píng)價(jià)只是最基本的參與方式,這種多角度的對(duì)話合作,也有助于解決更重要的問(wèn)題。例如,陳珊妮曾經(jīng)提出了一個(gè)尖銳的觀點(diǎn),認(rèn)為特殊的音樂越來(lái)越少。到目前為止,數(shù)字音樂已經(jīng)被分類,便于管理和更快的聽力。但是如果有個(gè)人特征的東西不在電子和嘻哈,那是什么呢?它的流量會(huì)下降。AI音樂也差不多。它很容易使各種技術(shù)指標(biāo)趨于平均,但美感不是這樣。


再比如,吳斌從技術(shù)原理的角度判斷了AI音樂的上限:大模型技術(shù)路線的本質(zhì)是,從人類內(nèi)容中學(xué)習(xí),本質(zhì)上沒有超越人類內(nèi)容的抓手;但是如果我們討論AGI,它涉及到另一條技術(shù)路線:加強(qiáng)學(xué)習(xí)。它可以讓AI在一個(gè)環(huán)境中探索自己的試錯(cuò),理論上可以突破人類現(xiàn)有內(nèi)容的瓶頸。


我們應(yīng)該來(lái)自藝術(shù)家的審美經(jīng)驗(yàn)、人文關(guān)懷和理性質(zhì)疑,以及技術(shù)從業(yè)者從底層原則出發(fā)的可靠推理,以及產(chǎn)業(yè)、學(xué)術(shù)界和更多人。...利用理性精神和技術(shù)力量,從多個(gè)角度修復(fù)技術(shù)變革中的錯(cuò)誤,引導(dǎo)人工智能領(lǐng)域的良性發(fā)展。


本文節(jié)選自2023年中國(guó)數(shù)字音樂年度白皮書


本文來(lái)自微信微信官方賬號(hào)“騰訊研究院”(ID:cyberlawrc),作者:TME,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com