嘗試了全網(wǎng)流行的語音AI,我?guī)缀醴植磺逭l是真人。。
咳咳,在開始講話之前,先向朋友們宣布一件事:
這種自然的語氣,隱約還能聽到一些換氣的聲音,是否已有差友即將上鉤。
但是不要真的認(rèn)為世超會暴露真聲。其實(shí)這個音頻是我用的。 AI 制作出來的,從打開網(wǎng)站到制作整個音頻,都是共用的。沒兩分鐘。
也許已經(jīng)有朋友猜到世超用的是什么? AI 這個工具,就是最近剛火出圈的那個,ChatTTS 。
剛剛開源不久,它的 GitHub 有一萬多顆標(biāo)星,而且還在繼續(xù)飆升,就在世超寫稿子的時候,親眼看見它有所突破 2 萬大關(guān)。。。。
網(wǎng)絡(luò)上的熱度也很高,光是 b 站立,隨便搜索一下 ChatTTS ,可以彈出很多視頻,不是教大家怎么安裝,而是夸它有多真實(shí)。
甚至熱度也傳到了海外。
其實(shí)像 ChatTTS 這類文本轉(zhuǎn)換為語音( Text to Speech )市場上有很多工具,每個家庭都做。 AI 使用的公司,基本上都有文字轉(zhuǎn)語音的功能。
但是與它們不同的是, ChatTTS 最重要的是,最自然地恢復(fù)人聲。
它的網(wǎng)頁版本參數(shù)調(diào)節(jié)按鈕,其中一半以上是為了讓音頻產(chǎn)生,更像是我們的真實(shí)演講。
例如,精調(diào)文本按鈕打開后,最終產(chǎn)生的音頻會自動添加一些音頻。口語連詞,或是通風(fēng),笑聲等等,信噪比也是為了恢復(fù)說話時的背景音。
世超隨意輸?shù)袅硕巫?ChatTTS ,不要動其默認(rèn)設(shè)置,產(chǎn)生的效果就是下面這個樣子。
乍一看,我以為是辦公室里一個同事從火鍋里回來的吐槽??磳?dǎo)出的文字,這是在最后一句中間和最后自動加了兩個出風(fēng)口。
但是需要多聽幾次,還是可以在里面找到一些。 AI 味道。
假如產(chǎn)生的效果一般,我們也可以自己手動設(shè)置,放在輸入文本中。 [ uv _ break ] 或者 [ laugh ] ,可以直接控制氣口和笑聲。
或者上面那句話,世超直接從末尾加上一個。 [ laugh ] ,整個句子會更加自然一些,最后的笑聲,還可以舔出一點(diǎn)無奈的味道。
單靠這句話,我們還是看不出來。 ChatTTS 力量,下一點(diǎn)難度,扔兩個繞口令給它。
假如給我們沒有練習(xí)過的人來,也許要胡說八道幾次,沒想到。 ChatTTS ,模仿這個挺有一手的。
說到后面,這是直接一口氣說完的,和我們快忘詞的語調(diào)相比,不能說很像吧,至少也有七八分。
即使是為了讓最后一句話 " 看看我說的還行吧 " 更加自然,它還自己手動添加了一個詞兒。( 那個 )。
除會說中文外, ChatTTS 還可以整整地說幾句英語。
肖申克的世超輸句經(jīng)典臺詞 " Hope is a good thing and maybe the best of things.And no good thing ever dies. " 進(jìn)去,它可以順利地產(chǎn)生聲音。
關(guān)于效果嘛,世超認(rèn)為,沒有說中文自然。。。
當(dāng)然,作為我們這里土生土長的地方。 AI ,說中文比說英文自然是情有可原的。
然而令世超驚訝的是,盡管英語一般,學(xué)習(xí) ABC 中英夾雜, ChatTTS 真的有點(diǎn)天賦。
世超隨意在臺詞中加入了一些網(wǎng)絡(luò)上非常流行的英文梗,它直接模仿了里面的精髓。
不僅可以準(zhǔn)確切換中英文,還可以像樣呼吸什么的,還可以補(bǔ)充所有應(yīng)該補(bǔ)充的單詞。如果你堅持挑剔,最后一句話有點(diǎn)卡,但是當(dāng)我們平時說話的時候,誰沒有禿頂。
試試看這里,世超已經(jīng)有點(diǎn)被感動了。 ChatTTS 給人留下深刻印象。。但是,就在我們準(zhǔn)備進(jìn)一步探索的時候,連續(xù)幾次給我們帶來大翻車。。
例如,我想嘗試一下不精調(diào)的文本,看看。 ChatTTS 會產(chǎn)生怎樣的音頻,結(jié)果倒好,它直接罷工,輸入一大段,它只讀第一個單詞。
這種效果已經(jīng)嘗試了好幾次。。
( 因?yàn)檩敵鰡栴},iOS 該系統(tǒng)可能無法打開該音頻。)
如果整個文字中有阿拉伯?dāng)?shù)字, ChatTTS 而且無法識別,必須手動切換到中文數(shù)字。
更離譜的是,只要字?jǐn)?shù)增加,它就會開始渾水摸魚,吞吞吐吐地只從長文中讀出來,有時甚至可以把它們讀出來。 GPU 給予干停機(jī)。
就像世超想要的那樣 ChatTTS 幫助朋友們閱讀本文的開頭,它已經(jīng)撐不住了。
這個都不算什么, ChatTTS 最大的缺點(diǎn)之一就是我們不能提前知道選擇了什么音質(zhì),只能在 " 音頻種籽 " 里輸入數(shù)字盲選,或是擲骰子抽卡。
合上就是看運(yùn)氣唄。。
但是關(guān)于這些 " BUG " ,研究小組也有他們的說辭。總而言之,為了避免 ChatTTS 被有心人利用,他們沒有釋放出最佳模型。
根據(jù)他們的說法,目前開源和平臺上使用的,都是使用的,4 萬只小時未經(jīng)監(jiān)管微調(diào)的數(shù)據(jù)訓(xùn)練模型。( SFT )。
并且為了避免 AI 詐騙,他們還在這些訓(xùn)練數(shù)據(jù)中加入了少量的高頻噪聲,數(shù)據(jù)也使用了低音質(zhì)的音頻。 MP3 格式。
在團(tuán)隊(duì)手中,實(shí)際上還有一個更大的杯子,性能更好的模型,使用10 萬小時數(shù)據(jù)。
ChatTTS 真正的力量應(yīng)該在官方視頻中顯示。就像我們上面展示的那些例子,它們可以做得更好。比如中英文的句子,視頻的例子比我們嘗試的流暢很多,整個聲音的清晰度也比世超在線生成的要強(qiáng)。
根據(jù)想法,它還可以接入語言大模型,可以直接和直接。 AI 進(jìn)行零距離交談。
即使只有幾分鐘的音頻,它也可以直接將喬布斯、泰勒 · 復(fù)制了斯威夫特的聲音。
后來進(jìn)化進(jìn)化,結(jié)合 ChatGPT 和對口型的 AI ,使它幫忙直播賣貨估計沒有人能看出來。
好處當(dāng)然是一方面,但是世超想說的是,說到底這個 AI 或者模仿人說話,如果被有心人使用,后果不會有任何好處可以抵消。
和去年一樣,發(fā)生了幾起關(guān)于它的事情。 AI 詐騙案件,被騙數(shù)百萬人。而且現(xiàn)在, AI 聲音越來越真實(shí),這意味著欺詐的門檻越來越低。
還有版權(quán)風(fēng)險,可以算是這種音頻。 AI 一堵墻。不久前,寡姐還因聲音版權(quán)問題,公開撕裂。 OpenAI ,以 OpenAI 關(guān)于音質(zhì)的下架結(jié)束。
即使在今年早些時候,美國田納西州也制定了一項(xiàng)法律,不允許使用 AI 效仿人聲。
總之,在音頻 AI 這個地方,還有許多洞可以補(bǔ)上。。
但是說實(shí)話,世超還真希望這個模仿者說話。 AI 能夠盡快落地的,要能夠收到微信官方賬號就更好了。
畢竟這 " 聽一聽 " 機(jī)械音在功能上,聽起來真的很不舒服。。
發(fā)文:松鼠
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




