亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<bdo id="kk4gh"></bdo>

<span id="kk4gh"></span>

嘗試了全網(wǎng)流行的語音AI，我?guī)缀醴植磺逭l是真人。。

2024-06-11

咳咳，在開始講話之前，先向朋友們宣布一件事：

這種自然的語氣，隱約還能聽到一些換氣的聲音，是否已有差友即將上鉤。

但是不要真的認(rèn)為世超會暴露真聲。其實(shí)這個音頻是我用的。 AI 制作出來的，從打開網(wǎng)站到制作整個音頻，都是共用的。沒兩分鐘。

也許已經(jīng)有朋友猜到世超用的是什么？ AI 這個工具，就是最近剛火出圈的那個，ChatTTS 。

剛剛開源不久，它的 GitHub 有一萬多顆標(biāo)星，而且還在繼續(xù)飆升，就在世超寫稿子的時候，親眼看見它有所突破 2 萬大關(guān)。。。。

網(wǎng)絡(luò)上的熱度也很高，光是 b 站立，隨便搜索一下 ChatTTS ，可以彈出很多視頻，不是教大家怎么安裝，而是夸它有多真實(shí)。

甚至熱度也傳到了海外。

其實(shí)像 ChatTTS 這類文本轉(zhuǎn)換為語音（ Text to Speech ）市場上有很多工具，每個家庭都做。 AI 使用的公司，基本上都有文字轉(zhuǎn)語音的功能。

但是與它們不同的是， ChatTTS 最重要的是，最自然地恢復(fù)人聲。

它的網(wǎng)頁版本參數(shù)調(diào)節(jié)按鈕，其中一半以上是為了讓音頻產(chǎn)生，更像是我們的真實(shí)演講。

例如，精調(diào)文本按鈕打開后，最終產(chǎn)生的音頻會自動添加一些音頻。口語連詞，或是通風(fēng)，笑聲等等，信噪比也是為了恢復(fù)說話時的背景音。

世超隨意輸?shù)袅硕巫?ChatTTS ，不要動其默認(rèn)設(shè)置，產(chǎn)生的效果就是下面這個樣子。

乍一看，我以為是辦公室里一個同事從火鍋里回來的吐槽?？磳?dǎo)出的文字，這是在最后一句中間和最后自動加了兩個出風(fēng)口。

但是需要多聽幾次，還是可以在里面找到一些。 AI 味道。

假如產(chǎn)生的效果一般，我們也可以自己手動設(shè)置，放在輸入文本中。 [ uv _ break ] 或者 [ laugh ] ，可以直接控制氣口和笑聲。

或者上面那句話，世超直接從末尾加上一個。 [ laugh ] ，整個句子會更加自然一些，最后的笑聲，還可以舔出一點(diǎn)無奈的味道。

單靠這句話，我們還是看不出來。 ChatTTS 力量，下一點(diǎn)難度，扔兩個繞口令給它。

假如給我們沒有練習(xí)過的人來，也許要胡說八道幾次，沒想到。 ChatTTS ，模仿這個挺有一手的。

說到后面，這是直接一口氣說完的，和我們快忘詞的語調(diào)相比，不能說很像吧，至少也有七八分。

即使是為了讓最后一句話 " 看看我說的還行吧 " 更加自然，它還自己手動添加了一個詞兒。（那個）。

除會說中文外， ChatTTS 還可以整整地說幾句英語。

肖申克的世超輸句經(jīng)典臺詞 " Hope is a good thing and maybe the best of things.And no good thing ever dies. " 進(jìn)去，它可以順利地產(chǎn)生聲音。

關(guān)于效果嘛，世超認(rèn)為，沒有說中文自然。。。

當(dāng)然，作為我們這里土生土長的地方。 AI ，說中文比說英文自然是情有可原的。

然而令世超驚訝的是，盡管英語一般，學(xué)習(xí) ABC 中英夾雜， ChatTTS 真的有點(diǎn)天賦。

世超隨意在臺詞中加入了一些網(wǎng)絡(luò)上非常流行的英文梗，它直接模仿了里面的精髓。

不僅可以準(zhǔn)確切換中英文，還可以像樣呼吸什么的，還可以補(bǔ)充所有應(yīng)該補(bǔ)充的單詞。如果你堅持挑剔，最后一句話有點(diǎn)卡，但是當(dāng)我們平時說話的時候，誰沒有禿頂。

試試看這里，世超已經(jīng)有點(diǎn)被感動了。 ChatTTS 給人留下深刻印象。。但是，就在我們準(zhǔn)備進(jìn)一步探索的時候，連續(xù)幾次給我們帶來大翻車。。

例如，我想嘗試一下不精調(diào)的文本，看看。 ChatTTS 會產(chǎn)生怎樣的音頻，結(jié)果倒好，它直接罷工，輸入一大段，它只讀第一個單詞。

這種效果已經(jīng)嘗試了好幾次。。

（因?yàn)檩敵鰡栴}，iOS 該系統(tǒng)可能無法打開該音頻。)

如果整個文字中有阿拉伯?dāng)?shù)字， ChatTTS 而且無法識別，必須手動切換到中文數(shù)字。

更離譜的是，只要字?jǐn)?shù)增加，它就會開始渾水摸魚，吞吞吐吐地只從長文中讀出來，有時甚至可以把它們讀出來。 GPU 給予干停機(jī)。

就像世超想要的那樣 ChatTTS 幫助朋友們閱讀本文的開頭，它已經(jīng)撐不住了。

這個都不算什么， ChatTTS 最大的缺點(diǎn)之一就是我們不能提前知道選擇了什么音質(zhì)，只能在 " 音頻種籽 " 里輸入數(shù)字盲選，或是擲骰子抽卡。

合上就是看運(yùn)氣唄。。

但是關(guān)于這些 " BUG " ，研究小組也有他們的說辭。總而言之，為了避免 ChatTTS 被有心人利用，他們沒有釋放出最佳模型。

根據(jù)他們的說法，目前開源和平臺上使用的，都是使用的，4 萬只小時未經(jīng)監(jiān)管微調(diào)的數(shù)據(jù)訓(xùn)練模型。（ SFT ）。

并且為了避免 AI 詐騙，他們還在這些訓(xùn)練數(shù)據(jù)中加入了少量的高頻噪聲，數(shù)據(jù)也使用了低音質(zhì)的音頻。 MP3 格式。

在團(tuán)隊(duì)手中，實(shí)際上還有一個更大的杯子，性能更好的模型，使用10 萬小時數(shù)據(jù)。

ChatTTS 真正的力量應(yīng)該在官方視頻中顯示。就像我們上面展示的那些例子，它們可以做得更好。比如中英文的句子，視頻的例子比我們嘗試的流暢很多，整個聲音的清晰度也比世超在線生成的要強(qiáng)。

根據(jù)想法，它還可以接入語言大模型，可以直接和直接。 AI 進(jìn)行零距離交談。

即使只有幾分鐘的音頻，它也可以直接將喬布斯、泰勒 · 復(fù)制了斯威夫特的聲音。

后來進(jìn)化進(jìn)化，結(jié)合 ChatGPT 和對口型的 AI ，使它幫忙直播賣貨估計沒有人能看出來。

好處當(dāng)然是一方面，但是世超想說的是，說到底這個 AI 或者模仿人說話，如果被有心人使用，后果不會有任何好處可以抵消。

和去年一樣，發(fā)生了幾起關(guān)于它的事情。 AI 詐騙案件，被騙數(shù)百萬人。而且現(xiàn)在， AI 聲音越來越真實(shí)，這意味著欺詐的門檻越來越低。

還有版權(quán)風(fēng)險，可以算是這種音頻。 AI 一堵墻。不久前，寡姐還因聲音版權(quán)問題，公開撕裂。 OpenAI ，以 OpenAI 關(guān)于音質(zhì)的下架結(jié)束。

即使在今年早些時候，美國田納西州也制定了一項(xiàng)法律，不允許使用 AI 效仿人聲。

總之，在音頻 AI 這個地方，還有許多洞可以補(bǔ)上。。

但是說實(shí)話，世超還真希望這個模仿者說話。 AI 能夠盡快落地的，要能夠收到微信官方賬號就更好了。

畢竟這 " 聽一聽 " 機(jī)械音在功能上，聽起來真的很不舒服。。

發(fā)文：松鼠

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

高考后不要忙著“撒歡”！記住這些“錦囊”！

艙門關(guān)閉后，兩名外國乘客表示親戚生病，要求下飛機(jī)，導(dǎo)致航班延誤。深圳航空回應(yīng)

電子商務(wù)平臺紛紛推出“自動跟價”，迫使億萬商家焦慮。

“政府收儲存房”落地21天：錢從哪里來，進(jìn)展如何？

突然暴跌？“寧王”緊急回應(yīng)

項(xiàng)目推薦

康小虎 · 健康小屋

藍(lán)絲帶

<li id="85ytt"><dl id="85ytt"></dl></li>

<li id="85ytt"></li>

<label id="85ytt"><xmp id="85ytt">