網(wǎng)易用AI技術(shù),幫助聽障人士說出“人生第一句”
近日,網(wǎng)易集團(tuán)、網(wǎng)易公益聯(lián)合浙江省殘疾人福利基金會發(fā)起 " 人生第一句 " 聲音復(fù)原公益計(jì)劃,利用網(wǎng)易互娛 AI Lab 的 iSpeech 技術(shù)打造首個(gè) AI 復(fù)原聽障人士原聲的工具。
聽障人士僅需在「音書 APP」上傳 2 分鐘沒有完整語義的發(fā)聲片段,之后在產(chǎn)品中輸入想要表達(dá)的文字,就可以用原本的聲音說出來。
目前該產(chǎn)品已向全國聽障人士免費(fèi)開放,幫助他們無障礙、有情感地與外界交流,用自己的聲音說出 " 人生第一句 "。
不久前,浙江省殘疾人福利基金會面向浙江特殊教育職業(yè)學(xué)院的學(xué)生和「音書 APP」的部分用戶開展調(diào)研。
調(diào)研結(jié)果顯示,僅有十分之一的受訪對象能夠通過簡單的口語與身邊的人進(jìn)行交流,他們中的大多數(shù),最大的夢想便是能說出 " 人生第一句 "。
網(wǎng)易互娛 AI Lab 技術(shù)總監(jiān)林悅告訴 36 氪,目前市面上絕大多數(shù)語音克隆產(chǎn)品,需要比較完整、有一定時(shí)長的語段,不適合相對發(fā)音困難的聽障人士使用。
此次研發(fā)歷時(shí)兩個(gè)月,網(wǎng)易互娛 AI Lab 研發(fā)團(tuán)隊(duì)用上了 iSpeech 技術(shù),基于海量數(shù)據(jù)的預(yù)訓(xùn)練模型,加上聽障人士極少量的純語音數(shù)據(jù)快速微調(diào)算法模型,在快速克隆新的說話人音色的同時(shí),保留基礎(chǔ)模型的內(nèi)容發(fā)音能力。
林悅表示,這次研發(fā)的難點(diǎn)在于,從極短的無語義語音中提取到個(gè)人聲音特征。正常的語音合成技術(shù)往往需要半小時(shí)到一個(gè)小時(shí)的語料建模,而網(wǎng)易團(tuán)隊(duì)克服了技術(shù)難度,僅需要聽障者發(fā)出的兩分鐘簡單音節(jié),就取得了效果。
一位聽障理發(fā)師使用該技術(shù)與母親通話時(shí),母親聽到 " 兒子的聲音 " 后非常激動(dòng),稱從未想過能聽到兒子說話。這名理發(fā)師說,能用自己的聲音與人交流,可以大大提升自信心。
網(wǎng)易宣布,這項(xiàng)技術(shù)研發(fā)遵循 " 科技向善 " 的理念,供聽障人群免費(fèi)使用,希望能提高他們的生活便利性。
接下來,網(wǎng)易團(tuán)隊(duì)希望利用 AI 技術(shù),賦予合成語音以情感表達(dá)能力,讓聽障人士通過語音傳遞更豐富的情感。
據(jù)了解,此次運(yùn)用的 iSpeech 技術(shù)原是由網(wǎng)易互娛 AI Lab 針對游戲場景推出的 AI 創(chuàng)作工具,已落地服務(wù)于《大話西游》《一夢江湖》《荒野行動(dòng)》等 10 余項(xiàng)游戲項(xiàng)目產(chǎn)品之中。
通過這次研發(fā),這項(xiàng)技術(shù)在游戲的使用場景也有更多可能性。林悅舉例,游戲里會有給 NPC 角色定制語音包的需求,這項(xiàng)技術(shù)將減輕研發(fā)人員的負(fù)擔(dān),不再需要嚴(yán)格按照文本錄制聲音,只需日常的說話語音,就能達(dá)到效果。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com