科幻里誕生的虛擬人,靠 AI「活」了
科幻小說(shuō)描述的場(chǎng)景,正在成為今天的現(xiàn)實(shí)。
12 月 10 日,在中國(guó)科幻界「諾貝爾」——第十三屆華語(yǔ)科幻星云獎(jiǎng)的頒獎(jiǎng)典禮上,發(fā)生了有趣的一幕:MMC 工作室的科幻游戲《星球:重啟》問(wèn)鼎最佳科幻游戲創(chuàng)意獎(jiǎng),現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)的卻不是主創(chuàng)團(tuán)隊(duì),科幻作家劉慈欣把獎(jiǎng)杯頒給了一名游戲角色——虛擬人李星瀾 Lydia。
在《星球:重啟》游戲中,玩家是在 2112 年星球遭受外星入侵后的幸存者。作為一名來(lái)自 2112 年的超級(jí)人工智能少女,李星瀾為了拯救世界犧牲自己,將身體分解成信號(hào)發(fā)送回了 21 世紀(jì)。她的任務(wù)是召集 21 世紀(jì)人類一起回到未來(lái)拯救世界。在游戲中,李星瀾是游戲中每位幸存者最好的伙伴。她將是玩家的新手「引導(dǎo)員」,也是玩家在歷險(xiǎn)中的「好助手」,更是跌宕劇情中的「女主角」。她也將為了拯救世界,犧牲自己回到 21 世紀(jì)。這科幻色彩十足的游戲設(shè)定,賦予了李星瀾鮮活的人設(shè),讓她的「靈魂」得以誕生。
李星瀾不是簡(jiǎn)單的游戲 NPC,根據(jù)開發(fā)團(tuán)隊(duì) MMC 工作室介紹,李星瀾是他們的首位真·元宇宙虛擬人,不僅在游戲中引導(dǎo)玩家,在游戲外,發(fā)抖音、接代言、做主持人、領(lǐng)個(gè)獎(jiǎng)、看個(gè)秀都不在話下。超寫實(shí)皮囊讓她在今年 4 月「穿」回地球后,發(fā)布十幾個(gè)視頻就積累了上千萬(wàn)的播放量。
李星瀾也不是傳統(tǒng)意義上的「虛擬人」,一方面是外形更加「像」人;另一方面,也是更重要的,驅(qū)動(dòng)她的內(nèi)核不再是「中之人」,而是最新的 AI 技術(shù)。
在李星瀾身上,人設(shè)靈魂、外形皮囊和 AI 內(nèi)核讓她和已誕生的虛擬人們?nèi)绱瞬煌@引起了我們的好奇:創(chuàng)造李星瀾的背后到底是什么樣的技術(shù)?一個(gè) AI 驅(qū)動(dòng)的虛擬人,能有什么樣的產(chǎn)業(yè)價(jià)值?頒獎(jiǎng)結(jié)束后,我們向 MMC 工作室請(qǐng)教,后者和我們分享了李星瀾背后的技術(shù),以及他們對(duì)未來(lái)虛擬人產(chǎn)業(yè)發(fā)展的思考。
「好皮囊」的背后,是更高效的制作技術(shù)
外表宛若鄰家小妹的李星瀾,其背后是幾乎已經(jīng)做到了當(dāng)前市面上最極致的超寫實(shí)虛擬人「皮囊」技術(shù)。李星瀾的制作團(tuán)隊(duì)有著成熟完整的生產(chǎn)管線,其中既有自研技術(shù),也有來(lái)自 NVIDIA 相關(guān)技術(shù)的加成。

創(chuàng)造一個(gè)虛擬 3D 形象并不是什么新鮮的技術(shù),但讓虛擬人能在不同場(chǎng)景下,像真人一樣做出活靈活現(xiàn)的動(dòng)作和表情卻并不容易,尤其是在不借助演員動(dòng)捕的情況下。
為了解決這個(gè)難點(diǎn),MMC 工作室自研了四項(xiàng)關(guān)鍵專利技術(shù),這些技術(shù)與超寫實(shí)數(shù)字人的表情綁定及高精度面捕相關(guān)。這部分技術(shù)的核心在于如何更高效地完成高精度數(shù)字人的模型制作。據(jù) MMC 工作室透露,采用相關(guān)自研技術(shù)后,能節(jié)約 30% 的模型制作成本。
據(jù)工作室數(shù)字人團(tuán)隊(duì)負(fù)責(zé)人山謙介紹,其自研的技術(shù)核心在于數(shù)字人面部基表情制作和自動(dòng)化綁定,「基表情是指面部表情編碼系統(tǒng)會(huì)有一系列基礎(chǔ)表情,通過(guò)這些基表情組合就可以滿足各種不同的表情表現(xiàn)需求?!雇ㄟ^(guò)掃描真人表情,以及通過(guò)美術(shù)進(jìn)一步刻畫,團(tuán)隊(duì)為李星瀾制作出 70 多個(gè)基表情,是市面上大部分虛擬人的一倍以上。
自動(dòng)化綁定則極大提高了整個(gè)虛擬人生成表情的效率,山謙提到,「以前要把基表情人工一步一步綁定到虛擬人模型上,自動(dòng)化綁定后就可以自動(dòng)地完成整個(gè)虛擬人物的所有的面部表情的生成?!?/p>
此外,引入 NVIDIA 的技術(shù)支持也大大提升了工作室的效率。3D 資產(chǎn)制作、渲染相關(guān)的軟件工具繁多,工序復(fù)雜一直是產(chǎn)業(yè)痛點(diǎn)之一,而 MMC 工作室采用的 NVIDIA 相關(guān)技術(shù)也在協(xié)作和渲染方面提供了極大的加成。
協(xié)作上,無(wú)論是負(fù)責(zé)技術(shù),還是設(shè)計(jì)、美術(shù)的團(tuán)隊(duì)成員,都可以通過(guò) NVIDIA Omniverse 這一 3D 仿真虛擬和協(xié)作平臺(tái)相互連接,Omniverse 可以統(tǒng)一整合資產(chǎn)、庫(kù)和工具,這項(xiàng)優(yōu)勢(shì)能讓藝術(shù)家在多種應(yīng)用之間實(shí)時(shí)導(dǎo)入和編輯素材,以助其實(shí)現(xiàn)更大程度的創(chuàng)作自由。
同時(shí)借助實(shí)時(shí)光線追蹤和交互式路徑追蹤技術(shù),以及云端 GPU 資源,Omniverse 可以實(shí)時(shí)渲染出高保真、物理級(jí)精確的結(jié)果,相比過(guò)去影視制作中動(dòng)輒幾十?dāng)?shù)百小時(shí)的渲染時(shí)間大大縮短,從而大幅降低了工作室的時(shí)間成本。
AIGC,虛擬人的「內(nèi)核」
相比「皮囊」,驅(qū)動(dòng)虛擬人的「內(nèi)核」更加關(guān)鍵。如果說(shuō)今天前者更多是在解決從 1 到 10 的效率問(wèn)題,那么后者需要解決的則是從 0 到 1 的突破。
過(guò)去虛擬人的「內(nèi)核」來(lái)自扮演的中之人,而李星瀾更進(jìn)一步,她的「內(nèi)核」來(lái)源于人工智能,AI 技術(shù)整體的發(fā)展是虛擬人更有「內(nèi)核」的基礎(chǔ),不同的虛擬人項(xiàng)目需要在大的技術(shù)背景下更好應(yīng)用落地,創(chuàng)造價(jià)值。
李星瀾團(tuán)隊(duì)產(chǎn)品負(fù)責(zé)人肉山介紹,李星瀾的對(duì)話交互結(jié)構(gòu)設(shè)計(jì)分為三個(gè)模塊——基礎(chǔ)對(duì)話集成、對(duì)話生動(dòng)表現(xiàn)、對(duì)話策略能力,三部分在虛擬人的實(shí)時(shí)對(duì)話能力表現(xiàn)中能力逐漸遞進(jìn),從「智障」逐漸變得「智能」,從明顯的「機(jī)器人」感覺,只能用于客服環(huán)境,到讓人有時(shí)已經(jīng)分不清她是一個(gè)機(jī)器人,即使知道,也可能會(huì)投入情感,在某些瞬間把她當(dāng)作一個(gè)「真人」。
基礎(chǔ)對(duì)話集成是基礎(chǔ)的對(duì)話模塊能力,包含了 NLP(Natural Language Processing,自然語(yǔ)言處理)的生成模型,包含了音色合成、語(yǔ)音轉(zhuǎn)換及敏感詞管理等。常見使用場(chǎng)景便是比如語(yǔ)音助手、電商、銀行的對(duì)話機(jī)器人,給你打騷擾電話的機(jī)器人等。
在一項(xiàng)調(diào)查中,讓人們想出一個(gè)最能代表你是真人而非 AI 的詞,大多數(shù)人會(huì)選擇包括悲傷、憤怒等強(qiáng)烈情緒的詞語(yǔ),甚至臟話。那么想讓 AI 更像人,也需要讓 TA 們學(xué)會(huì)「表達(dá)情緒」。
對(duì)話生動(dòng)表現(xiàn)能力就是李星瀾表現(xiàn)情緒的能力。據(jù)肉山介紹,虛擬人有基于人情緒的分類標(biāo)簽,最基礎(chǔ)的有 8 種,常用的有 20 多種,李星瀾用的是 30 多種?;凇笝C(jī)器人」式的基礎(chǔ)對(duì)話文本,用情緒分類標(biāo)簽定義它生成的每一句話,比如開心、憤怒、沮喪……
表現(xiàn)這些情緒的方式也和人類一樣,語(yǔ)氣、表情、肢體,這些都要基于情緒標(biāo)簽,進(jìn)一步用算法生成。生氣時(shí)皺眉、開心時(shí)微笑、沮喪時(shí)低頭……加上算法加成的肢體和面部表現(xiàn),就生成了一個(gè) AI 驅(qū)動(dòng)的虛擬人的整體形象。
不過(guò)做到這些,也只是讓虛擬人略顯生動(dòng),和 2D 人物相比,在超寫實(shí)數(shù)字人身上,稍有不慎還是會(huì)出現(xiàn)不自然甚至恐怖谷的情況,虛擬人的生動(dòng)表現(xiàn)能力還在持續(xù)迭代中。
比如眼神對(duì)視在人的交流中非常重要,雖然目前還無(wú)法讓虛擬人和人交流時(shí)眼波流轉(zhuǎn),不過(guò)肉山介紹,李星瀾已經(jīng)可以「和你對(duì)視」,對(duì)視可以讓人產(chǎn)生真正的人與人的交流感,「視覺交互方面,落地場(chǎng)景可以調(diào)用攝像頭,李星瀾就可以看著交互的對(duì)象,眼神會(huì)聚焦到對(duì)話人身上。」
對(duì)話策略能力是基于人設(shè)的擴(kuò)充模塊,也就是讓李星瀾之所以是李星瀾,而不是別的虛擬人的地方。肉山介紹道,「基于人物設(shè)定,李星瀾擁有屬于她自己的知識(shí)、記憶、技能,她會(huì)帶你進(jìn)入哪些情境模塊,她有特殊偏好的話題。」
在口型生成和面部算法表現(xiàn)加成上,李星瀾團(tuán)隊(duì)借助了 NVIDIA 的技術(shù)能力來(lái)提高模型訓(xùn)練效率。
為了加快在創(chuàng)造李星瀾中使用的深度學(xué)習(xí)模型的訓(xùn)練周期,團(tuán)隊(duì)利用了 NVIDIA GPU 加速器。除了硬件,團(tuán)隊(duì)還利用了 FP16 混合精度訓(xùn)練和 Megatron-LM 風(fēng)格的模型并行方案,在不犧牲收斂質(zhì)量的情況下進(jìn)一步提升訓(xùn)練吞吐量。團(tuán)隊(duì)目前的系統(tǒng)總共使用了約幾十個(gè) NVIDIA GPU,并且能夠在兩天內(nèi)完全訓(xùn)練 audio2motion 和 text2speech 模型,并在五天內(nèi)完全訓(xùn)練基于 Transformer 的 Chatbot 模型,生成超過(guò) 10TB 的訓(xùn)練數(shù)據(jù)。
在推理方面,團(tuán)隊(duì)利用了另一 NVIDIA GPU 集群,還將 NVIDIA 的 FasterTransformer(一種基于 CUDA、cuBLAS 和 cuBLASLt 的定制解決方案,用于優(yōu)化 Transformer 架構(gòu))整合到其推理運(yùn)行時(shí)中,從而將推理延遲減半,使李星瀾能夠以高度響應(yīng)的方式與觀眾互動(dòng)。
簡(jiǎn)而言之,以豐富的 GPU 計(jì)算資源為支撐,并結(jié)合 NVIDIA 團(tuán)隊(duì)量身定制的 AI 系統(tǒng)進(jìn)行優(yōu)化,MMC 工作室在創(chuàng)造李星瀾的過(guò)程中,在幾個(gè)月的時(shí)間內(nèi)就完成了打造高質(zhì)量虛擬人的端到端迭代。
另外,得益于 NVIDIA Omniverse 中 Audio2Face 的高精度效果,數(shù)字人的口型表情表現(xiàn)得到了明顯提升。Omniverse Audio2Face 是一款由 NVIDIA 深度學(xué)習(xí) AI 技術(shù)提供動(dòng)力支持的應(yīng)用程序,僅基于一個(gè)音頻來(lái)源即可快速輕松生成表情豐富的面部表情動(dòng)畫。只需錄制語(yǔ)音音軌,然后輸入到該應(yīng)用中,即可看到 3D 角色的面孔變得活靈活現(xiàn)。
同時(shí),Audio2Face 讓用戶能夠在眨眼之間選擇角色的情緒,并為其設(shè)置相應(yīng)的動(dòng)畫。AI 網(wǎng)絡(luò)會(huì)自動(dòng)操縱臉部、眼睛、嘴部、舌頭和頭部運(yùn)動(dòng),以匹配所選擇的情緒范圍和定制的情緒強(qiáng)度水平,或直接從音頻剪輯中自動(dòng)推斷情緒。
虛擬人,終極形態(tài)升級(jí)中
在虛擬人賽道熱度持續(xù)的這一年多里,「生」出來(lái)很多虛擬人,有的活著,也有的已經(jīng)「賽博死亡」。虛擬人的自由野蠻生長(zhǎng),似乎到了需要些梳理的時(shí)候。
從「皮囊」即外觀來(lái)看,有的虛擬人仍然使用 2D 即「二次元」形象,比如大量的虛擬主播,有的則「卷」起身份型超寫實(shí)數(shù)字人形象,例如「翎」「AYAYI」。
從「內(nèi)核」即驅(qū)動(dòng)方式上看,虛擬人產(chǎn)業(yè)一直存在兩條技術(shù)路線,一條是「中之人」驅(qū)動(dòng)的「套皮」虛擬偶像,例如和李星瀾同出一門的虛擬偶像「A-soul」,其火爆背后的商業(yè)模式內(nèi)核是偶像娛樂工業(yè);另一條路線是以 AI 驅(qū)動(dòng)的服務(wù)型虛擬人,落地場(chǎng)景有「Siri 們」系統(tǒng)助手、文字語(yǔ)音問(wèn)答機(jī)器人等,還被稱為「人工智障」,他們的「內(nèi)核」不夠有趣,無(wú)法吸引更多注意力。
在 AI 技術(shù)大發(fā)展的當(dāng)下節(jié)點(diǎn),虛擬人產(chǎn)業(yè)下一步走向何處,已經(jīng)成為各團(tuán)隊(duì)需要思考的問(wèn)題。從科幻游戲場(chǎng)景誕生的李星瀾,在誕生之時(shí)就需要接近真人的超寫實(shí)形象,也需要更為智慧的「內(nèi)核」。
李星瀾有「Siri 們」的解決問(wèn)題的能力,也有「AYAYI」們的漂亮皮囊,還有更強(qiáng)的情緒和生動(dòng)的交流,更豐富的人物設(shè)定感。
肉山提到,李星瀾其實(shí)構(gòu)建的是身份型加服務(wù)型合二為一的數(shù)字人,在李星瀾團(tuán)隊(duì)的思考中,這將是最終的虛擬人形態(tài)?!钢拔覀冋f(shuō)市場(chǎng)上沒有這樣的虛擬人是因?yàn)榧夹g(shù)還沒有到這一步,現(xiàn)在就可以融合這兩者了,這樣的形態(tài)也是我們最終對(duì)虛擬人所想象的形態(tài),包括《鋼鐵俠》里的賈維斯(人工智能管家),也是身份加服務(wù)的類型?!?/p>
從商業(yè)化角度看,當(dāng)前的虛擬人產(chǎn)業(yè)模式并沒有完全閉環(huán)產(chǎn)生真正價(jià)值。山謙表示,觀察下來(lái),市面上的虛擬人很多是跟風(fēng),為了元宇宙而元宇宙,或者是用來(lái)做 ToB 業(yè)務(wù)宣傳,出發(fā)點(diǎn)是展示技術(shù),創(chuàng)造一些商業(yè)價(jià)值?!咐钚菫憦囊婚_始就是我們游戲的核心角色,發(fā)現(xiàn)玩家在游戲中跟她有交互后,希望這個(gè)角色不光存在游戲中,還希望在生活中也能看到她,于是我們讓李星瀾成為一個(gè)獨(dú)立的虛擬人 IP,是基于游戲業(yè)務(wù)出現(xiàn)的一個(gè)自然而然的硬需求?!?/p>
基于游戲,李星瀾和其他市面上僅有超寫實(shí)「美麗皮囊」的虛擬人不同,李星瀾有自己的故事,豐富的人物性格,有成長(zhǎng)時(shí)間線。她可以在游戲中,24 小時(shí)的支持、陪伴、引導(dǎo)著每位玩家。她的智能系統(tǒng)也將嵌入到游戲集成的功能界面里,在交互中,玩家可以更好的了解 2112 年的未來(lái)世界?!溉绻阆肓私馑倪^(guò)去,你可以在游戲中跟他交互。如果你想了解他的現(xiàn)在,你可以在直播、抖音等社交媒體去感受來(lái)到現(xiàn)代社會(huì)的她?!?/p>
在 IP 打造的階段,李星瀾項(xiàng)目會(huì)基于游戲體驗(yàn)開始,過(guò)程中積累我們的技術(shù)管線能力。山謙提到,「我們希望能通過(guò)做一個(gè)頭部的標(biāo)桿產(chǎn)品,創(chuàng)造一個(gè)文化現(xiàn)象,和內(nèi)外部合作,打造 IP。」
基于李星瀾的案例,團(tuán)隊(duì)已經(jīng)完成了整個(gè)管線的打通,計(jì)劃運(yùn)用到更大規(guī)模的數(shù)字人制作場(chǎng)景。山謙表示,當(dāng)前團(tuán)隊(duì)下一階段目標(biāo)要攻克的難點(diǎn)就在于,大規(guī)模的數(shù)字人制作場(chǎng)景的效果和效率優(yōu)化,「基表情這一套系統(tǒng)還要持續(xù)提升,目前長(zhǎng)得和李星瀾比較像的自動(dòng)化綁定效果較好,一但形象差異較大,就會(huì)出現(xiàn)一些問(wèn)題。當(dāng)下我們正在通過(guò)積累更多基表情數(shù)據(jù)庫(kù)來(lái)解決。」
在當(dāng)前,虛擬人產(chǎn)業(yè)仍然處于早期階段,共同進(jìn)步是每個(gè)產(chǎn)業(yè)內(nèi)的人希望的,游戲和 IP 之后,李星瀾團(tuán)隊(duì)同樣希望把自己的技術(shù)能力提供出去,山謙表示,「我們也愿意把我們的技術(shù)能力管線化、工業(yè)化,能夠提供更多的服務(wù)給外界?!?/p>
正如劉慈欣在星云獎(jiǎng)的頒獎(jiǎng)詞中所說(shuō),「《星球:重啟》把中國(guó)科幻從紙張和銀幕上精心剪裁下來(lái),編織進(jìn)浩瀚的程序里」。虛擬人的未來(lái),李星瀾這樣有皮囊、有靈魂有技術(shù)內(nèi)核的虛擬人,會(huì)從科幻和游戲中走出,和前沿技術(shù)結(jié)合,走入更多領(lǐng)域,帶來(lái)更大能量。
版權(quán)說(shuō)明:
本文僅代表作者個(gè)人觀點(diǎn),版權(quán)歸原創(chuàng)者所有。部分圖片源自網(wǎng)絡(luò),未能核實(shí)歸屬。本文僅為分享,不為商業(yè)用途。若錯(cuò)標(biāo)或侵權(quán),請(qǐng)與我們聯(lián)系刪除。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




