商湯科技李星冶:元宇宙的AI引擎如何構建新應用
元宇宙的火熱引發(fā)了各個行業(yè)的關注與探討,在WISE 2022 企服展評節(jié)暨數(shù)字增長大會上,來自商湯科技高級商務總監(jiān)李星冶介紹了AI 技術與元宇宙結合帶來的應用與實踐。
李星冶認為,AI有著它自己的產(chǎn)業(yè)革命,在元宇宙領域,在遵循摩爾定律通行原則的基礎上,會開啟了媒介的變革,通過技術驅動升級。隨著更新型的人機互動技術的來臨,人們也會有更加深度的元宇宙互動沉浸式體驗。
在整個元宇宙的分層當中,商湯科技專注于AI引擎層,即專注于人物的生成引擎和專注于場景生成的數(shù)據(jù)重建平臺。
李星冶表示,基于強大的AI能力,商湯科技打造了數(shù)字人的生成平臺,并在金融、商超、等線下的場景使用。同時,結合了商湯原創(chuàng)的AI技術,在數(shù)字資產(chǎn)方面通過線上線下實體產(chǎn)品產(chǎn)生結合和互動,打造出更新的衍生效果和生動的游玩體驗。
以下為李星冶演講全文:
這次活動的主題非常有意義,商湯科技本身是一家做人工智能的相關企業(yè),我們時刻關注著在數(shù)字化經(jīng)濟的轉型和升級之下有哪些行業(yè)和業(yè)態(tài)能跟AI產(chǎn)生深度的結合和綁定,今天我?guī)淼闹黝}在商湯內(nèi)部也是全新賽道的嘗試,是關于元宇宙相關賽道發(fā)展和建設的意見。
從AI的發(fā)展階段來看會分成幾個階段,在有一些特定的行業(yè),AI可以讓人們從一些繁重、危險的工作中解放出來,我們也期待著AI能在將來某個時間段內(nèi)超越專家,產(chǎn)生出更好地現(xiàn)實生活中的替代效應。
AI從產(chǎn)業(yè)落地的角度分成四個大方向:首先是算法,其核心是算法模型被行業(yè)更多的使用。其次是有大量的數(shù)據(jù)。目前看,通過大量的數(shù)據(jù)學習和訓練,AI在很多領域能產(chǎn)生越來越多的效果。再次是算力,為了大規(guī)模的去生產(chǎn)訓練模型,要匹配到我們能夠去進行多任務、大規(guī)模的訓練,提升有效算力,算力的集群對于整個算法訓練來講是事半功倍的事情。同時要找到有效的落地場景,這應該是業(yè)內(nèi)的共識。
從國家的發(fā)展角度去看的話,我們在一個大的戰(zhàn)略布局發(fā)展當中,對于數(shù)據(jù)的使用和效率的提升提出了很多迫切的要求。
我們認為AI隨著它自己的產(chǎn)業(yè)革命,在元宇宙相關的領域,它從大的方向上遵循摩爾定律通行的原則,它開啟了媒介的變革,通過技術驅動升級。
PC互聯(lián)網(wǎng)時代更多的是以媒體為中心進行新聞的發(fā)布和傳播,到了后來的移動互聯(lián)網(wǎng)時代,隨著3G、4G的網(wǎng)絡有了創(chuàng)新型的應用,比如說移動支付、共享單車;5G建設時代初步來臨的時候,隨著智算中心、邊緣計算等普及,進入了新的所謂的元宇宙時代,這是我們今天暢想的主要方向。也有一些權威報告指出元宇宙的入口,比如說預計在2025年,整個低成本優(yōu)質的硬件市場覆蓋會達到7500萬或7600萬件,有了大量的元宇宙入口,才有了元宇宙進一步的想象空間。
隨著更新型的人機互動技術的來臨,我們會有更加深度的元宇宙互動沉浸式的體驗,我們今天是站在元宇宙的入口跟大家進行早期的討論。
在整個元宇宙的分層當中,最底層是基礎設施;向上是顯示硬件,比如說傳統(tǒng)的手機電腦、VR、AR、XR的設備;向上是操作層,基于移動端的IOS、安卓,還有基于PC端、服務器端的操作系統(tǒng);再向上有3D引擎,最大的是應用層,現(xiàn)在可以看到早期元宇宙雛形應用,比如說用于社交運用、辦公協(xié)作、商業(yè)服務娛樂等。
商湯專注于AI引擎層,這里面主要是兩個部分,一個是專注于人物的生成引擎,一個是專注于場景生成的數(shù)據(jù)重建平臺,這是今天分享的重點。
在大的元宇宙展示空間里,會把它分成人、物、場三個部分。人主要是基于快速算法的建模完成數(shù)字人的生成、驅動和智能化的交付。物指的是物體跟人相似的建模算法,同時會有數(shù)字文創(chuàng)等產(chǎn)品的應用。在空間的場景里有很多空間建模的算法,可以結合線下的賽事活動、展覽展存去做一些深度的體驗。
數(shù)字人可以分成好多不同的數(shù)據(jù)類型,商湯自己打造的數(shù)字人生成平臺也是依托于底層的能力,可以匯聚成各種各樣的風格,滿足不同行業(yè)的需要。在大的數(shù)字人生成平臺當中,包含了底層簡單的AI引擎,傳統(tǒng)意義上大家理解成視覺引擎,比如說對人的肢體語言、表情、動作識別、;也包含了語音的能力和引擎,比如說ASR、TTS,就是語音轉動作和反饋,從文字轉成語音交互、再到STA驅動,就是語音驅動數(shù)字人動起來的能力;還包括語義引擎,如NLP技術,我們?nèi)ダ斫馊藱C互動,理解人類傳輸語言的意義,也包括對話引擎,他對上下文進行連接。
基于強大的AI能力,向上可以做很多上層應用,比如說生成平臺,它可以包括數(shù)字人的生成平臺,快速去生成一套數(shù)字人,除了人之外還可以對它進行換裝,可以對燈光進行材質的渲染,同時還可以在運營管理的平臺上,對數(shù)字人進行簡單的管理和制作。在數(shù)字人的視頻平臺,我們可以讓數(shù)字人生成播報、動作匹配、轉場特效等。基于此,我們可以應用線上的APP、H5和小程序,用數(shù)字人替代人工完成一些播報和互動,同時可以在線上場景結合各種各樣大屏小屏等智能設備,去完成在現(xiàn)實生活中對人群的觸達。同時,在應用場景里會有很多具體的載體,比如說虛擬偶像、數(shù)字人主播等,有一些大家在生產(chǎn)生活當中可以看得見的應用。
數(shù)字人解決方案的組成模塊包括生成部分、驅動部分、智能交互部分,更多行業(yè)內(nèi)的伙伴或相關的廠商把更多的精力放到了生成上,把人物變得更精細漂亮,這是非常有意義的事情。但同時,我們覺得更重要的是怎么樣讓數(shù)字人有效的驅動起來,以及最難的是智能化的交互,這些可以讓數(shù)字人真正的擁有智能。
現(xiàn)在對于制作數(shù)字人來講,通過AI的能力已經(jīng)把它的門檻降得越來越低,圍繞著真人進行簡單的環(huán)拍,環(huán)拍之后可以生成出真人模型,其實是比較栩栩如生的,創(chuàng)建完之后可以對臉部和服裝進行簡單的調(diào)整,除了做人物也可以做動物、卡通畫等。
同時,我們可以通過語音和其他的方式完成對數(shù)字人的驅動,比如我跟大家說你好,只要錄入文字,我們的數(shù)字人就會打一個你好,這個時候我們就并不需要真人在后面扮演,可以最大程度的釋放生產(chǎn)力,讓數(shù)字人變得更加高效智能。
這是首創(chuàng)的一套空氣動捕,傳統(tǒng)的驅動數(shù)字人還得有一套動捕的設備,這套設備比較繁重,同時提高了制作成本和使用難度。這個時候商湯主要使用的是基于RGB攝像頭完成對于數(shù)字人的驅動,看起來會變得非常簡單,降低了使用的門檻,在線上直播的應用里已經(jīng)慢慢看得見了。
這里面主要講了商湯自己數(shù)字人的典型應用,在金融、商超、活動里會有很多線下的場景去使用,未來我們和合作伙伴、友商會把越來越多的數(shù)字人推在更多生產(chǎn)、生活的角落,今天參會的朋友應該都有過接觸。
這是數(shù)字貓比較新的產(chǎn)品和玩法,除了對于人的打造,我們自己對于數(shù)字資產(chǎn)和物品有很多的想法,結合了商湯自己原創(chuàng)的AI技術,和線上線下實體產(chǎn)品產(chǎn)生結合和互動,就能產(chǎn)生出更新的衍生效果和很生動的游玩體驗。
基于數(shù)字貓這個APP可以看出,這里面展示了兩個,一個是《鹿王本生圖》的九色鹿故事,在現(xiàn)實場景當中掃描實物之后出現(xiàn)小貓頭的形狀,拿著手機走進去之后進入敦煌的壁窟,現(xiàn)在敦煌的壁窟經(jīng)歷千年已經(jīng)斑駁了,用商湯這套AR算法可以看到九色鹿的場景被很好的展現(xiàn)了,栩栩如生的講述了鹿王之前的故事。它是基于物體的識別完成了沉浸式、交互式的數(shù)字藏品。
這里展示的是徐悲鴻的《奔馬圖》,這匹馬就是一幅水墨畫,掃碼進入之后,可以圍繞著這匹馬360度旋轉,可以栩栩如生的看到這匹馬。
這是《溪山行旅圖》,宋畫三絕里面很有代表性的一幅畫,掃完進來之后可以看到這幅畫卷生動地展現(xiàn)在了我們面前,它有聲音,沉浸式的體驗到人、物體和場景有機融合。
這是我們跟水立方、冬奧會線下沉浸式的互動,可以更多的在商場、景區(qū)基于現(xiàn)實場景完成AR導航或簡單的小游戲互動。
我們?nèi)匀皇且獜娬{(diào)“科技向善”,對于AI可持續(xù)發(fā)展上,商湯一直立足于此方面的建設和工作,我們覺得作為一家AI企業(yè),有責任把這件事情承擔好。
商湯本身是一家賦能的企業(yè),迎合今天36氪的主題,作為乙方企業(yè),希望跟更多的合作伙伴探討,大家共同在新的數(shù)字經(jīng)濟環(huán)境之下探討怎么樣有效的完成新一輪的增長,不管是在傳統(tǒng)的場景里還是在新型的元宇宙空間里,期待跟大家更多的交流學習,感興趣可以掃描屏幕當中的二維碼期待更多的討論。
版權說明:
本文僅代表作者個人觀點,版權歸原創(chuàng)者所有。部分圖片源自網(wǎng)絡,未能核實歸屬。本文僅為分享,不為商業(yè)用途。若錯標或侵權,請與我們聯(lián)系刪除。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




