2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難以忍受。
將來人與人之間的交流,是這樣嗎?
當視頻遠程會議開始時,許多人不喜歡打開攝像頭。即使打開了,每個人都被框在不同的窗口。雖然這種形式使用起來很方便,但總是缺乏一些現(xiàn)場感。
最近,谷歌提出了一項旨在解決這一問題的研究。 ChatDirector 可采用靜態(tài)技術 2D 頭像生成 3D 讓大家一起來虛擬人「坐在會議室里」會議,只是看起來有點夸張:
ChatDirector 通過空間視頻頭像、虛擬環(huán)境和自動布局轉換,構建了一個真實的虛擬環(huán)境。
雖然只是初步研究,虛擬形象的嘴型可以準確匹配,但總覺得有點喜劇效果。這部大片評論說不能緊張:這可能會為在線會議創(chuàng)造一個輕松的氛圍。
ChatDirector 這是一項研究原型,它將傳統(tǒng)的視頻會議轉化為使用。 3D 視頻頭像,共享 3D 情境和自動布局轉換。
在此之前,谷歌展示 Visual Captions 和開源的 ARChat,目標是促進即時視覺效果的口頭交流。在 CHI 2024 上展現(xiàn)的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》其中,谷歌介紹了一種新的原型,通過在空間感知共享大會環(huán)境中為所有參與者提供語音驅動的視覺幫助,增強了基于語音驅動的傳統(tǒng)基礎。 2D 視頻會議感受屏幕。
設計思考
谷歌研究人員邀請了來自企業(yè)內部不同崗位的十名參與者,包括軟件工程師、研究人員和研究人員 UX 設計者,共同探討影響虛擬會議質量的因素,分析視頻會議系統(tǒng)與零距離互動的特點,最后將建議提煉成原型系統(tǒng)的五個基本參考標準:
DC1、通過空間感知可視化來增強虛擬會議環(huán)境。同樣的空間對于改善視頻會議的感受非常重要。實用系統(tǒng)應采用典型的零距離會議形式,在指定座位的桌子周圍安排參與者,營造出切實的共同存在感和空間定位感。
DC2、需要提交語音驅動的協(xié)助,而不是簡單地復制實際會議。鑒于演講者在小組對話中的頻繁變化和話題的快速轉換,系統(tǒng)應提供額外的數(shù)字功能,讓參與者跟進對話過程,積極參與會議。
DC3、再現(xiàn)零距離互動視覺效果。開虛擬會議時,參與者通常會在電腦前保持靜止。為了模仿頭部旋轉、眼睛接觸等動態(tài)身體動作,系統(tǒng)應該加強他們在屏幕上的動作。這些動作可以作為更有效的跟進對話的提示。
DC4、盡量減少認知負荷。該系統(tǒng)應避免同時顯示過多的信息,或者要求用戶頻繁操作。這種方法有助于防止分心,并允許參與者更有效地傾聽和說話。
DC5、確保兼容性和可擴展性。系統(tǒng)應適應標準視頻會議設備(如帶攝像頭的筆記本電腦),以促進廣泛應用。這種兼容性還會促進其他生產力功能和工具(如屏幕共享和其他應用)的無縫集成,從而加強系統(tǒng)的整體效用。
空間感知場景渲染 pipeline
為了解決 DC1(虛擬會議環(huán)境可視化通過空間感知增強)和 谷歌首先設計了DC5(確保兼容性和可擴展性)的渲染。 pipeline,將人的視覺呈現(xiàn)重建為 3D 肖像頭像。
谷歌深度推理輕量級神經網(wǎng)絡。 U-Net 上構建了此 pipeline,并且結合自定義渲染方法,這種方法將 RGB 以及深度圖像作為輸入和輸出 3D 肖像頭像網(wǎng)格。
該 pipeline 從深度學習 (DL) 從網(wǎng)絡開始,利用網(wǎng)絡從即時開始。 RGB 在網(wǎng)絡攝像機視頻中推斷深度。然后使用 MediaPipe 自拍分割模型的分割前景,并將處理過的圖像送到圖像上。 U-Net 神經網(wǎng)絡。
在這些圖像中,編碼器逐漸縮小圖像,而解碼器將特征分辨率提高到原始分辨率。來自編碼器的 DL 為了幫助恢復幾何細節(jié),如深層邊界和薄結構,特征與具有相同分辨率的相應層相連。
下圖所示的自定義渲染方法 RGB 以深度圖像為輸入,并重建 3D 肖像頭像。
研究小組開發(fā)了一個視頻會議環(huán)境,可以感知空間, 3D 遠程參與者在會議環(huán)境中顯示 3D 肖像化身。
每一個本地用戶的設備,ChatDirector 會產生:
- 附加由 Web Speech API 音頻輸入識別語音文本
- 由 U-Net 根據(jù)神經網(wǎng)絡推斷 RGB 圖像和深度圖像。
與此同時,當系統(tǒng)接收到每一個遠程用戶的數(shù)據(jù)時,它將被重建 3D 肖像化身,并顯示在當?shù)赜脩舻钠聊簧稀?/p>
為達到視差效果,該團隊根據(jù)使用情況使用 MediaPipe 人臉檢測所檢測到的本地用戶的頭部移動來調整虛擬渲染攝像頭。音頻將被用作輸入語音驅動布局轉換算法,該算法將在下一節(jié)中解釋。
通過數(shù)據(jù)通信 WebRTC 實現(xiàn)。
ChatDirector 系統(tǒng)結構。
一位本地用戶擁有它 3D 視頻會議環(huán)境角度,肖像頭像空間感知。
語音驅動的布局轉換算法
為了解決 DC2(提供語音驅動協(xié)助,超越現(xiàn)實世界聚會的簡單復制)和 DC3(再現(xiàn)零距離互動的視覺線索),研究人員開發(fā)了一種決策樹算法。
根據(jù)正在進行的對話,該算法可以調整渲染場景的布局和化身動作。用戶可以通過接受自動視覺輔助來跟隨這些對話,然后就不需要了。 在DC4(最小化認知負荷)上浪費額外的能量。
對算法的輸入,他們把群聊建模成一系列的語音輪換。
每一刻,每一位參與者都將處于三種語音狀態(tài)之一:
沉默:與會者正在聽別人說話;
與某人交談(Talk-to):與會者正在與特定的人交談;具體來說,通過檢查參與者的名字(他們加入會議廳時的輸入結果),可以測試他們是否在與某人交談。
宣布(Announce):與會者正在和所有人交談。使用關鍵字進行檢查(例如「everybody」、「ok, everybody」),Web 語音 API 這種類型的語音狀態(tài)是自動識別的。
該算法產生了兩個關鍵導出(DC3)來增強視覺輔助。首先是布局狀態(tài),它決定了會議場景的整體可視化。
這種方法包括幾種:
- 「一對一(One-on-One」,為了直接與本地用戶互動,只顯示一個遠程參與者;
- 「兩組對話(Pairwise)」,將兩個遠程參與者并排排列,表達他們的一對一對話;
- 「全景(Full-view)」,默認設置顯示所有參與者,表示一般討論。
ChatDirector 規(guī)劃轉換算法。
算法導出:布局狀態(tài)。從左到右分別是:一對一。(One-on-One)聲音狀態(tài),兩組對話(Pairwise)聲音狀態(tài),全景(Full-view)語音狀態(tài)。
在線視頻會議現(xiàn)在更加逼真,領導和你可以交換眼光。
基于研究團隊 3D 肖像化身渲染能力,通過操縱遠程化身的動作,模擬類似于零距離大會的對視。
它們將化身狀態(tài)(Avatar State)為了控制每一個化身的方向,設置為算法的附加導出。
這一設置中,每一個化身都可以處于兩種狀態(tài):「當?shù)亍範顟B(tài),其中化身旋轉面向本地用戶,「遠程」狀態(tài),其中化身轉動與另一位遠程參與者互動。
定性性能評價:用戶研究
研究小組進行了一項實驗室研究,以評估基于語音布局轉換算法的性能和空間感知會議場景的整體有效性,涉及 16 參與者,分為四個團隊。
研究表明,與傳統(tǒng)的標準視頻會議相比, ChatDirector 與語音處理相關的問題有了明顯的改善,這體現(xiàn)在用戶對注意力轉移輔助的積極評價上。
另外,該團隊還對威爾科克森符號秩進行了調查報告。(Wilcoxon Signed-Rank Test )。
客戶對會議環(huán)境空間感知和語音驅動布局轉換算法的研究結果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)<.05, **: p<.01, *** :p< .001)
此外,根據(jù) Temple Presence Inventory(TPI)評分,以及標準為基礎 2D 與視頻會議系統(tǒng)相比,它提高了并存感和參與性。
Temple Presence Inventory(TPI)數(shù)據(jù)顯示了 ChatDirector 系統(tǒng)性社會存在評級(N=16)。( *:p<.05, **: p<.01, *** :p< .001)<.05, **: p<.01, *** :p< .001)
因為 ChatDirector 以視頻會議室用戶肖像化身為基礎,人像安全問題將成為未來研發(fā)的重中之重。
最后,研究小組表示希望, ChatDirector 在日常計算平臺上,可以激發(fā)先進的感知和交互技術,以提高共同在場的感覺和參與性,不斷創(chuàng)新。
同時,研究人員指出,處理負責任的問題 AI 考慮到它的數(shù)字相似性的含義是極其重要的。因為這樣轉換「用戶的視頻」這可能會導致他們對自己肖像的控制,因此需要進一步的研究和仔細的考慮。
在安排這類工具時,基于用戶的同意和遵守相關道德標準是非常重要的。
這個團隊也提供了一個 ChatDirector 交互式技術演示,在視頻內容中展示更多 3D 視頻示例。
視頻鏈接:https://youtu.beZL48C1Y/mO2rZL
參考鏈接:https://research.google/blog/chatdirector-enhancing-video-conferencing-with-space-aware-scene-rendering-and-speech-driven-layout-transition/
本文來自微信微信官方賬號“機器之心”(ID:編輯:澤南、亞鸝、36氪經授權發(fā)布,almosthuman2014)。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com