清華學生再次登Nature研究:三種解決自動駕駛“稀疏災難”的方法
清華同學,自動駕駛最新研究成果再次登陸Nature。
去年,Nature雜志罕見地將封面“模擬效率提高2000倍”給自動駕駛研究——這也是這個團隊的成就,成為自動駕駛圈熱議的重大突破,智能汽車參考也詳細介紹了。
在Nature子刊上發(fā)表了這項新研究《Nature Communications》,關注更底層、更核心的AI技術難題:
稀疏災難。
討論了什么?
有點“高深莫測”,稀疏是什么東西,怎么會成為自動駕駛的災難?
嚴格的定義如下:
安全關鍵事件在高維變量空間中的稀疏程度。
通俗地說就是,在用于給AI司機的訓練數(shù)據(jù)中,真正有用的并不多。。
比如汽車公司和自動駕駛公司經(jīng)常說自己有幾百萬公里的實測里程,或者模擬測試里程超過1億,但都避免了關鍵問題:
在這些信息中,真正提高系統(tǒng)能力的關鍵是什么?
舉例來說,自動駕駛在平直無車的高速公路上檢測數(shù)百萬公里,可能沒有在城市中遇到一個“鬼探頭”那么大。
關鍵場景的查漏補缺,業(yè)界通常稱之為“長尾場景”。
現(xiàn)在一般有兩種解決方案,一種是大力創(chuàng)造奇跡,盡可能多的汽車,盡可能多的道路,期望最大限度地覆蓋各種罕見的交通狀況,讓自動駕駛能力從量變積累到質變飛躍。
事實上,包括現(xiàn)在已經(jīng)成為行業(yè)共識的端到端技術體系,本質上仍然是通過這種思維解決問題,只是將整個自動駕駛過程中更多環(huán)節(jié)的權限移交給AI。
另一種是在有限的計算率和參數(shù)限制下,用人為手寫的規(guī)則,在自動駕駛的極限前提下,通過降級或剎車來覆蓋自動駕駛的“安全殼”。這是目前大多數(shù)量產(chǎn)智能駕駛的方法,但缺點是顯而易見的:系統(tǒng)決策僵硬僵化,泛化性差,感覺更差。
不知道大家有沒有注意到,無論是哪種方式,也沒有在AI算法層面分析“稀疏”的本質,自然無法提出有針對性的解決方案。
在論文開頭,作者直接指出了這一問題:
雖然在公共道路上積累了數(shù)百萬英里的檢測里程,但自動駕駛仍然很難有效處理頻繁發(fā)生的“安全關鍵事件”。可以商業(yè)使用的L4永遠不會落地。
因此,“稀疏”被稱為“自動駕駛災難”。
新研究處理稀疏度災禍方法是打開AI黑箱,嘗試用數(shù)學來表達稀疏的本質,并提出三種相應的解決方案。
怎么辦到的
具體而言,作者認為傳統(tǒng)中比較重視。安全性關鍵事件的概率分布,實際上并不是核心。
相反,真正的挑戰(zhàn)在于如何定義高度復雜的場景。安全性關鍵條件的稀有性,例如,不同的天氣條件,不同的道路基礎設施,以及道路使用者的行為差異…
這些安全的關鍵情況可能會因為各種原因而發(fā)生,比如誤識別未知物體,或者誤預測周圍行人的運動軌跡...這些事件發(fā)生的概率很低,大多數(shù)可用數(shù)據(jù)只包含罕見的事件信息。
因為罕見事件的珍貴信息可能會被廣泛的正常數(shù)據(jù)所掩蓋,所以深度學習模型實際上很難有效地學習這些安全關鍵事件。
重點來了。深度學習的本質是通過優(yōu)化目標函數(shù)對具有特定分布的數(shù)據(jù)的期望,從而獲得神經(jīng)網(wǎng)絡的最佳參數(shù)。
為解決這一優(yōu)化問題,最常用的方法是基于梯度下降,在每一個訓練步驟中使用一批數(shù)據(jù)。蒙特卡洛估計來估算梯度。
但是,隨著安全關鍵事件的罕見性增加,估計方差會呈指數(shù)級增長,造成“稀疏災難”。
有三種解決方法。
首先是有效地訓練使用更多罕見的事件信息。
這種方法側重于數(shù)據(jù),專門利用與罕見事件相關的數(shù)據(jù)來不斷提高系統(tǒng)能力。但是定義和識別罕見事件就沒那么簡單了。因為它依賴于特定的問題目標函數(shù),受到安全關鍵事件時空復雜性的影響。更重要的是,學術界仍然缺乏理論基礎來指導罕見事件的數(shù)據(jù)利用。
對這一安全驗證任務,團隊以前試圖通過密集深度加強學習。 (D2RL) 處理方法(即登上Nature封面的研究),實驗結果顯示,D2RL 能顯著降低策略梯度估計的方差,這就是處理方差。 CoR 這是一個重要步驟。
其次是提高機器學習模型的泛化和推理能力。實際上,作者在這里討論的就是AGI問題,目前在自動駕駛領域最先進的嘗試就是端到端模型。
人類可以在有限的經(jīng)驗下學會駕駛(通常不到100小時的練習),所以未來的AI可能會克服它,而不依賴大量特定的任務數(shù)據(jù)。 CoR。AI需要同時具備自下而上的推理(感知數(shù)據(jù)驅動)和自上而下的推理(認知期望驅動)能力。
可參考大型語言模型 (LLM) 以及視覺語言模型 (VLM) 該方案通過運用完全監(jiān)管微調、情景學習、思路鏈等技術,展現(xiàn)了其基本模型的優(yōu)異泛化和推理能力。
第3種方法,是通過減少安全關鍵事件的發(fā)生,減輕CoR對整個系統(tǒng)的影響。
說白了,就是盡量減少系統(tǒng)對情景和目標的錯誤檢測。有很多具體的方法,比如結合傳統(tǒng)的深度學習模式和強化學習思想,訓練AI“預防性駕駛”能力、多傳感器車路協(xié)同融合,車云一體化方案等等。
三種處理 CoR 潛在的問題方法,從不同的角度出發(fā)。但作者強調,這些方法并不相互排斥,結合起來會有很大的潛力。
意義何在?
CoR的影響不僅僅局限于感知階段,而是滲透到自動駕駛的每一個過程中,一步一步積累起來。一旦出現(xiàn)極低概率的安全關鍵情況,可能會導致嚴重后果。
例如,單幀中物體的分類錯誤可能不是什么大問題,而是一系列幀。(clips)這類事件的發(fā)生概率遠低于任何單一錯誤的發(fā)生概率,因此,其中多個物體分類錯誤可能導致嚴重的錯誤識別和錯誤判斷, CoR 問題越來越嚴重。
從軌跡預測的角度來看,一個小小的預測錯誤可能會導致報告或遺漏,從而導致過于謹慎的駕駛決策或過于自信的決策導致事故。因此,行為預測模型必須有效處理容易發(fā)生CoR的罕見事件。

在決策階段,由于過去現(xiàn)實世界數(shù)據(jù)的缺乏和隨機性,深度學習模型很容易受到CoR的影響,這可能會導致戰(zhàn)略梯度估計的嚴重差異。
自然,由于CoR的出現(xiàn),理論上自動駕駛的安全系數(shù)需要數(shù)億公里才能評估出來,這是脫離實際的,效率低下的,這也是為什么模擬測試成為主流的原因。但問題是,目前很多方法僅限于處理目標有限的短場景,無法捕捉現(xiàn)實世界安全關鍵事件的所有復雜性和多變性。
所以CoR雖然不是一個看得見、摸得著的bug,但是危害深深地滲透到自動駕駛的每一個環(huán)節(jié)。
這項新研究最大的意義在于解釋了CoR的數(shù)學性質,并提出了幾種可能的解決方案。
介紹了作者團隊
這項研究由美國密西根大學和清華大學的研究人員共同完成。
一個作品,通訊作者劉向宏現(xiàn)任美國密歇根大學講座教授、Mcity主任(由密歇根大學主導的智能交通模擬城市項目)博士。
作為滴滴前首席科學家,他在國內(nèi)最為熟悉。
劉向宏1993年畢業(yè)于清華大學汽車工程系,2000年在威斯康星大學麥迪遜分校獲得博士學位。
作為交通工程領域論文引用率最高的學者之一,劉教授發(fā)明了SMART-Signal系統(tǒng),該系統(tǒng)在2012年獲得了美國國家專利,并在明尼蘇達州和加州得到了廣泛的應用。
本文共同作品,通訊作者封碩,現(xiàn)任清華自動化系助理教授,曾經(jīng)是劉向宏教授的Traffic 作為博士后、研究員的Lab。

清華大學自動化系獲得封碩本科和博士學位,研究方向為優(yōu)化控制、互聯(lián)、自動駕駛評估和交通數(shù)據(jù)分析。
從封碩和劉向宏教授團隊過去公布的成果和研究方向來看,他們不斷推進自動駕駛安全驗證評估和模擬測試的優(yōu)化和完善。
例如,我們之前報道的D2RL,就是通過強化學習方法的目的來生成高價值的數(shù)據(jù),從而提高模擬測試的效率。
有趣的是,無論是自動駕駛還是智能汽車行業(yè)從工程實踐出發(fā),還是大學學者從數(shù)學原理上抽象總結,都指向了AGI。、端到端,數(shù)據(jù)驅動路徑。
所以端到端會是自動駕駛的最佳解決方案,還是會是自動駕駛的“歷史的終結”?
本文來自微信微信官方賬號“智能汽車參考”(ID:AI4Auto),作者:賈浩楠,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




