“自動駕駛”遇瓶頸?機會與未來將如何?清華教授如何看!
來源丨數(shù)字時氪(ID:digital36kr)
作者丨秦明
從80年代跨越到90年代,相比于知識工程與專家系統(tǒng),人工神經(jīng)網(wǎng)絡不溫不火,很多人認為它并沒有什么實用價值。
1992年8月,鄧志東進入清華大學從事博士后研究,主要做基于人工神經(jīng)網(wǎng)絡的誤差反向傳播算法的性能改進,以及強化學習等方面的研究。
他回憶到,那個時候?qū)<蚁到y(tǒng)嚴重依賴于人工設計、缺乏學習能力等局限還沒有被人們完全意識到。計算機的算力與性能也不能支撐大型神經(jīng)網(wǎng)絡模型面向大規(guī)模數(shù)據(jù)集的訓練與推斷,人工神經(jīng)網(wǎng)絡也幾乎不能應用于圖像處理與計算機視覺領域。
突破與創(chuàng)新不斷出現(xiàn),也是在1992年,李開復設計了支持語音識別的語音助理,即Siri的前身;IBM的AI“深藍”機器人于1997年第一次戰(zhàn)勝了國際象棋冠軍卡斯帕羅夫……
自1994年留校以來,鄧志東做了很多領域的研究,包括自學習控制、移動機器人技術(shù)、神經(jīng)網(wǎng)絡、強化學習、復雜網(wǎng)絡理論、虛擬現(xiàn)實、計算生物學、無線傳感器網(wǎng)絡、計算神經(jīng)科學、自動駕駛技術(shù)等。不知不覺中,他已經(jīng)在人工智能領域探索了30個年頭。
時代的進步,歷史的偶然。上世紀的邊緣探索,如今看來已經(jīng)成為主流并引領未來。
2012年,以深度神經(jīng)網(wǎng)絡為代表的AI技術(shù)飛速發(fā)展,各大科技巨頭紛紛涌入,押注人工智能的未來。2015年,以深度卷積神經(jīng)網(wǎng)絡為核心的計算機視覺技術(shù)拉開感知智能時代的序幕;2019年,以大模型為代表的自然語言方向讓AI跨入新的時代。
鄧志東告訴36氪,每一項技術(shù)突破的背后都有一群追求真理的科學家,以及面向落地應用場景的大量嘗試性探索。自動駕駛是他近10年多的重點研究領域,也是目前最有技術(shù)挑戰(zhàn)的落地應用場景之一。
核心技術(shù)難點之一在于汽車如何去理解復雜的動態(tài)駕駛場景(DDS),保證自動駕駛的安全性。
鄧志東表示,人類駕駛是建立在認知理解基礎之上,依靠可理解的視覺感知和大腦實現(xiàn)決策;相比之下,自動駕駛難以在復雜動態(tài)環(huán)境中獲得人類水平的駕駛知覺、預測與認知判決能力。
也就是說,它難以對道路、路口、停車位以及各種交通參與者復雜變化行為所組成的一幕幕動態(tài)場景,做出滿足安全性要求的綜合性的關聯(lián)感知、趨勢預測與自主判決。
想真正意義上實現(xiàn)自動駕駛,還需不斷從基礎理論、軟硬件與系統(tǒng)、政策、法規(guī)、倫理、生態(tài)等層面完善與突破。
那么當下自動駕駛技術(shù)發(fā)展的現(xiàn)狀和瓶頸是什么?科學家團隊正在解決哪些關鍵技術(shù)問題?市場中大家的共識與分歧是什么?未來還有哪些商業(yè)機會?以及產(chǎn)學研過程中有哪些問題要解決?
近期,在第一屆專精特新技術(shù)創(chuàng)新大會暨科學家創(chuàng)新創(chuàng)業(yè)論壇前夕,36氪數(shù)字時氪專訪了清華大學人工智能研究院視覺智能研究中心主任鄧志東教授,聊了聊上述問題,他結(jié)合過往觀察給出了心中的看法。
談瓶頸:復雜場景的不可理解性
2009年初,在國家重點項目的支持下,鄧志東開始了自動駕駛技術(shù)研究——視聽覺信息的認知計算。走過很多彎路,踩了很多坑,這是鄧志東對過去的一些描述。
鄧志東團隊是國內(nèi)最早使用純視覺方法進行自動駕駛技術(shù)研究的團隊之一。他談到,當時主要是基于攝像頭、激光雷達、毫米波雷達等視覺感知設備,進行駕駛場景與目標的感知,同時陸續(xù)從硬件、算法、軟件、系統(tǒng)集成、路測,甚至車輛改裝層面做了大量技術(shù)探索。
改裝日產(chǎn)奇駿、別克昂克雷,利用長安CS 35與CS 55全線控車,從自動駕駛原理性、技術(shù)性驗證到后面的路測實驗樣車,鄧志東至少主持研發(fā)了4臺自動駕駛汽車。
天天做實驗,壓力巨大,是團隊常有的狀態(tài)。那時團隊走遍了北京的東南西北邊緣地帶(北面的北清路、溫泉地區(qū),西面的世博園,南面的良鄉(xiāng),東面的燕郊),也在北京的5、6環(huán),以及G7高速公路的部分路段進行了閉環(huán)測試。
鄧志東回憶到,當時國內(nèi)自動駕駛普遍采用循線方法,為了驗證基于視覺自主感知的駕駛效果,團隊直到2014年,一直沒有使用任何厘米級精度的RTK差分GPS以及高清地圖。
剛開始研究時,深度學習還沒有發(fā)展起來,采用傳統(tǒng)的計算機視覺方法,漏檢誤檢會比較多,僅可做到70%-80%的準確率,而且程序?qū)崿F(xiàn)中還加了很多閾值邏輯,通用性與環(huán)境適應性不好。鄧志東告訴36氪,那時候承受了極大的壓力,一切都需要摸索中。
如今,基于深度學習的視覺感知方法在性能上有了突破,但與正常成年人類駕駛相比,在感知上仍有很大的差距。
行百里者半九十,自動駕駛是典型的長尾應用場景。相比于人類駕駛平均10萬公里才會有一次小的事故,目前L1、L2級別的自動輔助駕駛對應的路測里程數(shù)最低要求在20萬、100萬公里。
鄧志東談到,目前自動駕駛的難題在于感知的不安全與不可靠性,核心是對復雜場景與目標的不可理解性。過去研究與實踐中大多僅孤立考慮單一實體屬性,如單個目標本身的檢測、分割、跟蹤與識別,以及軌跡補全、行為預測等,如今需要關注不同目標實體之間相互關系的學習理解,在時空相互關系中去理解特定的目標。
5個9或99.999%的識別率已經(jīng)是比較好的狀態(tài)了,但要想真正解決安全性,漏檢誤檢率還是要小于十萬分之一或百萬分之一,也就是需要7個9或8個9,利用數(shù)據(jù)驅(qū)動方法很難達到這么高的精度。
鄧志東告訴36氪,這是乘以10萬公里仍有1次或0.1次漏檢的客觀應用需求。因此繼續(xù)往深處走,需要的是算力與數(shù)據(jù)的指數(shù)級增長,但關鍵還是算法顛覆性的創(chuàng)新。
車聯(lián)網(wǎng)V2X、車路協(xié)同也是市場關注的熱點。安全避險是強驅(qū)動力,鄧志東表示,除非網(wǎng)聯(lián)或協(xié)同能聚焦賦能關鍵性安全問題的解決,若僅是解決舒適性功能,則可能會額外增加不安全因素,也會造成投入產(chǎn)出的失衡。
總之,當前國內(nèi)的技術(shù)研究與特斯拉的單車智能還是有不少差距,國內(nèi)企業(yè)應該抓一些基礎技術(shù)問題的突破,一方面需要自上而下加大資本、人力等投入;另一方面市場也要給予初創(chuàng)企業(yè)更多的時間。
談突破:多目標關系的語義理解
自動駕駛的發(fā)展是深度學習、AI芯片、標簽大數(shù)據(jù)、場景應用等技術(shù)的混合產(chǎn)物,是一種偶然,也是一種必然。
國內(nèi)最早是在1992年,國防科技大學研制的第一輛無人駕駛實驗汽車;2016年之前,我國自動駕駛處于科研主導、產(chǎn)業(yè)探索初期;2016年是一個爆發(fā)點,大量資本涌入,科研主導逐漸演變?yōu)槭袌鲋鲗?,巨頭卷入,自動駕駛創(chuàng)新企業(yè)迎來蓬勃發(fā)展。
那一年,滴滴組建自動駕駛團隊,小馬智行與Auto X也相應成立;隨后專注于RoboTaxi和商用車應用場景的景馳、Roadstar、文遠知行、元戎啟行、輕舟智航也相繼入局,自動駕駛的風口開啟。
如今,伴隨著RoboTaxi批量商用落地,自動駕駛商業(yè)路徑呈多元化發(fā)展。
市場層面上,目前乘用車量產(chǎn)車型已實現(xiàn)的自動駕駛功能主要集中在L2級別,個別車企在推進L2+、L2++級別,但還未有L3級別的躍進;在部分商用封閉場景,如港口、礦山以及RoboTaxi,自動駕駛公司選擇從L4級別開始發(fā)力,尋求跨越式突破。
鄧志東談到,低速L4更多的是商業(yè)模式的創(chuàng)新。然而是否需要經(jīng)歷L3這個過程,行業(yè)仍是有爭議的,傳統(tǒng)車企基于安全性與成本的考量,希望有循序漸進的過程,但由于L3相關政策、法規(guī)比較難推進,跨界的科技企業(yè)期望直接跨越到L4。
人類駕駛是利用認知指導、在語義理解基礎之上完成汽車的動態(tài)駕駛?cè)蝿眨―DT)的。
語義本質(zhì)是一種知識,是人類可理解與可交流的,包含的信息豐富多樣。在知識邏輯體系里面,不能違背常識。違背了語義關系,就是違背了常識。在自動駕駛語義環(huán)境中,機器要學會去理解自車與道路、他車、行人、信號燈、交通標識之間的關系,需要利用常識去解決長尾問題,并做出最優(yōu)的預測、決策與規(guī)劃。
目前,多目標實體相互關系的語義理解是鄧志東團隊正在突破的課題之一。
具體包括在基于數(shù)據(jù)驅(qū)動的視覺深度學習模型中,如何增加對規(guī)則節(jié)點的學習,對關系的學習,對知識推理的應用,使得新一代人工智能模型具有可解釋性與高魯棒性。鄧志東談到,團隊正嘗試將黑箱模型轉(zhuǎn)變?yōu)榛蚁浠虬紫洌M管單段模塊本身可能是黑箱,但若實現(xiàn)塊與塊之間的邏輯連接與可解釋性,則有非常大的研究與應用價值。
舉一反三的少樣本與跨模態(tài)、跨場景的學習能力也是其中研究的重點。不同于過去二維圖像、三維點云等低維原始數(shù)據(jù)的聚類方法,鄧志東團隊目前聚焦在高維特征空間上的深度無監(jiān)督學習與深度自監(jiān)督學習,力圖引入知識及知識推理來解決小樣本學習、跨場景學習問題。
他舉了一個很形象的例子,比如只給AI模型看5只不同形態(tài)的“標簽”貓,其他類型的貓僅靠機器自動用深度聚類方法尋找標簽學習,已經(jīng)是完全可以做到的,且進展非常大。
鄧志東告訴36氪,人與人之間、人與環(huán)境之間以語義彼此交流,本質(zhì)是相互間可以理解、不違背常識,自動駕駛應該關注目標的內(nèi)涵、外延及其與彼此之間的語義交互關系。
當然,數(shù)據(jù)驅(qū)動與知識驅(qū)動的結(jié)合已成為共識,科學研究過程中既要有數(shù)據(jù)驅(qū)動的黑箱,也需要知識驅(qū)動的白箱,兩者在邏輯上互相關聯(lián),具有可解釋性。
談創(chuàng)新:科技成果難以直接轉(zhuǎn)化成產(chǎn)品
2016年市場開啟時,創(chuàng)始玩家多為高校出去創(chuàng)業(yè)的學生,鄧志東回憶到,電動化首先帶來一波沖擊,隨后傳統(tǒng)車企被迫卷入,其次智能化又引起更大的沖擊。蔚小理等研發(fā)新能源汽車增加智能化也是市場需求,趨勢明顯。
自動駕駛產(chǎn)業(yè)鏈可分為硬、軟與系統(tǒng)等,主要包括車載攝像頭、激光雷達、4D成像毫米波雷達、高精度定位定姿設備、AI芯片、計算平臺、域控制器、執(zhí)行機構(gòu)、底盤、AI超算離線訓練平臺、5G移動通信設備、邊緣計算、云服務平臺、智能路網(wǎng)新基建等,以及高精度地圖、操作系統(tǒng)、AI算法與軟件等,涉及感知層、決策層、規(guī)控層等。
從玩家角色看,需要汽車制造商、零部件供應商、車載計算平臺開發(fā)商、自動駕駛解決方案提供商、出行服務供應商等多方市場主體參與。
鄧志東告訴36氪,國內(nèi)市場主體目前在自動駕駛的各個細分賽道均有全方位的布局。對于新入局者,除非真有一些 “殺手锏” 的東西,要不很難脫穎而出,去分得一杯羹。未來的機會更多還是在產(chǎn)業(yè)鏈上游的關鍵零部件或下游的模式創(chuàng)新上,這也是價值鏈的高地。
在專精特新的背景下,科學家創(chuàng)業(yè)或成果轉(zhuǎn)化也成為常態(tài)。鄧志東談到,對于從事前沿技術(shù)突破的科學家,他的后面非常需要一個高效的工程師團隊來支撐,也需要企業(yè)家來主導成果的二次開發(fā)與市場化運作,而這些成果轉(zhuǎn)化要素的整合都需要資本的介入。
尤其自動駕駛領域?qū)儆诖笙到y(tǒng)工程,其中不能有任何短板,一個好的源頭創(chuàng)新思想必須經(jīng)過各種各樣的試錯實驗、技術(shù)驗證和持續(xù)的性能迭代。
成立于1999年的 Mobileye 是典型的科學家創(chuàng)業(yè)企業(yè),創(chuàng)始人Amnon Shashua 原是以色列希伯來大學的計算機科學教授,創(chuàng)業(yè)8年,2007年才推出第一款輔助駕駛產(chǎn)品。2017年被英特爾收購,如今估值已達500億美元。1992年成立的Boston Dynamics (波士頓動力) 也來自于科學家創(chuàng)業(yè),創(chuàng)始人及CEO Marc Raibert曾任CMU與MIT副教授,都屬于那種令投資人既愛又怕的創(chuàng)業(yè)者。
鄧志東談到,無論是Mobileye ,還是像波士頓動力這類成立30年仍未盈利的前沿技術(shù)公司,中國現(xiàn)實條件下很難存在此類模式的科學家創(chuàng)業(yè)企業(yè),原因之一在于從上到下的資本都很難去支持如此長線的投資。
不過,投資人對于高精尖項目的選擇性投資,反而更需要科學家對技術(shù)底層邏輯與演進的科學視野及判決。
高校是源頭創(chuàng)新,源頭科技成果并非可以直接轉(zhuǎn)化成商用產(chǎn)品,這是過去存在的嚴重誤區(qū)。
鄧志東告訴36氪,高校的科技成果轉(zhuǎn)化應主要依靠推動與發(fā)展發(fā)達的資本來融合主導。一般而言,中間包含二次轉(zhuǎn)化,三次轉(zhuǎn)化,市場反饋迭代等,投入其實是非常大的,對此要有清醒的認知。同時,在官產(chǎn)學研用金的大背景下,科學家要去解決真問題,才能夠在成果既要落地,學術(shù)研究又需要很前沿之間尋求平衡。
談未來:技術(shù)成熟后可快速降維應用
鄧志東表示,自動駕駛未來突破點在于可解釋的AI模型與商業(yè)模式的創(chuàng)新。
他談到,目前產(chǎn)業(yè)內(nèi)基本形成以美國為代表的“單車智能”路線和以中國為代表的“單車智能+車路協(xié)同”路線。國內(nèi)的優(yōu)勢在于可以先做政策試點,通過以點帶面,小步快跑,在多樣化應用場景下形成獨特優(yōu)勢。
政策層面上,截至2021年11月,全國已有38個省/市出臺了路測管理細則,先后建設了70個測試示范區(qū),開放了5200多公里測試道路,發(fā)放了1000余張測試牌照。
另外,2022年8月1日,深圳率先實施了《深圳經(jīng)濟特區(qū)智能網(wǎng)聯(lián)汽車管理條例》地方法規(guī);8月8日重慶、武漢“雙城”首次啟動了全車無安全員的自動駕駛商業(yè)化付費出行服務試點,開始試水全無人、公開道路、商業(yè)化收費的規(guī)?;疪oboTaxi出現(xiàn)服務,使中國的自動駕駛商業(yè)化運營走在世界前列。
可見,產(chǎn)業(yè)政策積極引導,安全監(jiān)管穩(wěn)步推進,市場主體主動參與,產(chǎn)業(yè)生態(tài)正在不斷完善,合力支撐正在持續(xù)發(fā)力,鄧志東表示。
在從L2自動輔助駕駛邁向L3+自動駕駛過程中,鄧志東告訴36氪,一對多邊云接管將成為一個有效的技術(shù)演化路徑。按照發(fā)展邏輯,安全員從主駕到副座,副座到后座,后座到邊云接管的演進過程中,未來再經(jīng)過持續(xù)的技術(shù)迭代,邊云安全接管員通過數(shù)字孿生平行世界的AI接管預測,逐步實現(xiàn)一對一,一對十,一對一百的接管照看,并最終過渡到 L4 級別的完全無人駕駛。
一對多邊云接管降低了人力成本,實現(xiàn)了可持續(xù)發(fā)展的盈利閉環(huán)與商業(yè)模式,當共享無人駕駛汽車可滿足一個城市的出行服務需求時,機動車絕對數(shù)量將會大大減少,目前很多交通難題都會迎刃而解。
未來,隨著自動駕駛技術(shù)的成熟,其中涉及的大量共性關鍵技術(shù)可以拿來降維應用,包括高價值的視覺感知技術(shù),這樣也能很好地解釋為什么特斯拉會積極轉(zhuǎn)到人形機器人的研發(fā)。
版權(quán)說明:
本文僅代表作者個人觀點,版權(quán)歸原創(chuàng)者所有。部分圖片源自網(wǎng)絡,未能核實歸屬。本文僅為分享,不為商業(yè)用途。若錯標或侵權(quán),請與我們聯(lián)系刪除。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com