火爆的VLA,華為為何不用?
智能駕駛發(fā)展路徑如今已走到分歧路口。
從去年起,VLA成為智駕行業(yè)頻繁提及的詞匯。理想、小鵬、元戎啟行等車企或供應(yīng)商紛紛押注VLA技術(shù)路線,還相繼推出了量產(chǎn)和Demo產(chǎn)品。

而另一邊,蔚來(lái)基于“世界模型”量產(chǎn)了最新的NOP+,華為則發(fā)布了基于WEWA架構(gòu)的ADS 4,更強(qiáng)調(diào)WA(World Model Action)模型。
華為智能駕駛解決方案產(chǎn)品線總裁李文廣和華為車BU CEO靳玉志甚至公開(kāi)表示華為不會(huì)采用VLA的技術(shù)路線,還對(duì)L(Language Model)在智駕技術(shù)上的應(yīng)用提出了質(zhì)疑。
于是我們看到,VLA、NWM、WEWA等技術(shù)詞匯眾多,它們之間有何區(qū)別?哪種方案才是正確的呢?
大熱的VLA究竟是什么
最近大家可能看到很多基于VLA打造的智駕產(chǎn)品評(píng)測(cè),其中一個(gè)容易感知的功能是“語(yǔ)音控車”,比如你可以直接告訴車你的意圖,像左轉(zhuǎn)、右轉(zhuǎn)或者靠邊停車等。
例如理想智駕將其包裝成專屬司機(jī),你能用語(yǔ)音控制車輛行駛,屏幕上反饋的文字也直觀展示了車輛的行為,增強(qiáng)了交互性。
但這并非VLA最核心的能力,VLA也不是語(yǔ)音控車的必要條件。
早在2021年,小鵬就可以通過(guò)語(yǔ)音“使喚”輔助駕駛變道超車。
同樣,你在桌面HMI上看到的車輛推理過(guò)程也不是VLA的核心賣點(diǎn),這只是廠商把因果推理展示給你看,也算是一種交互。
語(yǔ)音輸入和語(yǔ)言輸出都不是VLA的核心能力。
元戎啟行的周光稱:“語(yǔ)音控車只是VLA的基礎(chǔ)能力,最難的是思維鏈(Chain of Thought, CoT)和長(zhǎng)時(shí)序推理,這才是VLA真正的核心能力?!?/p>

同樣,識(shí)別車外的特殊交通識(shí)別指示牌也不是VLA獨(dú)有的能力。
那么,VLA的具體作用是什么,為何還有這么多研發(fā)自動(dòng)駕駛的人押注這條路線呢?
VLA中的V指感知、A是執(zhí)行,中間的L是語(yǔ)言模型(Language Model)。V負(fù)責(zé)感知環(huán)境、A負(fù)責(zé)動(dòng)作執(zhí)行,中間的L類似于“中臺(tái)”,將V感知的內(nèi)容轉(zhuǎn)譯成A執(zhí)行的規(guī)劃和決策。
L轉(zhuǎn)譯的內(nèi)容是自然語(yǔ)言,比如它看到前方有路口,能以自然語(yǔ)言表達(dá)感知內(nèi)容,再結(jié)合車輛狀態(tài),做出行動(dòng)規(guī)劃和決策給A。
所以,VLA具有很好的可解釋性。

第二,正如周光所說(shuō),VLA具有基于思維鏈(COT)的推理能力。這里引用理想自動(dòng)駕駛研發(fā)負(fù)責(zé)人郎咸朋博士的話更直觀:“(VLA)真正發(fā)揮作用的是背后推理的長(zhǎng)思維鏈。如果沒(méi)有強(qiáng)大的L,再好的V和A都無(wú)法發(fā)揮出來(lái)。這跟人與動(dòng)物的區(qū)別很相似。論視覺(jué)能力人比不過(guò)鷹,論行動(dòng)速度比不過(guò)獵豹,但人之所以能稱霸地球,靠的是強(qiáng)大的認(rèn)知和理解能力,而這個(gè)認(rèn)知和理解能力就來(lái)自于人類特有的語(yǔ)言能力。”
但VLA的弊端也較明顯,既然語(yǔ)言模型要將看到的內(nèi)容轉(zhuǎn)述為語(yǔ)言并為決策服務(wù),就涉及一個(gè)挑戰(zhàn)——語(yǔ)言表述的模糊性與空間對(duì)齊問(wèn)題。

例如,車輛看到的和我們想讓車輛執(zhí)行的位置是否一致。這就像我們跟著教程學(xué)做菜,放鹽少許,這里的少許到底是多少?
華為李文廣也有類似質(zhì)疑:“它(VLA)有一個(gè)很大的弱點(diǎn),它對(duì)空間的感知能力不行,因?yàn)槲覀兊能囀且鼍唧w動(dòng)作的,要在空間里面運(yùn)動(dòng),那它在這塊的感知能力不行,就這樣就導(dǎo)致你讓它來(lái)做動(dòng)作的話,其實(shí)我是覺(jué)得,這條路挺危險(xiǎn)的。”

華為靳玉志也表示:“我們不會(huì)走向VLA的路徑,我們更看重WA(World Action),省掉language這個(gè)環(huán)節(jié),通過(guò)信息輸入直接控車,而不是把各種各樣的信息轉(zhuǎn)成語(yǔ)言,通過(guò)語(yǔ)言大模型再來(lái)控制車?!?/p>
華為與蔚來(lái)站在了一起
蔚來(lái)今年基于世界模型打造了最新的NOP+,幾個(gè)月前已全量推送給用戶。
在智能駕駛上,蔚來(lái)采用世界模型(World Model),華為在今年上海車展前也發(fā)布了全新一代架構(gòu)WEWA,其中WE指的是World Engine世界引擎,WA指的就是World Model Action。
蔚來(lái)與華為,在智駕戰(zhàn)略上倒是走到了一起。

我們先看華為的WEWA,WE世界引擎的核心作用類似于云端的“虛擬駕?!?,用AI擴(kuò)散模型生成難例場(chǎng)景,例如鬼探頭、前車急剎等。
華為認(rèn)為,在現(xiàn)實(shí)世界采集這類場(chǎng)景不現(xiàn)實(shí),因?yàn)閳?chǎng)景出現(xiàn)概率低,整體會(huì)很低效。
用AI訓(xùn)練AI,密度是真實(shí)世界的1000倍,效果提升會(huì)更明顯。
第二個(gè)作用是云端仿真,解決長(zhǎng)尾數(shù)據(jù)不足的問(wèn)題。第三個(gè)作用則是生成的數(shù)據(jù)回灌給車端WA模型,做持續(xù)訓(xùn)練與蒸餾,形成“數(shù)據(jù) - 模型”閉環(huán)。
WA更好理解:感知現(xiàn)實(shí)世界,不經(jīng)過(guò)語(yǔ)言層,直接輸出車控軌跡,也可稱之為VA。
蔚來(lái)在去年年中就發(fā)布了NWM,即NIO World Model蔚來(lái)世界模型。它的核心作用就是像人一樣,看到現(xiàn)在,腦補(bǔ)未來(lái)。

世界模型具備對(duì)信息的全景理解力,在想象的維度理解物理規(guī)律并重建世界。
它能根據(jù)感知輸入的信息,在100毫秒內(nèi),推演216種可能發(fā)生的軌跡、尋找最優(yōu)路徑;還能基于3秒鐘視頻的Prompt輸入,生成120秒想象的視頻。
在NWM中,語(yǔ)言只是輸入之一,例如你也可以通過(guò)語(yǔ)言“使喚”車輛,它也能展現(xiàn)出類司機(jī)Agent效果。
目前來(lái)看,行業(yè)里對(duì)VLA技術(shù)路線存在爭(zhēng)議。
不只是華為、蔚來(lái)派,在上個(gè)月的2025世界機(jī)器人大會(huì)上,宇樹(shù)科技王興興也公開(kāi)談?wù)摿薞LA,他稱:“ VLA相對(duì)還是一個(gè)傻瓜式的架構(gòu),自己對(duì)VLA模型抱有比較懷疑的態(tài)度?!?/p>
拿體驗(yàn)說(shuō)話
看到這里,你應(yīng)該對(duì)這些熱門詞的含義有了大致了解。
誰(shuí)更先進(jìn)、更強(qiáng)不需要我們?cè)u(píng)判,畢竟成千上萬(wàn)名從事AI、自動(dòng)駕駛的專家都無(wú)法形成統(tǒng)一共識(shí),我們作為“外行”豈能輕易下定論。
但這對(duì)消費(fèi)者來(lái)說(shuō)重要嗎?其實(shí)根本不重要。目前基于世界模型的蔚來(lái)NOP+、基于VLA技術(shù)的理想AD Max,在體驗(yàn)上都有缺陷。
我們只需要看表現(xiàn),用實(shí)踐檢驗(yàn)真理。
END

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com