近日,英偉達(dá)GTC2025正式開幕。
首日,作為國內(nèi)高階智駕的主要代表,理想汽車和元戎啟行都帶來了其最新智駕方案介紹,即VLA。
此外,元戎啟行同步展示了公司的最新戰(zhàn)略布局RoadAGI,并發(fā)布道路通用人工智能平臺——AISpark。
左:理想汽車賈鵬《VLA:邁向自動駕駛物理智能體的關(guān)鍵一步》
右:元戎啟行周光《從智能駕駛到AGI:下一代自動駕駛技術(shù)的演進(jìn)》
01.為什么要做VLA
作為國內(nèi)為數(shù)不多高階智駕方案供應(yīng)商,元戎啟行在過去的時間里量產(chǎn)超過了4萬輛車。今年預(yù)計推出超10款車型,目標(biāo)為20萬輛,年中即量產(chǎn)VLA。明年目標(biāo)為50萬輛。隨著規(guī)模的擴(kuò)大,元戎啟行發(fā)現(xiàn)當(dāng)前端到端無法解決的痛點,于去年9月開始VLA研發(fā)工作,進(jìn)一步提升城市高階體驗。
對比來看,周光認(rèn)為VLA的優(yōu)勢主要在三個方面。
一是所有的組件都會被標(biāo)記化,同時兼容LLM模型,支持ScalingLaw。
二是VLA模型擁有思維鏈,推理能力增強。比如在應(yīng)對復(fù)雜路況的時候,可以通過識別道路標(biāo)識來進(jìn)行判斷,是否進(jìn)行路線調(diào)整,速度調(diào)整。并且VLA推理步驟還可以實現(xiàn)透明化,支持長時序的推理能力,這在自動駕駛中非常重要。同時通過強化學(xué)習(xí)進(jìn)行后訓(xùn)練,判斷是否符合物理規(guī)則。
三是VLA可以更接近人類駕駛員的習(xí)慣。
理想汽車則主要對比當(dāng)前已經(jīng)量產(chǎn)的快慢系統(tǒng),即視覺語言模型VLM+端到端E2E。理想汽車在此技術(shù)上推出車位到車位的高階智駕功能。
對于快慢系統(tǒng),賈鵬提到目前主要有四大痛點。
一是兩者均為獨立的系統(tǒng),雖然通過異步聯(lián)合訓(xùn)練,兩者可以協(xié)同工作。但兩者運行的頻率并不相同,整體的聯(lián)合訓(xùn)練非常困難。
二是理想汽車采用的是開源的VLM模型,其采用了大量互聯(lián)網(wǎng)內(nèi)容進(jìn)行訓(xùn)練,但在3D空間理解方面存在不足。雖然理想汽車進(jìn)行了一定優(yōu)化,但其上限存在一定短板。
三是受制于自動駕駛芯片帶寬、算力,無法通過繼續(xù)提升參數(shù)量來優(yōu)化VLM體驗。
四是在如今Transformer架構(gòu)下,難以處理人類駕駛行為的多模態(tài)性。
因此,元戎啟行和理想汽車模型的重點都放在了VLA模型上。
02.VLA架構(gòu)解析
此前NE時代已經(jīng)針對元戎啟行VLA架構(gòu)進(jìn)行過闡述,詳情請見《2025智駕VLA上車,元戎啟行率先搶跑》,本文不再詳細(xì)展開。
理想MindVLA中所有的模塊都是全新設(shè)計,并非只是簡單的將E2E和VLM模型簡單的結(jié)合在一起,這也就意味著快慢系統(tǒng)不能歸結(jié)為VLA。在MindVLA中,3D空間編碼器通過語言模型和邏輯推理結(jié)合在一起后給出合理的駕駛決策,并輸出一組對周圍環(huán)境和自車駕駛行為的編碼,即actiontoken,最終通過diffusion進(jìn)一步優(yōu)化出最佳的行駛軌跡。整個模型的推理過程均發(fā)生在車端,并且做到實時運行。
理想汽車MindVLA,來源:GTC2025
賈鵬從6個關(guān)鍵技術(shù)點詳細(xì)的介紹了MindVLA的設(shè)計和訓(xùn)練過程,包括其3D推理空間理解能力是如何獲得的,如何從零設(shè)計和訓(xùn)練語言模型使其具備駕駛知識和推理能力,diffusion時如何與語言模型結(jié)合在一起的,以及如何解決VLA在車端芯片的實時推理。
在解決3D表征方面,理想汽車發(fā)現(xiàn)3D高斯是一個極其優(yōu)良的中間表征,不僅具備出色的多尺度3D表達(dá)能力,同時還可以承載豐富的語義,更重要的是可以通過RGB進(jìn)行自監(jiān)督訓(xùn)練,從而利用海量的真實數(shù)據(jù)獲得一個優(yōu)秀的3D表征。
具體來看,理想汽車采用的是自監(jiān)督訓(xùn)練得到高斯表征,從而解決3D表征難題。之后,為了解決讓LLM增加具備3D空間理解能力,理想汽車在模型的預(yù)訓(xùn)練階段加入大量的相關(guān)數(shù)據(jù)。
為了應(yīng)對車載芯片算力和內(nèi)存帶寬受限的難題,理想汽車在全新的模型中通過稀疏化來解決。稀疏化可以實現(xiàn)模型容量擴(kuò)容的同時,不會大幅度增加推理負(fù)擔(dān)。
賈鵬介紹,理想汽車通過兩個維度實現(xiàn)稀疏化。一是采用了MoE架構(gòu),通過多個專家實現(xiàn)模型擴(kuò)容,從而保證參數(shù)量不會大幅增加。而是引入了稀疏注意力進(jìn)一步提升稀疏化率,提升端側(cè)的推理效率。同時賈鵬提到,在新的基座模型訓(xùn)練中,理想汽車重點去尋找最佳數(shù)據(jù)配比,融入大量的3D數(shù)據(jù)和自動駕駛相關(guān)的圖文數(shù)據(jù),并減少了文史類數(shù)據(jù)的比例。
最后為了進(jìn)一步激發(fā)模型的3D空間理解和推理能力,理想汽車加入了未來幀的預(yù)測生成和稠密深度的預(yù)測等訓(xùn)練任務(wù),從而訓(xùn)練模型去學(xué)習(xí)人類的思考過程,并自主切換快思考和慢思考。
在慢思考模式下,模型會經(jīng)過思維鏈CoT再輸出actiontoken,為了提升實時性,理想汽車采用了固定且簡短的CoT模板。在快思考模式下,模型則不需要經(jīng)過CoT就可以直接輸出actiontoken。
另外,理想MindVLA還有一個亮點,在于多模態(tài)交互,即用戶可以直接與模型進(jìn)行對話,從而實現(xiàn)指令下達(dá)。為了實現(xiàn)該功能,理想汽車?yán)胐iffusion將actiontoken解碼成最終的駕駛軌跡。在diffusion模型中,理想汽車不僅生成自車的軌跡,還預(yù)測其他車輛和行人的軌跡。此外,借助diffusion模型還可以根據(jù)外部的條件輸入改變生成結(jié)果,比如用戶可以通過直接說理想同學(xué)開快點或者開慢點,來實現(xiàn)行車速度的改變。
對于diffusion模型生成效率低的問題,理想汽車采用基于常微分方程的ode采樣器大幅加速的diffusion生成過程,使其在2-3步內(nèi)就可以生成穩(wěn)定的軌跡。
03.VLA的挑戰(zhàn)是什么
首先是實時響應(yīng)的能力。賈鵬直言,想讓VLA實現(xiàn)超過10fps的推理速度還是存在很大挑戰(zhàn)的。周光則展示了元戎啟行響應(yīng)的時間,采用Thor芯片時,其響應(yīng)頻率可達(dá)到5fps,基于下一代英偉達(dá)芯片可以達(dá)到20fps。
元戎啟行VLA實時響應(yīng)能力,來源:元戎啟行
另外是在長尾工況下,VLA存在不符合人類價值觀的問題。為了解決這個問題,理想汽車增加了后訓(xùn)練的階段,盡可能對齊人類駕駛員的行為。數(shù)據(jù)來源一方面是大量的人類駕駛員數(shù)據(jù),另一方面來自于理想汽車NOA的接管數(shù)據(jù)。
此外便是數(shù)據(jù)。VLA模型的強化學(xué)習(xí)高度依賴良好的交互環(huán)境,目前基于3D的游戲引擎方式,場景真實度不足。
為了解決這個問題,元戎啟行優(yōu)先使用真實的數(shù)據(jù),尤其是關(guān)鍵臨界態(tài)的數(shù)據(jù)。為此,元戎啟行打造了一個閉環(huán)數(shù)據(jù)鏈路,從數(shù)據(jù)脫敏、回流、清洗到模型訓(xùn)練的全流程,可以做到以周為單位。
元戎啟行數(shù)據(jù)鏈路,來源:GTC2025
理想汽車的做法是結(jié)合場景重建和生成兩種方式,賈鵬解釋道,之所以同時使用兩種數(shù)據(jù),是因為純生成模型具有良好的泛化能力,但可能出現(xiàn)不符合物理規(guī)律的幻覺。而純重建模型由于依托真實數(shù)據(jù)呈現(xiàn)3D場景,數(shù)據(jù)真實性毋庸置疑,但在大視角變換下可能出現(xiàn)空洞和幻覺。兩者結(jié)合則有可能實現(xiàn)優(yōu)勢互補。
從VLM+E2E的雙系統(tǒng)到目前提出的VLA模型,高階智駕所用的算法模型依舊在快速發(fā)展。作為一種新的模型架構(gòu),VLA不僅可以應(yīng)用在智駕領(lǐng)域,還可以應(yīng)用在其他智能產(chǎn)品中。元戎啟行在本次分享中便展示了以一臺無人駕駛配送小車,除完成運輸外,還可以將快遞放至快遞柜中。
當(dāng)然,當(dāng)前VLA模型的應(yīng)用還存在諸多挑戰(zhàn),而率先量產(chǎn)的企業(yè),也將在短期內(nèi)實現(xiàn)技術(shù)領(lǐng)先。