3月18日,理想汽車(chē)在NVIDIA GTC大會(huì)上發(fā)布下一代自動(dòng)駕駛架構(gòu)MindVLA,還放話要像當(dāng)年iPhone 4重新定義手機(jī)那樣,重新定義自動(dòng)駕駛。這不禁令人好奇,理想憑啥這么有底氣?它又會(huì)給整個(gè)行業(yè)帶來(lái)哪些改變呢?咱們一起探討一下。
從按部就班到自主思考
話說(shuō)以前的自動(dòng)駕駛,基本需要高精地圖與提前設(shè)好的規(guī)則來(lái)運(yùn)行,就像個(gè)跟著劇本走的“演員”,靈活性差。但MindVLA的不同之處,在于它會(huì)給自己打造一套類(lèi)似人類(lèi)認(rèn)知邏輯的“大腦”,采用“端到端+VLM雙系統(tǒng)架構(gòu)”。
簡(jiǎn)單來(lái)講,一個(gè)“快思考”系統(tǒng),也就是端到端大模型,能像我們的直覺(jué)一樣,對(duì)駕駛場(chǎng)景快速做出判斷與反應(yīng),馬上給出行駛軌跡;而另一個(gè)“慢思考”系統(tǒng),并不是想的慢的意思,而是視覺(jué)語(yǔ)言大模型,專(zhuān)門(mén)負(fù)責(zé)處理較復(fù)雜的邏輯問(wèn)題,比如判斷公交車(chē)道的動(dòng)態(tài)標(biāo)記、車(chē)道信號(hào)燈等復(fù)雜情況。
有個(gè)實(shí)際例子,在測(cè)試視頻里,車(chē)沒(méi)預(yù)設(shè)導(dǎo)航路線,通過(guò)一句“幫我找個(gè)星巴克”,自己就找到路邊門(mén)店并穩(wěn)穩(wěn)停下來(lái)。若遇到死胡同,還能自動(dòng)倒車(chē),重新尋找車(chē)位,關(guān)鍵全程還不依賴地圖數(shù)據(jù),這出色的表現(xiàn),得益于3D高斯中間表征技術(shù),通過(guò)大量數(shù)據(jù)自我學(xué)習(xí),讓車(chē)對(duì)復(fù)雜情況理解更加到位,這有點(diǎn)像偏科生的味道,專(zhuān)注并理解透這門(mén)學(xué)科,與專(zhuān)科生不同,因?yàn)樗尤妗?/p>
讓用戶體驗(yàn)升級(jí),從機(jī)械式到更懂你
MindVLA的目標(biāo)很明確,就是讓車(chē)變成聽(tīng)懂你話的好司機(jī)。它在三個(gè)場(chǎng)景表現(xiàn)尤為突出。首先是語(yǔ)音交互,當(dāng)你開(kāi)車(chē)時(shí),可以隨時(shí)給車(chē)下新指令,比如“開(kāi)慢點(diǎn)”、“向左轉(zhuǎn)”等,車(chē)能馬上照做,這比以前車(chē)機(jī)只能關(guān)關(guān)空調(diào)、打開(kāi)車(chē)窗要高級(jí)得多。
其次是視覺(jué)通識(shí),你可以理解為給發(fā)張周?chē)h(huán)境的照片,它就能知道你在哪,然后自動(dòng)過(guò)來(lái)接你,這功能相當(dāng)于省了個(gè)“專(zhuān)門(mén)司機(jī)”了,它之所以能做到,是因?yàn)镸indVLA能理解招牌、地標(biāo)等視覺(jué)信息,甚至連施工圍擋后面的臨時(shí)路都能識(shí)別。
最后則是自動(dòng)空間的探索,在停車(chē)場(chǎng)或園區(qū)里,車(chē)能自己到處找停車(chē)位,不用依賴導(dǎo)航,可能大家會(huì)說(shuō),其他車(chē)型也能自動(dòng)找車(chē)位泊車(chē),但你要注意的是,其他車(chē)型的泊車(chē)功能基本局限在熟悉的停車(chē)場(chǎng)。按理想董事長(zhǎng)李想的話,你跟人司機(jī)咋交流,就能跟MindVLA咋交流,以后停車(chē)也不發(fā)愁。對(duì)比特斯拉FSD頻出誤判路標(biāo)路線,MindVLA通過(guò)本地化訓(xùn)練和邏輯推理,就能解決這些麻煩事。
顛覆傳統(tǒng)還是步子太大?
MindVLA一發(fā)布,相當(dāng)于給傳統(tǒng)自動(dòng)駕駛技術(shù)路線來(lái)了個(gè)大挑戰(zhàn)。它打破對(duì)高精地圖的依賴,通過(guò)自研的模型,車(chē)能模擬環(huán)境自己學(xué)習(xí),也不用花大價(jià)錢(qián)去依賴地圖數(shù)據(jù)。
更關(guān)鍵是它似乎重新定義了人和車(chē)的關(guān)系,以前的智駕系統(tǒng)是聽(tīng)你指令干活,但MindVLA能和你互動(dòng),你說(shuō)應(yīng)該走右邊這條路,它不僅做,還能記住你的駕駛習(xí)慣,慢慢成為你生活中伙伴。
而且該技術(shù)還能向外擴(kuò)展的潛力,能應(yīng)用到機(jī)器人等智能領(lǐng)域,這確實(shí)能為行業(yè)帶來(lái)一定性的啟發(fā)。不過(guò),雖然能通過(guò)技術(shù)優(yōu)化不少問(wèn)題,但城市里復(fù)雜路況的極端情況,還得時(shí)間去驗(yàn)證。
汽車(chē)網(wǎng)評(píng):
總的來(lái)說(shuō),MindVLA確實(shí)給自動(dòng)駕駛帶來(lái)新的思路,要是真量產(chǎn)成功,那自動(dòng)駕駛說(shuō)不定就能實(shí)現(xiàn)質(zhì)的飛躍。但理想步子邁的那么大,能否成功還得看接下來(lái)實(shí)際表現(xiàn)如何。