當前,輔助駕駛已實現“全國都能開”的基礎覆蓋,但用戶從“能用”到“愛用”的鴻溝依然顯著。核心痛點在于“安心感不足”——系統決策缺乏解釋性、盲區預判能力薄弱、人機交互過于機械化等問題,導致用戶對智駕系統缺乏信任。
而理想與元戎啟行同期押注VLA(視覺-語言-動作)模型,正是針對這一痛點,通過技術升維破解智駕體驗的“最后一公里”。
VLA模型的本質是通過運用語言模型,增強系統的推理能力,讓系統對社會常識有更全面的認知,從而解決更多的長尾場景。
當下智駕面臨的挑戰和質疑,主要歸類為以下幾類問題:
首先是模型存在不可解釋性。
用戶并不知道系統為何會無故加速、減速,甚至退出。信息的不透明導致用戶對智駕系統喪失安全感和信任,不敢用輔助駕駛系統。
其次是防御型駕駛能力不足。
防御型駕駛能力的高低是新老司機的最大區別。
最典型的就是高架橋的橋墩盲區。匝道匯入主路時,一側的橋墩會遮住司機大半個視野,新手司機可能察覺不到,但老司機會提前減速觀察,避免突然出現車輛。
交管部門數據顯示,在眾多交通傷亡事故中,因內輪差和盲區引發的事故占比達到70%以上。現在多數智駕遇到鬼探頭只能做到急剎避讓,但防御型駕駛是要能提前結合場景,預知鬼探頭風險提前減速。
最后是人機交互過于機械化。
目前大多數車輛進入輔助駕駛狀態后,用戶選擇僅限于接管和不接管,沒有專屬用戶的定制化駕駛風格,與個性化的語音交互,這也是系統決策容易偏離用戶預期的原因質疑,智駕行業都沒有徹底解決用戶“安心感”的問題。
在此背景下,以理想、元戎為代表的玩家堅定押注VLA技術路線,運用語言模型的能力來解決以上這些問題。
首先,元戎和理想的VLA模型將語音交互控車進行了全面升級——用戶能在車輛在輔助駕駛中,語音控制車輛的動作、車速、車道選擇等,甚至還釋放了豪車識別功能。若遇上豪車,智駕則會更加謹慎,展示了VLA系統對場景深刻精準的理解能力。
語音控車指令
此外元戎啟行還釋放了空間語義理解、異形障礙物識別、文字類引導牌理解三大功能。
空間語義理解,即VLA可以解決盲區場景設計的問題。相當于為系統裝上透視眼,預判行車中的交通盲區。
例如,在通過無紅綠燈的路口時,VLA模型能提前識別到“注意橫穿,減速慢行”的指示牌,即使公交車通行造成動態盲區,VLA也會結合公交車的動作去做出準確的決策。當公交車進行減速時,它會通過推理前方可能有行人穿行,并做出“立即減速、注意風險、謹慎通行”的決策。
公交車動態盲區遮擋
異形障礙物識別屬于智駕的算法長尾問題,過去經常被歸類為1%的極端路況。但依靠VLA模型,即便識別到“變形”的超載小貨車,也能結合實際路況,執行減速繞行或靠邊駕駛。
異形障礙物識別
此外,VLA也可以加強系統對文字類引導牌的理解能力。元戎啟行的VLA模型能識別并理解各種圖形、文字類路牌信息,按照路牌引導內容行駛。
特殊路標識別
面對左轉待行區、可變車道、潮汐車道等“動態規則路段”,VLA模型能夠讀懂字符與圖標的含義,高效匹配實時路況。在多車道復雜路口選道直行的場景中,能夠準確識別車輛前方的文字及圖案標識牌,從左轉右轉混雜的路口準確找到左轉車道,并執行操作。
元戎啟行正在通過VLA模型,打造能防御型駕駛的AI司機。
據悉,元戎的VLA模型將會在第三季度量產上車5款車型。接下來,智駕是否具備更長遠的思維、推測能力,VLA能否大規模量產上車,也將是下半年智駕玩家們能否進入VLA第一梯隊的關鍵。
免責聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。如稿件版權單位或個人不想在本網發布,可與本網聯系,本網視情況可立即將其撤除。
互聯網新聞信息服務許可證10120230012 信息網絡傳播視聽節目許可證0121673 增值電信業務經營許可證京B2-20171219 廣播電視節目制作經營許可證(京)字第10250號
關于我們 中宏網動態 廣告服務 中宏網版權所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2025 by www.fljgs.cn. all rights reserved 運營管理:國家發展和改革委員會宏觀經濟雜志社