訂閱
糾錯(cuò)
加入自媒體

為什么一段式端到端自動(dòng)駕駛很難落地?

自動(dòng)駕駛技術(shù)在過(guò)去十年中經(jīng)歷了從基礎(chǔ)輔助駕駛到高度自動(dòng)化系統(tǒng)的快速演進(jìn)。在這一進(jìn)程中,技術(shù)架構(gòu)的選擇始終是決定行業(yè)走向的核心命題。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)被設(shè)計(jì)為模塊化結(jié)構(gòu),將感知、預(yù)測(cè)、規(guī)控等任務(wù)拆分為相互獨(dú)立的子系統(tǒng)。然而,隨著深度學(xué)習(xí)技術(shù)的突破,端到端的新興技術(shù)架構(gòu)開(kāi)始占據(jù)討論的中心。

在這一架構(gòu)中,一段式端到端主張將傳感器輸入直接映射為駕駛動(dòng)作輸出,力求通過(guò)單一的神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)復(fù)雜交通環(huán)境的理解與響應(yīng)。盡管這種路徑在提高駕駛平順性和處理某些復(fù)雜場(chǎng)景方面展示了驚人的潛力,但在真正的商業(yè)化落地過(guò)程中,一段式端到端架構(gòu)依然面臨著很多挑戰(zhàn)。

一段式端到端的優(yōu)勢(shì)

一段式端到端自動(dòng)駕駛的核心理念在于極度簡(jiǎn)化系統(tǒng)鏈路。在傳統(tǒng)的模塊化架構(gòu)中,信息在感知、融合、預(yù)測(cè)、決策、規(guī)劃和控制等多個(gè)環(huán)節(jié)之間傳遞。這種設(shè)計(jì)雖然職責(zé)明確,但存在嚴(yán)重的傳遞效應(yīng)誤差。每一個(gè)模塊的輸出都只是對(duì)真實(shí)物理世界的一種抽象和簡(jiǎn)化,而這種簡(jiǎn)化不可避免地會(huì)導(dǎo)致信息的損耗。

一段式端到端示意圖,圖片源自:網(wǎng)絡(luò)

例如,感知模塊可能只識(shí)別出了前方車(chē)輛的坐標(biāo)和速度,卻丟失了該車(chē)剎車(chē)燈閃爍的微弱光影變化或車(chē)輪壓線的細(xì)微趨勢(shì),這些被過(guò)濾掉的非結(jié)構(gòu)化信息往往包含駕駛意圖的關(guān)鍵線索。相比之下,一段式端到端架構(gòu)通過(guò)單一的深層神經(jīng)網(wǎng)絡(luò),試圖實(shí)現(xiàn)信息的無(wú)損傳遞,讓模型可以直接從原始的視頻流或點(diǎn)云數(shù)據(jù)中提取對(duì)駕駛?cè)蝿?wù)最有用的特征。

這種架構(gòu)的優(yōu)越性在復(fù)雜交通環(huán)境中表現(xiàn)得尤為明顯。傳統(tǒng)基于規(guī)則的系統(tǒng)在面對(duì)從未被定義的特殊場(chǎng)景時(shí),會(huì)因?yàn)檎也坏狡ヅ涞拇a邏輯而陷入癱瘓或觸發(fā)緊急制動(dòng)。

一段式端到端模型通過(guò)對(duì)海量人類(lèi)駕駛數(shù)據(jù)的模仿學(xué)習(xí),能夠?qū)W到人類(lèi)司機(jī)的駕駛常識(shí)和直覺(jué)反應(yīng)。在實(shí)際測(cè)試中,車(chē)輛在處理無(wú)保護(hù)左轉(zhuǎn)、繞行違停車(chē)輛以及與行人互動(dòng)時(shí)可以表現(xiàn)出擬人化的平順感,這正是數(shù)據(jù)驅(qū)動(dòng)架構(gòu)帶來(lái)的紅利。這種架構(gòu)從底層邏輯上顛覆了自動(dòng)駕駛的研發(fā)模式,主機(jī)廠不再需要編寫(xiě)成千上萬(wàn)行復(fù)雜的判斷語(yǔ)句,而是可以將精力集中在數(shù)據(jù)質(zhì)量的提升和模型結(jié)構(gòu)的優(yōu)化上。

一段式端到端不得不面對(duì)的黑盒和誤差積累

一段式端到端架構(gòu)雖然在理論上提高了性能上限,卻也模糊了系統(tǒng)的邊界。在傳統(tǒng)架構(gòu)中,如果感知錯(cuò)了,可以清晰地看到是哪個(gè)算法模塊沒(méi)識(shí)別出目標(biāo);而在一段式模型中,感知、預(yù)測(cè)和規(guī)劃被揉合在一起,這種深度耦合意味著任何局部的微調(diào)都可能引發(fā)不可預(yù)見(jiàn)的全局波動(dòng)。系統(tǒng)的優(yōu)化目標(biāo)也從各個(gè)模塊的局部指標(biāo)轉(zhuǎn)向了全局的駕駛表現(xiàn),這在提升系統(tǒng)效率的同時(shí),也極大地增加了訓(xùn)練的復(fù)雜度和對(duì)高質(zhì)量數(shù)據(jù)的依賴程度。

在一個(gè)包含數(shù)億甚至數(shù)十億參數(shù)的深層神經(jīng)網(wǎng)絡(luò)中,很難追蹤某個(gè)特定的控制指令究竟是由哪個(gè)輸入像素或哪一層神經(jīng)元的激活引起的。這種特性在安全敏感的自動(dòng)駕駛領(lǐng)域會(huì)引發(fā)巨大的問(wèn)題。當(dāng)系統(tǒng)在路測(cè)中出現(xiàn)一次嚴(yán)重的違章或事故苗頭時(shí),將無(wú)法像模塊化架構(gòu)那樣通過(guò)查看代碼邏輯發(fā)現(xiàn)錯(cuò)誤原因,傳統(tǒng)的針對(duì)性單元測(cè)試在面對(duì)這種黑盒模型時(shí)也幾乎失去了效用。

這種技術(shù)黑盒還帶來(lái)了級(jí)聯(lián)誤差問(wèn)題,這在閉環(huán)測(cè)試中表現(xiàn)得尤為突出。模型在實(shí)際行駛中若產(chǎn)生一個(gè)微小偏差,如果沒(méi)有及時(shí)的反饋修正機(jī)制,會(huì)在隨后的時(shí)間步中不斷累積,最終導(dǎo)致嚴(yán)重的駕駛事故。這是因?yàn)橐欢问侥P驮谟?xùn)練時(shí)僅采用專(zhuān)家軌跡作為參照,但在實(shí)際部署中,它不僅要處理外部環(huán)境的變化,還要應(yīng)對(duì)自身動(dòng)作引發(fā)的連鎖反應(yīng)。如果模型未能學(xué)會(huì)如何從偏離狀態(tài)中自我恢復(fù),這種積累的誤差將成為系統(tǒng)崩潰的導(dǎo)火索。

為了緩解這些問(wèn)題,行業(yè)開(kāi)始探索輔助性的解釋工具。一些研究嘗試引入注意力圖可視化技術(shù),通過(guò)觀察模型在決策時(shí)主要關(guān)注圖像的哪些區(qū)域來(lái)反向推論其邏輯。然而,這種方法只能提供定性的參考,無(wú)法作為嚴(yán)格的安全證明。

還一種常見(jiàn)的做法是在端到端模型外包裹一層基于規(guī)則的安全底座,當(dāng)模型的輸出違反了基礎(chǔ)物理定律或嚴(yán)苛的交通準(zhǔn)則時(shí),可強(qiáng)制介入并修正指令。但這種方式會(huì)破壞端到端架構(gòu)本來(lái)的絲滑感,導(dǎo)致系統(tǒng)在神經(jīng)網(wǎng)絡(luò)的靈活決策與規(guī)則層的生硬約束之間產(chǎn)生激烈的沖突。

端到端還會(huì)導(dǎo)致因果混淆現(xiàn)象。機(jī)器學(xué)習(xí)模型傾向于尋找輸入與輸出之間的統(tǒng)計(jì)相關(guān)性,而不是真實(shí)的物理規(guī)律。舉個(gè)例子,模型可能學(xué)會(huì)前方車(chē)輛剎車(chē)燈亮起就要減速這么一個(gè)行為,卻不知道是因?yàn)榻咏系K物需要減速。如果在某些特殊環(huán)境下這種偽相關(guān)性消失了,模型就可能喪失正確的決策能力。這種背答案式的學(xué)習(xí)方式使得模型在跨區(qū)域、跨場(chǎng)景應(yīng)用時(shí)極度吃力,一個(gè)在特定城市訓(xùn)練出的模型,由于路牌樣式、駕駛習(xí)慣甚至植被特征的不同,也很難直接搬運(yùn)到另一個(gè)完全不同的環(huán)境中。

算力與數(shù)據(jù)的競(jìng)爭(zhēng)壁壘及其社會(huì)化阻力

一段式端到端架構(gòu)是典型的重資源投入路徑。它不僅需要車(chē)端擁有高算力的AI芯片來(lái)保證低延遲推理,更需要云端擁有極其龐大的算力中心來(lái)進(jìn)行模型的高頻迭代。對(duì)于許多資金實(shí)力有限或缺乏自研芯片能力的企業(yè)來(lái)說(shuō),構(gòu)建數(shù)據(jù)閉環(huán)系統(tǒng)和采購(gòu)海量計(jì)算卡的成本已經(jīng)超出了單車(chē)?yán)麧?rùn)的覆蓋范圍。這就形成了一種潛在的技術(shù)壟斷,只有擁有數(shù)萬(wàn)塊高端計(jì)算卡和海量實(shí)時(shí)路測(cè)數(shù)據(jù)的頭部玩家,才有資格在這一路徑上進(jìn)行長(zhǎng)期的競(jìng)賽。這種對(duì)算力規(guī)模的高度需求,使得一段式端到端技術(shù)落地的門(mén)檻被無(wú)限拉高。

數(shù)據(jù)的純凈度與分布規(guī)律也是限制一段式端到端落地的一個(gè)因素。神經(jīng)網(wǎng)絡(luò)極其擅長(zhǎng)在數(shù)據(jù)密集的區(qū)域進(jìn)行模仿,但在數(shù)據(jù)稀疏的邊緣地帶表現(xiàn)得就非常脆弱。在真實(shí)交通場(chǎng)景中,絕大多數(shù)的駕駛數(shù)據(jù)都是在正常的交通流中產(chǎn)生的,而發(fā)生事故、極端天氣或罕見(jiàn)路障的數(shù)據(jù)占比極低。模型在面對(duì)這些從未見(jiàn)過(guò)的邊緣場(chǎng)景時(shí),可能做出完全不可預(yù)測(cè)的錯(cuò)誤決策。

此外,如果模型無(wú)差別地模仿從量產(chǎn)車(chē)回傳的人類(lèi)駕駛數(shù)據(jù),它學(xué)到的除了高效的駕駛技能,還可能包括強(qiáng)行加塞、不按規(guī)定開(kāi)啟轉(zhuǎn)向燈等不文明行為,這將導(dǎo)致學(xué)習(xí)結(jié)果與預(yù)期不符。因此,如何從海量數(shù)據(jù)中精準(zhǔn)篩選出高質(zhì)量、符合安全邏輯的駕駛片段,是端到端架構(gòu)落地的關(guān)鍵所在。

在法律與責(zé)任認(rèn)定方面,一段式端到端架構(gòu)也面臨著前所未有的挑戰(zhàn)。當(dāng)自動(dòng)駕駛系統(tǒng)從基于規(guī)則的模式轉(zhuǎn)向基于神經(jīng)元連接的模式時(shí),現(xiàn)有的責(zé)任認(rèn)定體系將受到巨大沖擊。在傳統(tǒng)系統(tǒng)中,如果發(fā)生事故,相關(guān)部門(mén)可以通過(guò)回溯日志發(fā)現(xiàn)是因?yàn)槟硞(gè)特定的算法模塊失靈,責(zé)任判定相對(duì)清晰。然而,面對(duì)黑盒模型,要向監(jiān)管機(jī)構(gòu)解釋系統(tǒng)為什么做出某個(gè)決策幾乎是不可能的。目前全球范圍內(nèi)的立法趨勢(shì)仍傾向于要求系統(tǒng)具備完備的可觀察性與數(shù)據(jù)存證能力,端到端這種合規(guī)性真空使得監(jiān)管機(jī)構(gòu)對(duì)大規(guī)模部署一段式端到端系統(tǒng)保持審慎態(tài)度。

最后的話

雖然目前一段式端到端在可解釋性、誤差累積以及社會(huì)化定責(zé)等方面存在很多的問(wèn)題,但這些障礙本身也在倒逼自動(dòng)駕駛算法向更深層次的因果推斷和更高效的數(shù)據(jù)閉環(huán)演進(jìn)。技術(shù)的落地從來(lái)不是一蹴而就的,它需要工程實(shí)踐的反復(fù)錘煉和法律倫理的逐步接納。通過(guò)在神經(jīng)網(wǎng)絡(luò)的黑盒中注入確定性的安全邏輯,或者在規(guī)則系統(tǒng)的外殼下賦予模型更強(qiáng)的數(shù)據(jù)感知力,一段式端到端架構(gòu)終將在性能上限與安全下限之間找到那個(gè)完美的支點(diǎn)。

-- END --

       原文標(biāo)題 : 為什么一段式端到端自動(dòng)駕駛很難落地?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)