自動(dòng)駕駛中常提的一段式(單段)端到端是個(gè)啥?
自動(dòng)駕駛技術(shù)的發(fā)展,催生出端到端技術(shù)的應(yīng)用,一段式端到端(end-to-end single-stage)作為端到端技術(shù)的一種實(shí)現(xiàn)方式,指的是用一個(gè)學(xué)習(xí)模型把傳感器輸入(比如攝像頭圖像、激光雷達(dá)點(diǎn)云、慣導(dǎo)數(shù)據(jù)等)直接映射到車輛控制指令(例如轉(zhuǎn)向角、油門、制動(dòng))。換句話說(shuō),一段式端到端中間不再把感知、定位、預(yù)測(cè)、規(guī)劃、控制拆成很多獨(dú)立模塊再逐個(gè)對(duì)接,而是讓一個(gè)神經(jīng)網(wǎng)絡(luò)或一套緊密耦合的學(xué)習(xí)組件,從感知到?jīng)Q策一次性輸出動(dòng)作序列。實(shí)現(xiàn)的手段可以是監(jiān)督學(xué)習(xí)(模仿人類駕駛員)、強(qiáng)化學(xué)習(xí)、或者二者結(jié)合的混合策略。一段式端到端中的“一段式”強(qiáng)調(diào)的是過(guò)程鏈條被盡可能壓縮成連續(xù)可微的映射,而不是經(jīng)典的“多段式”分模塊流水線。
一段式端到端這并不意味著沒(méi)有任何結(jié)構(gòu)或中間表征,F(xiàn)實(shí)中的端到端系統(tǒng)往往仍然會(huì)在網(wǎng)絡(luò)內(nèi)部學(xué)習(xí)出語(yǔ)義、車道、障礙物等中間表示,或者由分支去估計(jì)不同行為目標(biāo)。但整體來(lái)看,外部接口是輸入到輸出的直接關(guān)系,系統(tǒng)設(shè)計(jì)更偏向整體優(yōu)化而非局部最優(yōu)化。
一段式端到端的優(yōu)勢(shì)在哪里?
端到端之所以被很多廠家應(yīng)用到自動(dòng)駕駛中,主要是因?yàn)槠浜?jiǎn)潔。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)把感知、定位、預(yù)測(cè)、規(guī)劃和控制拆開(kāi)來(lái),各自需要大量實(shí)際測(cè)試、手工規(guī)則和接口設(shè)計(jì),模塊之間接口錯(cuò)配、誤差傳遞和瓶頸定位都會(huì)導(dǎo)致一系列的麻煩。端到端把“可學(xué)習(xí)”的部分盡量合并,允許整個(gè)系統(tǒng)通過(guò)一個(gè)統(tǒng)一的訓(xùn)練目標(biāo)來(lái)協(xié)調(diào)內(nèi)部表示和動(dòng)作,從理論上有助于學(xué)到對(duì)最終任務(wù)更有利的特征。簡(jiǎn)而言之,一些在分段系統(tǒng)里被丟失或難以傳遞的上下文信息,端到端模型可以直接利用。
端到端在一些復(fù)雜的感知-決策耦合場(chǎng)景里表現(xiàn)出極大的潛力。比如在人多車雜的城市環(huán)境,規(guī)則和罕見(jiàn)場(chǎng)景交織,手工工程很難窮舉所有要點(diǎn);而大規(guī)模數(shù)據(jù)驅(qū)動(dòng)的端到端方法有機(jī)會(huì)從大量示例中捕捉到細(xì)微的決策模式,從而給出更順滑、行為更人性化的控制策略。端到端也讓閉環(huán)優(yōu)化成為可能,用最終控制目標(biāo)(比如舒適度、安全距離、到達(dá)時(shí)間等)來(lái)直接優(yōu)化整個(gè)網(wǎng)絡(luò),能把損失函數(shù)聚焦在實(shí)際用戶關(guān)心的度量上,而不是在每個(gè)中間模塊上分散優(yōu)化。
端到端模型在推理階段可能會(huì)更省時(shí)。如果把所有模塊合并成一個(gè)高效網(wǎng)絡(luò),減少序列化的數(shù)據(jù)傳輸和接口轉(zhuǎn)換,系統(tǒng)整體延遲可以降低,這對(duì)高速?zèng)Q策場(chǎng)景有好處。當(dāng)然,這要求網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn)非常高效。
一段式端到端實(shí)現(xiàn)難點(diǎn)在哪里?
數(shù)據(jù)量與長(zhǎng)尾問(wèn)題是端到端需要面對(duì)的首要難題。要讓模型學(xué)會(huì)安全駕駛,尤其是在極端和罕見(jiàn)場(chǎng)景(比如復(fù)雜交叉口、惡劣天氣、突發(fā)行為)中給出正確反應(yīng),需要海量且高度多樣的數(shù)據(jù)。僅靠常規(guī)道路駕駛錄像往往無(wú)法覆蓋長(zhǎng)尾。因此需要結(jié)合高保真仿真、數(shù)據(jù)增強(qiáng)、場(chǎng)景合成和刻意采集罕見(jiàn)事件的策略。仿真可以快速生成危險(xiǎn)場(chǎng)景的訓(xùn)練樣本,但仿真到現(xiàn)實(shí)(sim-to-real)的差距需要通過(guò)域隨機(jī)化、風(fēng)格遷移或混合真實(shí)+合成數(shù)據(jù)來(lái)縮小。
監(jiān)督學(xué)習(xí)下的行為克隆容易出現(xiàn)“狀態(tài)分布偏移”問(wèn)題,也就是模型在訓(xùn)練時(shí)見(jiàn)到的是人類在良好軌跡上的輸入分布,而在閉環(huán)應(yīng)用中模型自己的小偏差會(huì)導(dǎo)致?tīng)顟B(tài)進(jìn)入訓(xùn)練集未覆蓋的區(qū)域,從而級(jí)聯(lián)出更多錯(cuò)誤。針對(duì)這個(gè)問(wèn)題可以使用數(shù)據(jù)聚合(例如DAgger),即在系統(tǒng)運(yùn)行時(shí)收集模型造成的分布并用專家數(shù)據(jù)修正;強(qiáng)化學(xué)習(xí)也常被用來(lái)讓模型通過(guò)自我試錯(cuò)來(lái)學(xué)習(xí)恢復(fù)策略,不過(guò)強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界直接試錯(cuò)存在巨大風(fēng)險(xiǎn),因此在仿真或受控環(huán)境中應(yīng)用,或結(jié)合現(xiàn)實(shí)示范進(jìn)行離線強(qiáng)化學(xué)習(xí)。
可解釋性與可驗(yàn)證性是端到端技術(shù)產(chǎn)業(yè)化的一大難點(diǎn)。端到端網(wǎng)絡(luò)內(nèi)的決策路徑難以用傳統(tǒng)工程方式證明其是否滿足安全約束。監(jiān)管和車廠都需要某種程度的可解釋證據(jù)以支持上線與召回。為此,常采取混合方案來(lái)實(shí)現(xiàn)自動(dòng)駕駛,在關(guān)鍵安全層引入傳統(tǒng)確定性控制器或基于規(guī)則的監(jiān)控器,網(wǎng)絡(luò)輸出作為建議而非唯一執(zhí)行依據(jù);或者設(shè)計(jì)可解釋的中間任務(wù)(比如同時(shí)回歸車輛到車道邊界距離、檢測(cè)行人意圖等),以增加透明度。此外,不同模型的不確定性估計(jì)(例如模型集合、貝葉斯近似或溫度標(biāo)定)也被用來(lái)在運(yùn)行時(shí)觸發(fā)安全退化策略。
訓(xùn)練目標(biāo)與行為魯棒性的錯(cuò)配也是端到端經(jīng)常會(huì)遇到的問(wèn)題。簡(jiǎn)單的模仿?lián)p失(最小化動(dòng)作差異)并不等價(jià)于駕駛性能最優(yōu)(例如安全和舒適)。因此會(huì)采用復(fù)合損失設(shè)計(jì),把安全約束、乘員舒適度、交通規(guī)則遵守等指標(biāo)納入訓(xùn)練目標(biāo),或者在訓(xùn)練時(shí)引入規(guī)劃器/控制器作為教師提供更合適的目標(biāo)信號(hào)。
感知與多模態(tài)融合在端到端里并未消失,反而轉(zhuǎn)移到網(wǎng)絡(luò)內(nèi)部。如何高效融合相機(jī)、雷達(dá)、激光雷達(dá)、定位與地圖信息,既保證信息冗余以防單傳感器失效,又能被網(wǎng)絡(luò)利用到關(guān)鍵決策點(diǎn),是系統(tǒng)設(shè)計(jì)時(shí)需要考慮的問(wèn)題。常用做法是在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)上保留專門的傳感器分支、跨模態(tài)注意力機(jī)制,以及顯式的時(shí)間序列結(jié)構(gòu)(RNN、Transformer或時(shí)序卷積)來(lái)建模動(dòng)態(tài)變化。
閉環(huán)控制的穩(wěn)定性與物理約束也很關(guān)鍵。端到端輸出直接驅(qū)動(dòng)車輛執(zhí)行,模型必須對(duì)物理約束(最大轉(zhuǎn)角、加速度限制、輪胎極限等)有內(nèi)在遵守,或由下層控制器做硬約束。很多系統(tǒng)采取“學(xué)習(xí)+傳統(tǒng)控制”的混合策略,把端到端網(wǎng)絡(luò)負(fù)責(zé)產(chǎn)生參考軌跡或高層控制目標(biāo),而交由MPC或PID層做實(shí)際執(zhí)行與物理約束滿足。還有研究嘗試把MPC融入可微學(xué)習(xí)框架,實(shí)現(xiàn)可微規(guī)劃層,從而保留端到端訓(xùn)練能力又不失物理約束。
對(duì)于端到端來(lái)說(shuō),訓(xùn)練樣本的標(biāo)注方式也非常有挑戰(zhàn)。若采用行為克隆,需要高質(zhì)量的動(dòng)作標(biāo)簽;若采用基于意圖或軌跡的監(jiān)督,標(biāo)簽空間更大但語(yǔ)義更豐富;若采用強(qiáng)化學(xué)習(xí),需要精心設(shè)計(jì)獎(jiǎng)賞函數(shù)以避免“走捷徑”的風(fēng)險(xiǎn)。離線強(qiáng)化學(xué)習(xí)在近年受關(guān)注,但對(duì)數(shù)據(jù)覆蓋與分布外泛化的要求極高。
還有就是測(cè)試與驗(yàn)證。端到端系統(tǒng)的測(cè)試不能僅依賴大量道路里程數(shù)來(lái)證明安全,因?yàn)榻y(tǒng)計(jì)上覆蓋長(zhǎng)尾所需里程過(guò)于龐大。場(chǎng)景化測(cè)試、基于風(fēng)險(xiǎn)的場(chǎng)景優(yōu)先生成、閉環(huán)仿真驗(yàn)真、形式化安全驗(yàn)證和基于規(guī)則的運(yùn)行時(shí)監(jiān)測(cè)共同構(gòu)成較為現(xiàn)實(shí)的測(cè)試策略。換言之,端到端并不意味著放棄工程驗(yàn)證,而是需要更豐富、面向場(chǎng)景的驗(yàn)證框架。
實(shí)際部署的考量與未來(lái)方向
對(duì)于自動(dòng)駕駛行業(yè)來(lái)說(shuō),一段式端到端更像是長(zhǎng)期有前景但短期受限的路線。它在研究和受控環(huán)境(比如封閉園區(qū)、限定路況的測(cè)試車隊(duì)或部分高級(jí)別自動(dòng)化功能)里表現(xiàn)搶眼,能以較少的規(guī)則和工程工作實(shí)現(xiàn)流暢行為。但要在開(kāi)放道路、復(fù)雜法規(guī)和多變場(chǎng)景下大規(guī)模部署,仍需解決前面提到的數(shù)據(jù)覆蓋、可驗(yàn)證性和魯棒性問(wèn)題。
未來(lái)可行的方向是采用“分層端到端”或“端到端+保障”的混合方案。低層的縱橫控制與物理約束交給傳統(tǒng)可信控制器,中高層用端到端網(wǎng)絡(luò)生成參考動(dòng)作或策略建議,此外并行運(yùn)行基于規(guī)則的監(jiān)測(cè)單元在檢測(cè)到高不確定性時(shí)接管或觸發(fā)更保守的策略。這樣既保留了端到端帶來(lái)的學(xué)習(xí)潛力,也確保了必要的安全和可控性。
更高保真仿真平臺(tái)+自動(dòng)化場(chǎng)景生成也可以緩解長(zhǎng)尾采集問(wèn)題;離線強(qiáng)化學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)有望提供更合適的目標(biāo)信號(hào)而不是簡(jiǎn)單模仿;可解釋性和不確定性估計(jì)技術(shù)(例如可解釋注意力、因果表示學(xué)習(xí)、預(yù)測(cè)不確定性量化)會(huì)改善監(jiān)管和運(yùn)行時(shí)監(jiān)控的可接受性;可微規(guī)劃與學(xué)習(xí)控制的融合能把物理約束引入訓(xùn)練過(guò)程,從而提高閉環(huán)穩(wěn)定性。
最后的話
一段式端到端對(duì)于自動(dòng)駕駛來(lái)說(shuō)并不是萬(wàn)能藥,但它代表了用數(shù)據(jù)和學(xué)習(xí)把復(fù)雜行為直接“學(xué)會(huì)”的一種思路。對(duì)于某些應(yīng)用場(chǎng)景,這種方法能顯著降低手工規(guī)則和接口的工程成本,帶來(lái)更自然的行為和更優(yōu)的整體目標(biāo)表現(xiàn)。但在面向高安全等級(jí)的商業(yè)化部署時(shí),端到端需要與工程化的保障手段、形式化驗(yàn)證與豐富的數(shù)據(jù)策略結(jié)合,才能既享受學(xué)習(xí)方法的優(yōu)點(diǎn),又滿足現(xiàn)實(shí)世界對(duì)安全與可靠性的嚴(yán)格要求。
-- END --
原文標(biāo)題 : 自動(dòng)駕駛中常提的一段式(單段)端到端是個(gè)啥?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 人形機(jī)器人廠商,正在批量復(fù)刻宇樹(shù)G1
- 3 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 4 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋(píng)果”?
- 5 自動(dòng)駕駛誰(shuí)將笑傲江湖?如何把握無(wú)人駕駛“財(cái)富密碼”?
- 6 特斯拉機(jī)器人獲得10,000臺(tái)訂單?馬斯克抄底成功
- 7 華為公布昇騰芯片三年計(jì)劃,自研HBM曝光
- 8 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 9 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?