訂閱
糾錯(cuò)
加入自媒體

數(shù)據(jù)標(biāo)注的準(zhǔn)確性會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

每當(dāng)提到自動(dòng)駕駛模型,很多人關(guān)注的是模型的算法和采用的架構(gòu),但是對(duì)于給模型進(jìn)行訓(xùn)練的數(shù)據(jù),卻鮮有人去關(guān)注。其實(shí)一個(gè)模型想變得“聰明”,是需要給他不斷投喂數(shù)據(jù)讓其學(xué)習(xí)的,而這些數(shù)據(jù),也不是拿過(guò)來(lái)就能使用,而是需要人工或半自動(dòng)的方式先對(duì)數(shù)據(jù)進(jìn)行“標(biāo)注”,這個(gè)過(guò)程就是告訴模型需要學(xué)習(xí)的內(nèi)容。

所謂標(biāo)注,就是把傳感器采集到的如圖像、點(diǎn)云、雷達(dá)回波或視頻幀等原始信息轉(zhuǎn)換成模型能夠理解的標(biāo)簽。在一張給出的交通場(chǎng)景的數(shù)據(jù)中,可以用三維包圍框圈出車(chē)輛,用折線畫(huà)出車(chē)道線,或標(biāo)記出行人的動(dòng)作狀態(tài)(站立、行走還是奔跑)。數(shù)據(jù)標(biāo)注其實(shí)是一個(gè)流程化的工作,但如果標(biāo)注不準(zhǔn)確、不一致或覆蓋不全,即便模型本身再優(yōu)秀,也等于被“喂了糊涂飯”,最終會(huì)直接影響車(chē)輛在真實(shí)路況中的表現(xiàn),甚至帶來(lái)安全隱患。

標(biāo)注的“準(zhǔn)確性”指什么?

數(shù)據(jù)標(biāo)注并不只是簡(jiǎn)單的框選內(nèi)容,其實(shí)會(huì)有多個(gè)維度的考量。在語(yǔ)義層面要關(guān)注標(biāo)簽是否正確識(shí)別了物體類(lèi)別,比如在畫(huà)面中是一個(gè)電動(dòng)滑板車(chē),如果將其標(biāo)注為“自行車(chē)”,則可能導(dǎo)致后續(xù)誤判。在幾何層面則要考慮目標(biāo)的位置、朝向和尺寸是否精確,若三維包圍框中心點(diǎn)偏移幾厘米或邊界存在誤差,都會(huì)影響大模型跟蹤和距離估計(jì)。在時(shí)間一致性上的要求則體現(xiàn)在視頻或連續(xù)點(diǎn)云中,同一目標(biāo)在不同幀之間是否保持一致的ID和軌跡,這對(duì)行為預(yù)測(cè)的準(zhǔn)確性至關(guān)重要。邊界精細(xì)度則體現(xiàn)在語(yǔ)義分割模型能否精確識(shí)別出車(chē)窗、車(chē)身、反光條等組件細(xì)節(jié)。這將直接決定感知模塊對(duì)物體輪廓的識(shí)別精度。

自動(dòng)駕駛數(shù)據(jù)標(biāo)注標(biāo)簽確認(rèn),圖片源自:網(wǎng)絡(luò)

綜上所述,數(shù)據(jù)標(biāo)注的“準(zhǔn)確性”指的是所有維度在質(zhì)量上達(dá)到良好、穩(wěn)定且一致的程度。對(duì)于標(biāo)簽中存在的錯(cuò)誤或不確定性的“標(biāo)注噪聲”,也會(huì)滲入訓(xùn)練過(guò)程,干擾模型學(xué)習(xí)的效果。

數(shù)據(jù)標(biāo)注會(huì)出現(xiàn)哪些問(wèn)題?

標(biāo)注一致性差是數(shù)據(jù)標(biāo)注過(guò)程中最常見(jiàn)也最隱蔽的問(wèn)題。數(shù)據(jù)標(biāo)注的不一致可能源于不同標(biāo)注員對(duì)標(biāo)準(zhǔn)的理解不同,也可能是使用的工具或模板差異導(dǎo)致的。標(biāo)注時(shí)微小的偏差,會(huì)在數(shù)十萬(wàn)張訓(xùn)練樣本中不斷累積,從而讓模型學(xué)到“平均化”的標(biāo)注風(fēng)格,導(dǎo)致模型在邊界場(chǎng)景中表現(xiàn)不佳。舉個(gè)例子,如果不同標(biāo)注員對(duì)遮擋部分車(chē)輛包圍框的處理方式不一,模型在遇到遮擋時(shí)容易出現(xiàn)定位錯(cuò)誤或漏檢的問(wèn)題。

在實(shí)際的道路數(shù)據(jù)中,常見(jiàn)類(lèi)別場(chǎng)景與稀有類(lèi)別場(chǎng)景的分布其實(shí)是不均衡的。像是普通車(chē)輛與行人等數(shù)據(jù)是很常見(jiàn)的,但對(duì)于兒童、行動(dòng)不便的殘障人士、工程車(chē)輛、應(yīng)急車(chē)輛等關(guān)鍵但稀有的交通參與者卻鮮少出現(xiàn)。若這些重要但稀少的類(lèi)別標(biāo)注質(zhì)量不高、樣本數(shù)量不足,模型便難以在真實(shí)場(chǎng)景中準(zhǔn)確識(shí)別它們。這類(lèi)錯(cuò)誤往往無(wú)法通過(guò)常規(guī)的準(zhǔn)確率、召回率等整體指標(biāo)反映出來(lái),因?yàn)槟P涂赡茉?9%的場(chǎng)景中表現(xiàn)優(yōu)異,卻在1%的關(guān)鍵時(shí)刻出現(xiàn)誤判,而這恰恰可能是引發(fā)嚴(yán)重事故的導(dǎo)火索。

時(shí)間標(biāo)注錯(cuò)誤也會(huì)讓預(yù)測(cè)模型學(xué)不到連續(xù)的運(yùn)動(dòng)模式,導(dǎo)致在交叉口或復(fù)雜場(chǎng)景中預(yù)測(cè)失效,進(jìn)而引發(fā)決策模塊的危險(xiǎn)選擇。幾何標(biāo)注偏差對(duì)自動(dòng)泊車(chē)和低速精密操控影響尤為顯著,幾厘米的誤差就可能導(dǎo)致刮擦或無(wú)法準(zhǔn)確停入車(chē)位的情況出現(xiàn)。

自動(dòng)駕駛數(shù)據(jù)標(biāo)注,圖片源自:網(wǎng)絡(luò)

數(shù)據(jù)標(biāo)注中的語(yǔ)義歧義問(wèn)題也非常值得關(guān)注。某些物體在邊界情況下難以分類(lèi),像是折疊的手推車(chē)、臨時(shí)停靠的摩托車(chē)或被人搬運(yùn)的大件物品等場(chǎng)景,不同標(biāo)注員可能有不同判斷。如果不對(duì)這些邊緣情況制定統(tǒng)一規(guī)范,模型在實(shí)際道路中很難做出合理判斷。

標(biāo)注不準(zhǔn)會(huì)對(duì)自動(dòng)駕駛系統(tǒng)產(chǎn)生什么影響?

目標(biāo)檢測(cè)和語(yǔ)義分割模型高度依賴準(zhǔn)確的空間和障礙物類(lèi)別信息。如果訓(xùn)練時(shí)三維框位置存在系統(tǒng)性偏差,模型就會(huì)學(xué)到錯(cuò)誤的定位策略,導(dǎo)致在實(shí)際應(yīng)用中距離估算錯(cuò)誤、剎車(chē)點(diǎn)判斷不準(zhǔn)。類(lèi)別標(biāo)注錯(cuò)誤則可能讓模型將危險(xiǎn)物體誤判為靜態(tài)障礙,從而錯(cuò)誤預(yù)估其行為。語(yǔ)義分割邊界模糊會(huì)造成車(chē)道線或路緣識(shí)別不穩(wěn)定,進(jìn)而影響車(chē)輛定位和路徑規(guī)劃。

如果數(shù)據(jù)標(biāo)注不準(zhǔn),跟蹤與預(yù)測(cè)模塊也會(huì)深受影響。跟蹤器依賴每一幀穩(wěn)定的檢測(cè)結(jié)果來(lái)維持目標(biāo)ID和速度信息。如果標(biāo)注在時(shí)間上不一致,模型學(xué)到的軌跡會(huì)出現(xiàn)“斷裂”,在密集交通場(chǎng)景中就會(huì)大幅降低對(duì)目標(biāo)未來(lái)運(yùn)動(dòng)的推斷準(zhǔn)確性。預(yù)測(cè)模塊更加依賴行為標(biāo)簽和歷史軌跡,標(biāo)注誤差會(huì)阻礙模型學(xué)習(xí)典型的交互模式,導(dǎo)致車(chē)輛在復(fù)雜路況下做出不合理決策。

規(guī)劃與控制環(huán)節(jié)同樣會(huì)因數(shù)據(jù)標(biāo)注不準(zhǔn)確出現(xiàn)問(wèn)題。規(guī)劃器通常依據(jù)感知輸出的空間信息與預(yù)測(cè)軌跡制定車(chē)輛下一步的動(dòng)作。如果感知提供的障礙物位置出現(xiàn)偏差,或預(yù)測(cè)的速度不可靠,規(guī)劃器可能會(huì)制定過(guò)于激進(jìn)或保守的行駛軌跡?刂颇K則會(huì)因參考軌跡不穩(wěn)定而頻繁調(diào)整,讓車(chē)輛出現(xiàn)頓挫式制動(dòng)或轉(zhuǎn)向操作。

圖片源自:網(wǎng)絡(luò)

在自動(dòng)駕駛系統(tǒng)中,模型的不確定性也被作為關(guān)鍵決策依據(jù)之一。如果因標(biāo)注問(wèn)題導(dǎo)致模型在訓(xùn)練階段對(duì)某些場(chǎng)景處理的非常絲滑,在實(shí)際應(yīng)用中就可能無(wú)法正確識(shí)別不確定性場(chǎng)景,從而難以觸發(fā)必要的如降速或請(qǐng)求人工接管等安全降級(jí)機(jī)制,更會(huì)埋下潛在風(fēng)險(xiǎn)。

如何提升標(biāo)注質(zhì)量?

想要在數(shù)據(jù)標(biāo)注過(guò)程中避免上面提到的問(wèn)題,首先要做的就是建立清晰明確的標(biāo)準(zhǔn)。成熟的標(biāo)注項(xiàng)目需要一套涵蓋類(lèi)別定義、邊界處理規(guī)則、遮擋處理方法、最小可見(jiàn)像素閾值、幀間ID保持規(guī)則等內(nèi)容的詳盡且可操作的標(biāo)注規(guī)范。規(guī)范制定后還要通過(guò)持續(xù)培訓(xùn)和迭代來(lái)確保落實(shí)。標(biāo)注員需通過(guò)示例學(xué)習(xí),并配合考核與回訓(xùn)機(jī)制,保證每個(gè)人對(duì)細(xì)節(jié)的理解一致。

工具的使用與流程的優(yōu)化對(duì)提升標(biāo)注質(zhì)量同樣關(guān)鍵,高效的標(biāo)注工具是確保數(shù)據(jù)質(zhì)量的基石,它能通過(guò)強(qiáng)制執(zhí)行格式與規(guī)則來(lái)減少人為錯(cuò)誤?梢圆捎“自動(dòng)預(yù)標(biāo)注+人工校正”的人機(jī)協(xié)同模式來(lái)提升效率,這樣也可以讓標(biāo)注員將精力集中于處理復(fù)雜樣本。此外,像是版本控制、標(biāo)簽審核、批量修復(fù)與差異高亮等一系列工具功能與流程管理,也是提升整體標(biāo)注質(zhì)量的關(guān)鍵環(huán)節(jié)。

想提升標(biāo)注質(zhì)量,建立多維度的質(zhì)量控制機(jī)制也是很有必要的。想提升數(shù)據(jù)標(biāo)注質(zhì)量,不能僅停留在單人抽檢,而應(yīng)融合交叉審核、雙盲復(fù)核與統(tǒng)計(jì)檢測(cè)等流程。交叉審核有助于發(fā)現(xiàn)不同標(biāo)注員之間的主觀差異;雙盲復(fù)核能有效評(píng)估標(biāo)注結(jié)果的一致性;統(tǒng)計(jì)檢測(cè)則負(fù)責(zé)監(jiān)控整體數(shù)據(jù)的異常,如當(dāng)某類(lèi)物體的標(biāo)注尺寸明顯偏離歷史常規(guī),或某位標(biāo)注員的錯(cuò)誤率顯著上升時(shí),就應(yīng)自動(dòng)觸發(fā)復(fù)查流程。

數(shù)據(jù)標(biāo)注是一個(gè)持續(xù)優(yōu)化的環(huán)節(jié),需要構(gòu)建一個(gè)從“標(biāo)注”到“訓(xùn)練”、“驗(yàn)證”再到“回歸”的數(shù)據(jù)閉環(huán)框架。因此可以借助主動(dòng)學(xué)習(xí)或不確定性采樣等技術(shù),篩選出模型最不確定或最容易出錯(cuò)的樣本,將其優(yōu)先交由人工標(biāo)注,從而高效利用資源以提升模型性能。在標(biāo)注環(huán)節(jié)中發(fā)現(xiàn)的所有問(wèn)題都應(yīng)及時(shí)反饋給開(kāi)發(fā)團(tuán)隊(duì),并將其作為迭代模型或更新標(biāo)注規(guī)范的重要依據(jù)。

有效的度量與監(jiān)控也是確保標(biāo)注質(zhì)量的關(guān)鍵。僅憑mAP或IoU等整體指標(biāo)遠(yuǎn)不足以評(píng)估標(biāo)注對(duì)實(shí)際安全的影響,必須輔以精細(xì)化的場(chǎng)景指標(biāo)。譬如可以專門(mén)監(jiān)控模型在霧天、夜間的檢測(cè)漏報(bào)率,或在近距離行人交互時(shí)的定位誤差。將這些場(chǎng)景化指標(biāo)納入系統(tǒng)的評(píng)估與發(fā)布標(biāo)準(zhǔn),才能把抽象的“標(biāo)注質(zhì)量”轉(zhuǎn)化為具體、可監(jiān)控的指標(biāo)。

3D數(shù)據(jù)的標(biāo)注工作則需更加嚴(yán)格。點(diǎn)云數(shù)據(jù)本身具有稀疏、視角多變和反射等特性,這為包圍框的精確界定帶來(lái)了不小的挑戰(zhàn)。為此,必須嚴(yán)格校準(zhǔn)坐標(biāo)系與傳感器時(shí)間戳,并確保標(biāo)注的一致性,從根本上避免空間偏差。此外,車(chē)道線及高精地圖相關(guān)的標(biāo)注,因其直接服務(wù)于車(chē)輛定位與地圖構(gòu)建,對(duì)幾何精度和采樣一致性的要求遠(yuǎn)高于普通檢測(cè)任務(wù),需要給予格外關(guān)注。

自動(dòng)駕駛3D數(shù)據(jù)標(biāo)注,圖片源自:網(wǎng)絡(luò)

最后的話

數(shù)據(jù)標(biāo)注并不是一個(gè)簡(jiǎn)單的框選操作,而是會(huì)直接影響自動(dòng)駕駛可靠性的核心工作。必須將標(biāo)注工作體系化、工程化,使其成為一個(gè)可衡量、可復(fù)現(xiàn)并能持續(xù)改進(jìn)的系統(tǒng)工程。只有這樣,自動(dòng)駕駛系統(tǒng)才能在復(fù)雜多變的路況中,獲得至關(guān)重要的安全基石。

-- END --

       原文標(biāo)題 : 數(shù)據(jù)標(biāo)注的準(zhǔn)確性會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)