揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測
我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實現(xiàn)“車位到車位”》中分享到特斯拉FSD V14的泊車聰明到有人評價為“Game Changer”。Jack也指出了特斯拉FSD V14的行泊車一套基于真正端到端算法的功能,國內(nèi)基本沒有人能做的現(xiàn)實,也就是說國內(nèi)的車位到車位基本都是行泊割裂規(guī)則拼接的算法。
但是,誰也不知道特斯拉到底如何做到的,最近特斯拉一份關(guān)于基于視覺的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利申請公開文本,揭秘了特斯拉如何做到的。
專利揭示了特斯拉利用人工智能模型,僅通過攝像頭捕獲的 2D 圖像數(shù)據(jù),來高精度(精確到10cm)重建自動駕駛車輛或機器人(下文統(tǒng)稱為Ego)周圍的 3D 空間結(jié)構(gòu)和障礙物細節(jié),并應(yīng)用于自主導航、輔助泊車、環(huán)境交互界面渲染。
本文基于專利和相關(guān)信息,來解讀揭秘:
他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢
他怎么做到的? - 高保真3D空間Occ占用算法解析
他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例
希望給AI自動駕駛、機器人產(chǎn)品技術(shù)愛好者一些科普和啟發(fā)。
他是什么?能干什么?- 高保真3D空間Occ占用算法概述與優(yōu)勢
高保真3D空間Occ占用算法可以僅僅利用視覺和AI算法解決自動駕駛系統(tǒng)在復雜動態(tài)環(huán)境中對周圍物體進行精確感知和決策的需求,其主要核心算法包括:
Occ占用網(wǎng)格算法:預測 Ego 周圍空間中體素(Voxel,即 3D 像素)的占有率屬性(是否被有質(zhì)量的物體占據(jù))。
符號距離函數(shù) Signed Distance Function (SDF)預測:預測被占據(jù)體素的符號距離值 (Signed Distance Value),該值指示了該體素與最近的占據(jù)體素(即物體表面)之間的距離。這使得系統(tǒng)能夠?qū)崿F(xiàn)更精細的形狀細化和改進的空間感知。
預測 Ego 周圍環(huán)境的 3D 表面屬性:從而可以了解占用物體的屬性,例如是車位、是車還是墻、車位線等。
這種算法可以支持:
高保真渲染環(huán)境:利用 SDF 值將 3D 空間重建結(jié)果以高保真圖像的形式顯示出來。
輔助泊車:利用高精度達10cm的占有率和 SDF 數(shù)據(jù)預測碰撞距離,實現(xiàn)先進的輔助泊車應(yīng)用。
這也就是為什么我們之前文章《特斯拉 FSD V14 上車!10倍參數(shù)模型,真實現(xiàn)“車位到車位”》中分享到特斯拉的泊車有人評價“game changer”。要知道當前所有的泊車算法都是用基于規(guī)則的Hybrid A* 和 NMPC算法。
該算法的關(guān)鍵創(chuàng)新點是,僅依賴攝像頭 2D 視覺,在沒有深度攝像頭、激光雷達、ToF 傳感器(當前主流的補盲激光雷達)、雷達等專用深度傳感技術(shù)的情況下運行。通過人工智能深度學習技術(shù),模型僅憑 2D 圖像即可推斷出空間關(guān)系和場景結(jié)構(gòu)。
他怎么做到的? - 高保真3D空間Occ占用算法解析
首先他的基礎(chǔ)依然是經(jīng)典的Occ占用算法 (Method 200)。從圖像輸入中生成可查詢的 3D 占有率輸出。
圖像輸入和特征化 (210/220):接收來自多個攝像頭(如八個攝像頭)的圖像數(shù)據(jù),并使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或 RegNet/BiFPN 等算法提取有意義的特征。
空間注意力與 3D 轉(zhuǎn)換 (230):使用 Transformer 模型將 2D 圖像特征轉(zhuǎn)換為 3D 空間特征。該模塊通過 3D 查詢分析 2D 特征,將多攝像頭圖像數(shù)據(jù)聚合和轉(zhuǎn)換成 Ego 周圍的單個 3D 向量空間表示(如俯視空間)。
時間對齊/融合 (240):將當前時間戳的 3D 空間表示與先前時間戳(如 t-1, t-2, t-3)的 3D 空間表示進行融合,以納入時空信息。
反卷積與體積輸出 (250/260):通過反卷積操作將融合后的時空特征轉(zhuǎn)換回不同的體素表示,生成體積輸出。
體積輸出內(nèi)容:包括體素的二進制占有率(0 或 1),占有率流數(shù)據(jù)(指示體素的移動速度),以及 3D 語義數(shù)據(jù)(指示體素所屬物體類型,如車輛、路緣、靜態(tài)/移動質(zhì)量)。
體素粒度:默認體素尺寸可以是 33 厘米。系統(tǒng)可以動態(tài)調(diào)整靠近 Ego 的被占據(jù)體素的粒度(例如縮小到 10 厘米),以識別物體更精細的形狀信息。
可查詢輸出 (270):生成一個可查詢數(shù)據(jù)集,允許其他下游軟件模塊(如自主駕駛系統(tǒng))通過坐標值 (X, Y, Z) 來檢索特定體素的占有率狀態(tài)。
進一步的表面屬性分析方法 (Method 201/500),該方法專注于預測 Ego 周圍環(huán)境的 3D 表面屬性,而不是僅僅是體素占有率。
預測表面屬性:AI 模型預測 Ego 周圍一個或多個表面的屬性,包括 Z 軸坐標(高程),表面材質(zhì)(如草地、瀝青、混凝土),是否可導航,以及車道和車位線信息。
生成網(wǎng)格表示 (Mesh):模型生成 Ego 周圍環(huán)境的網(wǎng)格表示,其中每個節(jié)點包含 X、Y、Z 軸坐標及屬性類別。
坐標校準:為了消除 Ego 自身垂直運動(如經(jīng)過坑洼或減速帶)帶來的噪聲,系統(tǒng)會將坐標值與表面本身對齊,而不是與 Ego 的坐標相對對齊。
高程擴展感知:該方法可與占有率檢測 (方法 200) 結(jié)合,以識別位于 Ego 垂直占有率檢測范圍之外(例如,陡峭山坡上)的物體。通過先確定表面的高程,然后將物體體素的高程信息進行調(diào)整,從而有效擴展了 Ego 的感知范圍。
最后,高保真感知核心算法:符號距離函數(shù) (SDF),這也不是什么新鮮算法,GPU游戲常用。引入了符號距離函數(shù)(SDF) 技術(shù)來提高 Ego 對周圍物體形狀和距離的感知精度,這對于輔助泊車等精細操作至關(guān)重要。
SDF 符號距離值指示一個被占據(jù)體素與最近的物體表面(最近的被占據(jù)體素)之間的距離。原來的Occ表示的是該體素與 Ego 之間的距離,這樣算法更精準來預測碰撞距離。
符號約定:SDF 場網(wǎng)格 (700) 中,正值表示體素位于物體外部,負值表示體素位于物體內(nèi)部,零值表示體素位于物體表面。
訓練過程:AI 模型通過使用包含攝像頭圖像和相應(yīng)地面真值深度圖/簽名距離圖的大型數(shù)據(jù)集進行訓練。模型學習根據(jù)視覺線索(如物體邊緣、紋理、透視)推斷符號距離值,這就是端到端的范式。
基于 SDF 的高保真渲染,AI 模型使用 SDF 值執(zhí)行渲染協(xié)議,以實現(xiàn)平滑且逼真的 3D。
渲染:生成 2D 渲染層:處理器根據(jù) SDF 值生成一系列 2D 渲染層。
體素屬性:如果體素的 SDF 值是負值(內(nèi)部),則該體素被渲染為不透明(有顏色);如果是正值(外部),則被渲染為透明。
堆疊重建:通過迭代生成并堆疊這些 2D 層(例如,從路面 0 垂直向上以英寸為單位生成),可以實現(xiàn) Ego 周圍物體的高保真 3D 渲染。
優(yōu)勢:這種基于 SDF 的渲染(如圖 9C 所示)比傳統(tǒng)的原始點云或簡單的二進制體素占有率渲染(如圖 9A、9B 所示)細節(jié)更豐富,視覺上更連貫和平滑。
油漆線識別:AI 模型還可以基于體素識別駕駛表面上的油漆,并且這種識別不限于連續(xù)的線形,可以識別任意形狀的油漆(如殘疾人停車標志或人行橫道)。
他有什么用?- 高保真3D空間Occ占用算法應(yīng)用案例
由于高保真Occ占用網(wǎng)絡(luò)能夠識別物體,同時能夠精準識別障礙物的距離,所以這套算法能夠用于自動駕駛停車場的泊車,室內(nèi)或者狹窄空間的機器人自動控制。
停車場等近場輔助泊車應(yīng)用
該高保真占有率網(wǎng)絡(luò)可用于開發(fā)和實現(xiàn)先進的輔助泊車功能(方法 1100)。
泊車流程確定泊車資格區(qū)域 (1110):處理器確定 Ego 是否進入了泊車區(qū)域(例如停車場、路邊停車區(qū))。判斷依據(jù)包括 Ego 的位置、速度(如低速行駛)、以及是否識別到停車標志或周圍車輛的朝向。
空間重建與 SDF 預測 (1120/1130):Ego 利用攝像頭數(shù)據(jù)執(zhí)行 AI 模型,預測周圍空間的占有率和 SDF 值,重建高保真的 3D 環(huán)境。
識別泊車位 (1140):處理器利用重建的空間信息和 AI 模型識別一個或多個可用泊車位。
非靜態(tài)閾值識別:與依賴靜態(tài)閾值的傳統(tǒng)方法不同,該 AI 模型通過訓練(例如,識別被標記的體素集合)來區(qū)分停車位和其他空閑空間。
綜合考量因素:識別不僅基于空間是否被占據(jù),還考慮地面油漆線(例如,是否為殘疾人車位)、交通標志(例如,“禁止停車”標志)和路緣顏色(例如,紅色路緣)。
泊車位評分與選擇:系統(tǒng)會為識別出的泊車位生成適用性評分。評分基于多個因素,如泊車位與 Ego 的距離,以及到達該泊車位所需的路徑屬性(例如,機動次數(shù)和路徑平滑度)。
用戶交互與導航 (1150/1160):在 Ego 界面上顯示識別出的泊車位及指示器(例如“P”標記)。接收用戶選擇后,系統(tǒng)將選定的泊車位數(shù)據(jù)傳輸給自主導航引擎,指示 Ego 自主泊車(包括平行泊車)。
機器人應(yīng)用
這些方法同樣適用于自主機器人(如送貨或清潔機器人)在室內(nèi)環(huán)境中的導航和定位(“泊車”)。
室內(nèi)感知:機器人攝像頭捕獲辦公室環(huán)境的圖像數(shù)據(jù),AI 模型預測體素占有率和 SDF,從而區(qū)分障礙物(桌椅、員工)和可導航區(qū)域(走廊)。
自主對接/停放:模型可以識別指定的對接區(qū)域或充電站(即機器人的“泊車位”),評估距離和空間限制,并指示機器人自主移動和精確對接。
寫在最后
本文分享的高保真3D空間Occ占用算法,在經(jīng)歷了各種包含標注的圖像和相應(yīng)地面真值深度圖/距離圖的大型數(shù)據(jù)集進行訓練,其實就是一個對3D世界理解的模型,再配合簡單駕駛碰撞信息的理解強化訓練RLHF你就可以把他稱為世界模型。
本文是進入算法層面的文章,不是各種宏觀敘事例如VLA/世界模型等概念文章,如果你看懂了,那么會理解我們習以為常的宏觀敘事的熱詞不過是概念或者含糊的抽象瓶子。
最后,這套算法應(yīng)該會引發(fā)自動駕駛以及機器人業(yè)內(nèi)的跟進和研究學習,再一次推升算法以及物理AI行業(yè)的發(fā)展。
參考文章以及圖片
*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:
基于視覺的高保真占有率確定和輔助泊車應(yīng)用的AI建模技術(shù)的專利 - 特斯拉
原文標題 : 揭秘特斯拉FSD V14 “車位到車位”背后的核心算法:高保真3D空間Occ占用探測
