123,123,123

為什么很多車企都青睞VLA模型？

就在最近，小鵬發(fā)布了第二代視覺—語言—?jiǎng)幼鳎╒LA）模型。其實(shí)隨著自動(dòng)駕駛技術(shù)的發(fā)展，行業(yè)正處于從手工規(guī)則體系向物理世界大模型的深層跨越。早期的自動(dòng)駕駛方案高度依賴于模塊化的架構(gòu)設(shè)計(jì)，將感知、預(yù)測與規(guī)

VLA模型智駕 2026-03-04

自動(dòng)駕駛技術(shù)正處于發(fā)展的轉(zhuǎn)折點(diǎn)。過去十幾年間，行業(yè)長期依賴模塊化的技術(shù)路徑，即將駕駛?cè)蝿?wù)拆解為感知、預(yù)測、規(guī)劃和控制四個(gè)獨(dú)立環(huán)節(jié)。這種結(jié)構(gòu)雖然清晰，但在面對(duì)突發(fā)狀況時(shí)（長尾場景），會(huì)因規(guī)則覆蓋不足而表

自動(dòng)駕駛 VLA 2026-02-03

VLA和世界模型在自動(dòng)駕駛中可以融合嗎？

隨著VLA（視覺-語言-動(dòng)作模型）與世界模型在自動(dòng)駕駛領(lǐng)域的關(guān)注度日益提升，這兩項(xiàng)技術(shù)已成為眾多主機(jī)廠研發(fā)布局的重點(diǎn)方向。前者強(qiáng)調(diào)將感知、語義推理與動(dòng)作生成整合到同一個(gè)大模型中，以實(shí)現(xiàn)端到端的決策輸出

自動(dòng)駕駛 2026-01-13

定義下一代機(jī)器人訓(xùn)練,智元 SOP：VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破

當(dāng)前，VLA模型通過大規(guī)模預(yù)訓(xùn)練具備了出色的泛化能力，但在實(shí)際場景部署時(shí)，除了需要廣泛的通用性，還需達(dá)到專家級(jí)的任務(wù)執(zhí)行水平。以家庭機(jī)器人為例：它必須能夠折疊衣物、整理貨架、組裝家具，同時(shí)展現(xiàn)出堪比專

機(jī)器人模型 2026-01-07

VLA模型是基于預(yù)置規(guī)則來指導(dǎo)行動(dòng)嗎？

今天繼續(xù)來回答小伙伴的提問，最近有一位小伙伴提問，VLA模型中的理解是不是也基于一些預(yù)置的規(guī)則指導(dǎo)行動(dòng)的？其實(shí)這個(gè)問題非常值得討論，今天智駕最前沿就帶大家詳細(xì)聊一聊。視覺-語言-動(dòng)作（VLA）模型是

VLA 模型 2025-12-25

大幅超越π0.5和X-VLA！清北最新Motus：理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”

作者：Hongzhe Bi等解讀：AI生成未來亮點(diǎn)直擊統(tǒng)一的基礎(chǔ)模型：Motus，一個(gè)統(tǒng)一的具身基礎(chǔ)模型，首次在一個(gè)生成式框架內(nèi)集成了五種主流范式（世界模型、逆動(dòng)力學(xué)模型、VLAs、視頻生成模型

Motus 訓(xùn)練視頻模態(tài)模型 2025-12-19

VLA與世界模型有什么不同？

當(dāng)前自動(dòng)駕駛行業(yè)，各車企的技術(shù)路徑普遍選擇了單車智能方向。而在實(shí)際落地過程中，不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式，部分車企側(cè)重于視覺—語言—?jiǎng)幼髂Ｐ停╒ision Language Action,VL

世界模型 2025-12-17

π*0.6：一款能從經(jīng)驗(yàn)中學(xué)習(xí)的VLA模型

今日，美國具身智能創(chuàng)業(yè)公司 Physical Intelligence（簡稱 PI ）發(fā)布了最新機(jī)器人基礎(chǔ)模型?π*0.6。官方稱，過去一年，機(jī)器人成功完成一半任務(wù)并不難，但要讓它每次都成功卻非常困

VLA 2025-12-01

重磅！阿里達(dá)摩院發(fā)布首個(gè)VLA與世界模型統(tǒng)一架構(gòu)RynnVLA-002：97.4%成功率刷新認(rèn)知

作者：Jun Cen等解讀：AI生成未來亮點(diǎn)直擊統(tǒng)一架構(gòu)：RynnVLA-002，這是一個(gè)將視覺-語言-動(dòng)作（VLA）模型與世界模型統(tǒng)一在單一框架中的“動(dòng)作世界模型”。雙向增強(qiáng)：實(shí)現(xiàn)了 VLA

模型訓(xùn)練機(jī)器人 RynnVLA 2025-11-25

VLA能解決自動(dòng)駕駛中的哪些問題？

很多從事自動(dòng)駕駛的小伙伴應(yīng)該對(duì)VLA這個(gè)概念已經(jīng)非常熟悉了。VLA即“Visual-Language-Action”（視覺—語言—?jiǎng)幼鳎┠Ｐ停暮诵氖菍⒁曈X信息、語言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)

自動(dòng)駕駛 VLA 2025-11-25

吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法

2023年8月，吳新宙算是在中國L2+智能輔助駕駛競爭頂峰--輔助駕駛進(jìn)城之后離開小鵬汽車加入英偉達(dá)。2024年1月，特斯拉推出FSD V12 Beta端到端版本，智能輔助駕駛算法進(jìn)入“端到端”階段。

吳新宙 VLA 駕駛 2025-11-17

VLA和世界模型，誰才是自動(dòng)駕駛的最優(yōu)解？

隨著自動(dòng)駕駛技術(shù)發(fā)展，其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢，一邊是以理想、小鵬、小米為代表的VLA（視覺—語言—行動(dòng)）模型路線；另一邊則是以華為、蔚來為主導(dǎo)的世界模型（World Model）路線，這兩種路徑都

自動(dòng)駕駛 2025-11-05

自動(dòng)駕駛上常提的VLA與世界模型有什么區(qū)別？

VLA：把“看”和“說”連到“做”上自動(dòng)駕駛中常提的VLA，全稱是Vision-Language-Action，直譯就是“視覺-語言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫面、能理解和處理自然

自動(dòng)駕駛 2025-10-14

為什么把VLA直接放上自動(dòng)駕駛汽車沒那么容易？

在自動(dòng)駕駛領(lǐng)域，經(jīng)常會(huì)有技術(shù)提出將VLA（視覺—語言—?jiǎng)幼髂Ｐ停⿷?yīng)用到自動(dòng)駕駛上。VLA的作用就是把看、懂、決策三件事交給一個(gè)大模型，攝像頭看到畫面，模型用“視覺＋語言”去理解場景和意圖，最后直接輸出

自動(dòng)駕駛 VLA 2025-09-23

揭秘小鵬自動(dòng)駕駛「基座模型」和「VLA大模型」

2025年的CVPR自動(dòng)駕駛 Workshop上，小鵬汽車的Liu Xianming先生做了一篇名為《Scaling up Autonomous Driving via Large Foundatio

小鵬自動(dòng)駕駛 2025-09-12

端到端自動(dòng)駕駛的前世今生：不管VLA還是WM世界模型,都需要世界引擎。

2025年的CVPR自動(dòng)駕駛Workshop上，香港大學(xué)的Li Hongyang做了一篇名為《自動(dòng)駕駛端到端方法：現(xiàn)狀與展望》的開場演講。演講給了端到端一個(gè)定義，并介紹了端到端的前世今生，以及挑戰(zhàn)，

自動(dòng)駕駛 2025-09-10

VLA與世界模型會(huì)讓自動(dòng)駕駛汽車走多遠(yuǎn)？

在一個(gè)雨夜的十字路口，你開車行駛到路中央，前方是一輛猶豫不決的電動(dòng)車，左側(cè)有一臺(tái)打著轉(zhuǎn)向燈的出租車，右后方突然閃過一束遠(yuǎn)光燈。這時(shí)候你會(huì)怎么做？經(jīng)驗(yàn)豐富的司機(jī)往往會(huì)迅速分析，電動(dòng)車可能突然橫穿，出租車

模型駕駛推理數(shù)據(jù) 2025-09-01

VLA模型能幫助純視覺自動(dòng)駕駛走向成熟嗎

最近在和一位小伙伴交流時(shí)，他提出了一個(gè)非常有趣的問題：VLA模型是否更適合純視覺系統(tǒng)？它能幫助純視覺系統(tǒng)算法走向成熟嗎？這個(gè)問題非常有意思，對(duì)于這個(gè)問題，先講結(jié)論，VLA（Vision-Languag

視覺語義模型 VLA 控制場景 2025-08-28

自動(dòng)駕駛中常提的VLM是個(gè)啥？與VLA有什么區(qū)別？

自動(dòng)駕駛車輛要在復(fù)雜多變的道路環(huán)境中安全行駛，不僅需要“看見”前方的車輛、行人和路面標(biāo)志，還需要“讀懂”交通標(biāo)識(shí)上的文字提示、施工告示牌和乘客的語言指令。之前和大家討論過VLA（相關(guān)閱讀：自動(dòng)駕駛中常

模型圖像視覺自動(dòng)駕駛 2025-08-08

具身智能VLA困于“數(shù)據(jù)泥潭”，靠人類活動(dòng)視頻數(shù)據(jù)能否破局？

前言盡管當(dāng)前的視覺-語言-動(dòng)作（VLA）模型已展現(xiàn)出顯著進(jìn)展，但其在新場景和與復(fù)雜物體交互中的性能會(huì)顯著下降，在遵循指令方面落后于像LLaVA 這樣的大型多模態(tài)模型（LMM）。這種局限性源于現(xiàn)有V

機(jī)器人視覺具身智能 2025-08-04

從“模仿”走向“思考”：VLA司機(jī)大模型帶來的變化

芝能智芯出品 VLA（Vision-Language-Action）駕駛大模型是理想汽車在2025年八月即將實(shí)現(xiàn)重要落地的輔助駕駛。不同于第一代的結(jié)構(gòu)化算法和第二代的端到端系統(tǒng)，采用了新的視覺-語言

模型推理駕駛 2025-07-31

VLA模型如何重塑具身智能 —— 8家國內(nèi)外典型具身智能VLA模型梳理與分析

一、國外典型具身智能VLA架構(gòu) 國外4家典型的具身智能VLA模型：谷歌DeepMind RT-2、Physical AI? π0?、Figure AI Helix 、英偉達(dá)GR00T N1。 1.?谷

機(jī)器人英偉達(dá) 2025-07-14

谷歌具身智能VLA模型RT-H—— 基于語言的動(dòng)作分層框架

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer ——?將語言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測層，從而通過語言化動(dòng)作

機(jī)器人指令 RT-H 模型 2025-07-10

產(chǎn)業(yè)丨谷歌發(fā)布本地VLA模型，具身智能正在進(jìn)入“端側(cè)時(shí)代”

前言：如果過去十年機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了[可見]的視覺感知、[可理解]的語言理解，那么在VLA模型出現(xiàn)之后，機(jī)器人開始進(jìn)入[動(dòng)作精準(zhǔn)]的第三階段。目前，VLA模型已逐漸成為具身智能行業(yè)的共識(shí)，被視為連接感知、語言和行為的通用架構(gòu)

谷歌具身智能 2025-07-04

谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

引言真正實(shí)用的機(jī)器人需要能夠理解周圍的物理世界，并以可靠且安全的方式與之交互。也就是說，基于物理實(shí)體的AI智能體必須具備魯棒的人類級(jí)具身推理能力，即包含在物理具身世界中操作和運(yùn)行所需的基礎(chǔ)概念的世界知識(shí)體系

機(jī)器人谷歌具身智能智能體 2025-06-25

自動(dòng)駕駛中常提的VLA是個(gè)啥？

隨著自動(dòng)駕駛技術(shù)落地，很多新技術(shù)或在其他領(lǐng)域被使用的技術(shù)也在自動(dòng)駕駛行業(yè)中得到了實(shí)踐，VLA就是其中一項(xiàng)，尤其是隨著端到端大模型的提出，VLA在自動(dòng)駕駛中的使用更加普遍。那VLA到底是個(gè)啥？它對(duì)于自動(dòng)

自動(dòng)駕駛 VLA 2025-06-18

一文看懂視覺語言動(dòng)作模型（VLA）及其應(yīng)用

VLA 應(yīng)該是自動(dòng)駕駛以及機(jī)器人產(chǎn)業(yè)前沿最熱的 AI人工智能詞語。我們之前文章《2025年，自動(dòng)駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和預(yù)言過它是自動(dòng)駕駛大模型2.0

視覺語言動(dòng)作模型 2025-06-12

邁向人類級(jí)駕駛智能：VLA視覺語言的行動(dòng)模型

芝能科技出品2025年，由于安全和強(qiáng)監(jiān)管的作用，輔助駕駛行業(yè)正處于黎明前的黑暗。面對(duì)復(fù)雜的現(xiàn)實(shí)路況、多樣的人類行為模式，以及傳統(tǒng)AI在泛化和理解能力上的瓶頸，理想汽車在《AI Talk第二季》系統(tǒng)性的闡述了“VLA（視覺語言行動(dòng)模型）”

智能駕駛視覺 2025-05-15

2025年，自動(dòng)駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)

太卷了，智能駕駛在國內(nèi)的落地發(fā)展太迅速了，從體驗(yàn)功能端，大家開城大戰(zhàn)打完了之后就進(jìn)入點(diǎn)到點(diǎn)的落地戰(zhàn)，點(diǎn)到點(diǎn)弄完了之后肯定Robotaxi大戰(zhàn)；而在硬核的軟件技術(shù)端，端到端大模型戰(zhàn)在華為這個(gè)月宣布急攻端到端大模型的信息下，已經(jīng)算是進(jìn)入焦灼狀態(tài)

機(jī)器人 VLA 自動(dòng)駕駛視覺算法 2024-12-23

VLA

為什么很多車企都青睞VLA模型？

已有VLM，自動(dòng)駕駛為什么還要探索VLA?

VLA和世界模型在自動(dòng)駕駛中可以融合嗎？