123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機器學(xué)習(xí) > 正文

2022~2025：2萬字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局

2025-07-21 14:37

機器覺醒時代

谷歌在具身智能領(lǐng)域的布局以具身智能大模型為技術(shù)基座，通過端云協(xié)同推理、開源工具鏈下沉、跨形態(tài)硬件泛化適配及漸進式場景驗證，構(gòu)建從感知到執(zhí)行的協(xié)同框架，探索具身智能機器人從單一任務(wù)工具向通用具身智能體的演進路徑。

谷歌具身智能基礎(chǔ)模型領(lǐng)域關(guān)鍵布局（機器覺醒時代制表）

2022年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2022年4月，谷歌推出具身智能模型 SayCan

盡管大型語言模型（LLMs）能從海量文本中習(xí)得豐富知識，但它們?nèi)狈ξ锢硎澜绲木呦笳J(rèn)知，也無法觀測自身生成內(nèi)容對物理過程的實際影響，難以支持在特定具身化實體中進行決策。

這使得其在將高級指令拆解為機器人可執(zhí)行的低級指令時，不僅可能產(chǎn)生人類眼中荒謬甚至滑稽的錯誤，更可能在特定物理場景中生成邏輯混亂或存在安全風(fēng)險的指令解析。

如下圖所示：當(dāng)具備"抓取海綿"、"移動到餐桌"等技能的廚房機器人收到"飲料灑了，能否幫忙清理？"的請求時，語言模型可能給出看似合理卻無法執(zhí)行的方案——例如建議"使用吸塵器清理"，但該方案在場景中無吸塵器，或具身智能體不具備操作吸塵器的能力時，會完全失效，因為具身智能體的本體能力范圍通常是固定且有限的。

SayCan模型通過預(yù)訓(xùn)練技能的價值函數(shù)實現(xiàn)語言模型現(xiàn)實落地

1）具身智能模型—— SayCan

通過提示詞工程，大型語言模型或許能夠?qū)⒏呒壷噶罘纸鉃樽尤蝿?wù)，但如果脫離機器人自身能力以及機器人與環(huán)境當(dāng)前狀態(tài)的語境，它就無法完成這種任務(wù)的分解。

因此，需要明確將高級指令分解為一系列可用的低級技能。其中，一種方法是精心設(shè)計提示詞，這是一種引導(dǎo)語言模型產(chǎn)生特定響應(yīng)結(jié)構(gòu)的技術(shù)。提示詞工程會在模型的上下文文本（即“提示詞”）中提供示例，明確指定任務(wù)以及模型需要模仿的響應(yīng)結(jié)構(gòu)。

然而，這并不足以將輸出完全限制在具身智能體可執(zhí)行的基本技能范圍內(nèi)，實際上，它有時會生成不可執(zhí)行的動作，或生成的語言格式難以解析為獨立步驟。

基于此，2022年4月，谷歌提出SayCan模型，旨在從大型語言模型（LLMs）中提取知識并將其應(yīng)用到實際物理任務(wù)的落地執(zhí)行中。其中，大型語言模型（Say）提供任務(wù)層面的落地能力，用于確定有助于實現(xiàn)高級目標(biāo)的有效動作；而習(xí)得的可供性函數(shù)（Can）提供世界層面的落地能力，用于判斷計劃中哪些動作（或計劃）是可執(zhí)行的。

具體來說，采用強化學(xué)習(xí)來為各個技能學(xué)習(xí)價值函數(shù)，該函數(shù)通過可供性表征物理世界的可行操作空間；隨后，再將這些技能的文本標(biāo)簽作為潛在響應(yīng)，由語言模型對其進行評分。

因此，技能和語言模型相結(jié)合進而形成了一種共生關(guān)系：技能及其價值函數(shù)可充當(dāng)語言模型的“手和眼”，而語言模型則提供關(guān)于如何完成任務(wù)的高層級語義知識。

通過預(yù)訓(xùn)練技能實現(xiàn)現(xiàn)實世界具身化 —— 這些技能將約束模型僅生成既可行又符合場景的文本動作指令，從而讓機器人等具身智能體能夠遵循高級文本指令 —— 大語言模型負(fù)責(zé)提供執(zhí)行復(fù)雜時序擴展指令的流程知識，而技能關(guān)聯(lián)的價值函數(shù)則構(gòu)建起連接知識與物理環(huán)境的關(guān)鍵具身化橋梁。

除了讓大型語言模型單純解讀指令外，還可以借助它對“單個技能在推進高級指令完成過程中所起作用的可能性” 進行評分 —— 若每個技能都有一個可供性函數(shù)（如習(xí)得的價值函數(shù)），用于量化其從當(dāng)前狀態(tài)成功執(zhí)行的可能性，那么該函數(shù)的數(shù)值便可用于對技能的可能性進行加權(quán)。

通過這種方式，大型語言模型會給出“每個技能對完成指令的貢獻概率”，而可供性函數(shù)會給出 “每個技能成功執(zhí)行的概率”—— 將兩者結(jié)合，就能得到 “每個技能成功完成指令的概率”。

另外，SayCan 還具有可解釋性特點：模型不僅輸出生成式響應(yīng)，還會給出多種可能響應(yīng)的概率分布。下圖展示了其核心機制：任務(wù)集（定義機器人低級策略可執(zhí)行的技能）與提示詞工程（提供計劃示例及人機對話格式約束）共同作用，將大型語言模型（LLM）的輸出約束為可執(zhí)行的技能序列。

SayCan模型執(zhí)行過程示意圖

2）在機器人系統(tǒng)中執(zhí)行SayCan

a. 語言條件型機器人控制策略

為實例化SayCan框架，需提供一組技能組件，每個組件包含策略模塊、價值函數(shù)及簡短語言描述（例如"拾取易拉罐"）。

在谷歌的實施方案中，各獨立技能的訓(xùn)練采用兩種方法：遵循BC-Z方法的圖像行為克隆，或采用MT-Opt的強化學(xué)習(xí)。

無論技能策略如何獲取，均使用基于時序差分備份（TD backups）訓(xùn)練的價值函數(shù)作為該技能的功能可供性模型。雖然當(dāng)前數(shù)據(jù)收集階段顯示行為克隆策略成功率更高，但強化學(xué)習(xí)策略提供的價值函數(shù)作為關(guān)鍵抽象層，能將控制能力轉(zhuǎn)化為場景語義理解。

為降低多技能訓(xùn)練成本，谷歌分別采用多任務(wù)行為克隆與多任務(wù)強化學(xué)習(xí)方案：通過以語言描述為輸入條件的多任務(wù)策略模型，替代為每個技能單獨訓(xùn)練策略和價值函數(shù)的傳統(tǒng)模式。

為了讓策略以語言為條件，谷歌采用了一個預(yù)訓(xùn)練的大型句子編碼器語言模型。在訓(xùn)練過程中，凍結(jié)該語言模型的參數(shù)，并使用通過輸入每個技能的文本描述生成的嵌入向量。這些文本嵌入向量被用作策略和價值函數(shù)的輸入，用于指定應(yīng)執(zhí)行的技能。

由于用于生成文本嵌入向量的語言模型與用于規(guī)劃的語言模型不一定相同，因此SayCan 能夠靈活運用不同的語言模型 —— 這些模型分別適用于不同的抽象層級，比如有的擅長理解涉及多個技能的規(guī)劃，有的則更適合細致地表達特定技能。

b. 訓(xùn)練低級技能

谷歌分別采用行為克隆（BC）和強化學(xué)習(xí)（RL）的策略訓(xùn)練流程，以獲得受語言條件約束的策略和價值函數(shù)。

行為克�。˙C）策略：谷歌以BC-Z為基礎(chǔ)，采用了類似的策略網(wǎng)絡(luò)架構(gòu)。該架構(gòu)的訓(xùn)練中，連續(xù)動作組件采用均方誤差（MSE）損失函數(shù)，離散動作組件采用交叉熵?fù)p失函數(shù)，且每個動作組件的權(quán)重相同。訓(xùn)練過程中使用了標(biāo)準(zhǔn)的圖像增強手段（隨機調(diào)整亮度和對比度）以及隨機裁剪。

BC策略中的網(wǎng)絡(luò)架構(gòu)

強化學(xué)習(xí)（RL）策略：谷歌在日常機器人模擬器中使用MT-Opt ，并結(jié)合 RetinaGAN 的模擬到現(xiàn)實遷移技術(shù)。通過利用模擬演示提供初始成功案例來提升模擬策略的性能，然后通過在線數(shù)據(jù)收集，持續(xù)改進強化學(xué)習(xí)效果。

RL策略中的網(wǎng)絡(luò)架構(gòu)

備注：

1）采用稀疏獎勵函數(shù)：若語言指令在一個回合結(jié)束時被成功執(zhí)行，獎勵值為1.0；否則為0。語言指令的執(zhí)行成功與否由人工評定 —— 評定者會觀看機器人執(zhí)行技能的視頻以及給定的指令。如果三名評定者中有兩名認(rèn)為技能已成功完成，則該回合被標(biāo)記為正向獎勵。

2）策略動作空間包括：末端執(zhí)行器姿態(tài)的六個自由度、夾爪的開合指令、機器人移動基座的x-y 位置和偏航角增量，以及終止動作。

3) SayCan的局限性

盡管SayCan 方法為語言模型與智能體行動能力的結(jié)合提供了可行路徑，但它仍存在諸多局限性。

首先，該方法繼承了大型語言模型（LLMs）的固有局限，尤其體現(xiàn)在對訓(xùn)練數(shù)據(jù)分布的強依賴上 —— 若訓(xùn)練數(shù)據(jù)中缺乏特定場景、指令或技能的樣本，語言模型可能無法生成合理的技能規(guī)劃，甚至?xí)敵雠c實際需求脫節(jié)的決策建議。

其次，盡管SayCan 支持用戶通過自然語言指令與智能體交互，但其性能的核心瓶頸在于底層技能庫的覆蓋范圍與執(zhí)行精度：若技能庫未包含完成任務(wù)所需的關(guān)鍵動作（如特定場景下的抓取姿勢、精細操作步驟），即便語言模型規(guī)劃邏輯嚴(yán)密，智能體也無法將規(guī)劃轉(zhuǎn)化為有效行動。

此外，當(dāng)前系統(tǒng)缺乏對技能執(zhí)行過程的實時反饋與動態(tài)調(diào)整機制：當(dāng)個別技能在語言模型評估為“高價值” 的情況下實際執(zhí)行失效時（如預(yù)期抓取物體卻未成功），系統(tǒng)難以快速修正執(zhí)行路徑。盡管通過優(yōu)化語言模型的提示策略可能在一定程度上緩解這一問題，但復(fù)雜場景下的魯棒性仍待提升。

同時，SayCan在復(fù)雜任務(wù)的長時序規(guī)劃上存在短板。對于需要多步驟協(xié)同的任務(wù)（如 “整理桌面并將文件放入抽屜”），語言模型可能難以將自然語言指令分解為連貫的技能序列，容易出現(xiàn)步驟遺漏或邏輯沖突（如先關(guān)閉抽屜再試圖放入文件），導(dǎo)致任務(wù)執(zhí)行中斷。

另外，系統(tǒng)對環(huán)境動態(tài)變化的適應(yīng)性較弱。若任務(wù)執(zhí)行過程中環(huán)境發(fā)生未預(yù)期的改變（如物體位置移動、突發(fā)障礙物出現(xiàn)），預(yù)先規(guī)劃的技能序列可能不再適用，而語言模型難以基于實時環(huán)境反饋快速更新規(guī)劃，導(dǎo)致智能體陷入“規(guī)劃 - 執(zhí)行” 脫節(jié)的困境。

最后，安全性校驗機制的缺失也是重要局限。語言模型可能推薦存在潛在風(fēng)險的技能（如抓取易碎品時采用不當(dāng)力度），但系統(tǒng)缺乏對技能安全性的前置評估，可能引發(fā)物體損壞或環(huán)境干擾等問題。

2. 2022年5月：谷歌發(fā)布通用具身智能體Gato

2022年5月，DeepMind發(fā)布通用具身智能體 Gato。它是一個集多模態(tài)、多任務(wù)、多具身特性于一體的通用智能體，其核心架構(gòu)采用了包含 11.8 億參數(shù)的Transformer序列模型。

核心設(shè)計：

繼承LLM的Transformer序列建模范式，通過將跨模態(tài)數(shù)據(jù)序列化（圖像分塊、動作離散化）擴展至物理交互領(lǐng)域；基于廣泛的多模態(tài)數(shù)據(jù)訓(xùn)練（涵蓋圖像、文本、本體狀態(tài)感知、關(guān)節(jié)扭矩、按鈕操作等），賦予模型對離散/連續(xù)觀測與動作的泛化處理能力。

通過使用一組具有相同權(quán)重的單一神經(jīng)網(wǎng)絡(luò)，可處理不同具身形態(tài)（如機械臂、仿生機器人）的多源傳感數(shù)據(jù)，實現(xiàn)跨場景感知與動作生成。

通用智能體Gato可適配不同具身形態(tài)

1）基礎(chǔ)模型訓(xùn)練數(shù)據(jù)

a. 控制任務(wù)數(shù)據(jù)（占比 85.3%）：包含游戲交互（如Atari游戲按鍵序列）、機器人操作（真實機械臂關(guān)節(jié)力矩、本體狀態(tài)感知數(shù)據(jù)）以及導(dǎo)航與規(guī)劃任務(wù)（如Meta-World中的機械臂操控、BabyAI中的3D導(dǎo)航）。這些數(shù)據(jù)主要來自模擬環(huán)境（如MuJoCo、DM Control Suite）和真實機器人平臺（如Sawyer機械臂）的軌跡記錄，總計覆蓋596項任務(wù)，占訓(xùn)練數(shù)據(jù)總量的85.3%。

b. 視覺與語言數(shù)據(jù)（占比 14.7%）：整合了純文本語料（對話、網(wǎng)頁文本）、圖像數(shù)據(jù)（如ImageNet）及圖文配對信息（圖像描述任務(wù)）。此類數(shù)據(jù)用于支持圖像字幕生成、文本對話等能力，但其占比顯著低于控制任務(wù)。

Gato模型訓(xùn)練所使用數(shù)據(jù)集

2）模型的訓(xùn)練與部署

a. 訓(xùn)練階段

來自不同任務(wù)和模態(tài)的數(shù)據(jù)被序列化為一個扁平的 Token 序列，分批處理后由 Transformer 神經(jīng)網(wǎng)絡(luò)處理。通過掩碼機制，損失函數(shù)僅應(yīng)用于目標(biāo)輸出（即文本和各種動作）。

Gato訓(xùn)練階段示意圖

b. 部署階段

采樣的 Tokens 會根據(jù)上下文組合成對話回復(fù)、圖像字幕、按鈕操作或其他動作。Gato 使用自回歸生成控制策略，預(yù)測 t+1 的編碼并反解碼為動作，與環(huán)境交互。

將Gato部署為策略的過程示意圖

3）Gato —— 邁向AGI的關(guān)鍵一步

Gato 首次提出 “通才智能體（Generalist Agent）”概念，將 AI研究從“任務(wù)特定優(yōu)化”轉(zhuǎn)向“跨多任務(wù)統(tǒng)一建模”。

a. 方法論革新：擴展LLM的“預(yù)訓(xùn)練+微調(diào)”范式至物理交互場景，通過數(shù)據(jù)序列化（圖像分塊、動作離散化等）實現(xiàn)多模態(tài)統(tǒng)一處理，首次驗證Transformer在低維連續(xù)控制任務(wù)（如機械臂操作）中的潛力，但未突破其短期記憶瓶頸。例如，Gato在物理任務(wù)中依賴專家演示數(shù)據(jù)，且未解決長期記憶問題（上下文窗口僅1024 tokens）。

b. AGI路徑探索：通過參數(shù)縮放實驗（79M→364M→1.18B）驗證模型規(guī)模、數(shù)據(jù)多樣性與多任務(wù)泛化能力的正相關(guān)性，為通用模型研發(fā)提供實證依據(jù)；但后續(xù)研究表明，單純擴大規(guī)模難以提升專業(yè)化能力，需結(jié)合“通專融合”架構(gòu)解決任務(wù)可持續(xù)性問題。

Gato驗證并實現(xiàn)了跨模態(tài)統(tǒng)一建模，將計算機視覺（CV）、自然語言處理（NLP）和機器人控制等不同模態(tài)數(shù)據(jù)（如圖像、文本、傳感器信號、關(guān)節(jié)力矩）通過統(tǒng)一的Transformer 序列模型進行處理。

數(shù)據(jù)序列化：所有模態(tài)數(shù)據(jù)被轉(zhuǎn)化為Token序列（如文本通過SentencePiece編碼，圖像分割為 16x16 圖塊，連續(xù)狀態(tài)和動作通過標(biāo)量離散化），形成統(tǒng)一輸入空間；

模型參數(shù)共享：同一套11.8 億參數(shù)的模型可同時處理視覺識別、語言對話、機器人操作等任務(wù)，避免了傳統(tǒng)方法為每個任務(wù)單獨設(shè)計模型的冗余；

動態(tài)決策：模型基于輸入序列的上下文自回歸地預(yù)測下一個Token，該Token可以自動對應(yīng)到不同的輸出模態(tài)（如生成文本回復(fù)、游戲按鍵或機械臂控制指令），實現(xiàn)跨模態(tài)無縫交互。

總而言之，Gato在跨模態(tài)整合、任務(wù)通用性上的突破，被學(xué)界視為邁向通用人工智能的關(guān)鍵一步。

4）Gato的局限性

有業(yè)內(nèi)相關(guān)專家指出，Gato模型的最大價值之一是將強化學(xué)習(xí)、計算機視覺與自然語言處理三大領(lǐng)域深度融合。盡管技術(shù)路徑上借鑒了既有框架，但能將圖像、文本與機器控制等不同模態(tài)數(shù)據(jù)映射至同一表征空間，并用同一套模型參數(shù)實現(xiàn)統(tǒng)一表達，已實屬難得。

但是，Gato總體上依然是數(shù)據(jù)驅(qū)動的方式，且并沒有在訓(xùn)練分布外的任務(wù)上獲得較好效果。同時，訓(xùn)練數(shù)據(jù)總體上偏向游戲和機器人控制任務(wù)，采用有監(jiān)督的離線訓(xùn)練方式，依賴專家數(shù)據(jù)，未充分利用強化學(xué)習(xí)的核心機制——獎勵信號和在線交互。例如，其機器人控制任務(wù)的成功依賴預(yù)訓(xùn)練的專家軌跡，而非通過實時獎勵優(yōu)化策略。

這一局限性在后續(xù)模型RoboCat中通過自我改進循環(huán)（Self-Improvement Loop）得到部分解決。

3. 2022年10月：谷歌發(fā)布機器人Transformer模型RT-1

2022 年 10 月，谷歌 DeepMind 發(fā)布 RT-1 模型，其訓(xùn)練數(shù)據(jù)源自 13 臺機器人持續(xù) 17 個月采集的超 13 萬條任務(wù)片段。該研究開創(chuàng)性地將Transformer的應(yīng)用向前推進 —— 將語言和視覺觀測到機器人動作的映射視為一個序列建模問題，并利用Transformer學(xué)習(xí)這一映射。

能否借助多樣化的機器人任務(wù)數(shù)據(jù)，訓(xùn)練出統(tǒng)一且強大的多任務(wù)骨干模型，使其具備對新任務(wù)、操作環(huán)境及物體的零樣本泛化能力？這一目標(biāo)面臨兩大核心挑戰(zhàn)：數(shù)據(jù)集構(gòu)建與模型設(shè)計。谷歌RT-1模型正是針對該命題的突破性探索。在RT-1模型的研究探索中，谷歌DeepMind 研究人員發(fā)現(xiàn)：

數(shù)據(jù)模型要實現(xiàn)優(yōu)質(zhì)泛化，必須構(gòu)建兼具規(guī)模與廣度的數(shù)據(jù)集，覆蓋多樣化任務(wù)與場景。同時，數(shù)據(jù)集中的任務(wù)需具備強關(guān)聯(lián)性以支撐泛化，使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)間的內(nèi)在規(guī)律，并通過創(chuàng)新性組合完成新任務(wù)。

模型架構(gòu)設(shè)計的挑戰(zhàn)在于—— 高效的多任務(wù)機器人學(xué)習(xí)需要的高容量模型。

1）RT-1模型工作原理

RT-1執(zhí)行閉環(huán)控制，并以3Hz的頻率持續(xù)輸出動作指令，直至觸發(fā)"終止"動作或達到預(yù)設(shè)時間步上限。

首先通過ImageNet預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)EfficientNet處理圖像，該網(wǎng)絡(luò)通過FiLM模塊與指令的預(yù)訓(xùn)練嵌入向量進行條件調(diào)節(jié)；隨后采用令牌學(xué)習(xí)器（tokenLearner）生成緊湊令牌集( set of tokens)；最終由Transformer對這些令牌執(zhí)行注意力計算，輸出離散化動作令牌(action token)。

RT-1工作流程圖

RT-1架構(gòu)包含以下核心內(nèi)容：

RT-1架構(gòu)圖

a. EfficientNet網(wǎng)絡(luò)

RT-1通過將6 幅圖像的歷史記錄輸入一個基于ImageNet 預(yù)訓(xùn)練的 EfficientNet-B3模型來對其進行令牌化。

該模型接收分辨率為 300×300 的6幅圖像作為輸入，并從最終的卷積層輸出一個形狀為 9×9×512 的空間特征圖。

為了包含語言指令，研究人員使用預(yù)訓(xùn)練的語言嵌入形式，讓圖像令牌化器以自然語言指令為條件，從而能夠在早期提取任務(wù)相關(guān)的圖像特征，并提升 RT-1 的性能。

EfficientNet是一種卷積神經(jīng)網(wǎng)絡(luò)（CNN），是高效的 “圖像特征提取器”。它好比是提取畫面特征的“圖像翻譯官”，專門用來從圖像中提取特征，用于識別物體、分析場景等。

類似人類看照片時自動識別 “物體輪廓”，該卷積網(wǎng)絡(luò)提前在 ImageNet（大規(guī)模圖像數(shù)據(jù)集）上學(xué)過識別貓、車、杯子等物體，能從攝像頭畫面中快速提取所要識別物體的關(guān)鍵特征。

b. FiLM 模塊

指令首先通過通用句子編碼器（USE）進行嵌入。然后，將該嵌入用作輸入，輸入到恒等初始化的 FiLM層，這些 FiLM 層被添加到預(yù)訓(xùn)練的 EfficientNet 中，以調(diào)節(jié)圖像編碼器。

FiLM 模塊好比是指令與圖像的 “融合濾鏡”。指令（比如 “把杯子拿到桌子上”）會先被轉(zhuǎn)換成機器能懂的 “數(shù)字密碼”（預(yù)訓(xùn)練嵌入向量）。FiLM 模塊就像一個調(diào)節(jié)旋鈕，用這個 “密碼” 去調(diào)整圖像特征：如果指令是 “拿杯子”，F(xiàn)iLM 會讓卷積網(wǎng)絡(luò)提取的特征更關(guān)注 “杯子的位置和把手”，忽略背景中的沙發(fā)。

c. TokenLearner（令牌學(xué)習(xí)器）

加入 TokenLearner后，將從預(yù)訓(xùn)練的 FiLM-EfficientNet層輸出的 81個視覺令牌二次采樣到僅剩8個最終令牌，然后這些令牌被傳遞到Transformer 層。

TokenLearner可類比成是特征的 “智能摘要工具”。卷積網(wǎng)絡(luò)處理后的圖像特征可能包含數(shù)萬維數(shù)據(jù)（比如一張圖拆成 1000 個小區(qū)域的特征），直接處理像 “讀一本厚書”，效率很低。令牌學(xué)習(xí)器會自動挑選最重要的特征，把海量數(shù)據(jù) “壓縮” 成幾十個關(guān)鍵 “令牌”（Token），類似從書中提取 “杯子、桌子、位置” 等關(guān)鍵詞，扔掉無關(guān)細節(jié)（比如杯子上的花紋）。這樣一來，數(shù)據(jù)量大幅減少，后續(xù)模型處理速度就像 “從讀整本書變成看目錄”，效率飆升。

d. Transformer

每幅圖像產(chǎn)生的這8個令牌隨后會與歷史記錄中的其他圖像令牌拼接，形成總共 48 個令牌（并添加了位置編碼），輸入到 RT-1 的 Transformer 骨干網(wǎng)絡(luò)中。該Transformer 是一個19M參數(shù)的，且僅包含解碼器的序列模型，具有8個自注意力層，其輸出是動作令牌。

Transformer可以看成是基于“關(guān)鍵詞”的注意力決策者。Transformer 就像一個經(jīng)驗豐富的 “規(guī)劃師”，它會分析壓縮后的令牌（圖像關(guān)鍵詞）和指令密碼，并最終輸出機器人的動作執(zhí)行指令。

e. 其它

動作令牌化（Action Tokenization）—— 為了對動作進行令牌化，RT-1中的每個動作維度都被離散化為256個bins。

動作維度包括：機械臂運動的七個變量（x, y, z, roll, pitch, yaw, 夾爪開合度）、底盤運動的三個變量（x, y, yaw）以及一個用于在三種模式（控制機械臂、控制底盤和終止任務(wù)片段）間切換的離散變量。

對于每個變量，研究人員將目標(biāo)值映射到這256個bins中的一個，這些bins在每個變量的取值范圍內(nèi)均勻分布。

損失函數(shù) —— 研究人員使用了標(biāo)準(zhǔn)的分類交叉熵目標(biāo)函數(shù)和因果掩碼。

推理速度—— 一個需要在真實機器人上實時運行的模型的獨特要求之一是快速且穩(wěn)定的推理速度。研究人員采用了兩種技術(shù)來加速推理：

通過使用TokenLearner，減少由預(yù)訓(xùn)練 EfficientNet 模型生成的令牌數(shù)量；

僅計算這些令牌一次，并在后續(xù)存在重疊的推理窗口中復(fù)用它們。

這兩項技術(shù)將模型推理速度分別提升了2.4倍和1.7倍。

2) RT-1局限性

盡管RT-1 在多項關(guān)鍵指標(biāo)上表現(xiàn)突出：以 97% 成功率執(zhí)行超 700 條指令，在新任務(wù)、物體與環(huán)境的泛化能力上超越已發(fā)布基線模型；能有效融合模擬環(huán)境與異構(gòu)機器人形態(tài)的數(shù)據(jù)，且在不削弱原任務(wù)性能的前提下增強新場景適應(yīng)性；還可在SayCan框架中完成長達50步的長時程任務(wù) —— 但該模型仍存在一定局限性。

RT-1 的訓(xùn)練數(shù)據(jù)雖覆蓋大規(guī)模操作任務(wù)，但主要針對靈巧度要求不高的操作場景；

RT-1是一種模仿學(xué)習(xí)方法，繼承了該類方法固有的挑戰(zhàn)，例如，可能無法超越演示者的性能水平。

RT-1對新指令的泛化僅限于先前見過的概念組合，尚無法泛化到前所未見的全新動作。

2023年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2023年3月：谷歌發(fā)布具身多模態(tài)視覺語言大模型PaLM-E

2023年3月，谷歌和柏林工業(yè)大學(xué)的團隊正式推出PaLM-E。該模型之所以命名為 PaLM-E，是因為它采用 PaLM作為預(yù)訓(xùn)練語言模型，并使其具備了具身能力（Embodied）。

PaLM-E是一個單一的、大型的通用型多模態(tài)語言模型，能夠?qū)⒁曈X-語言領(lǐng)域的知識遷移到具身推理領(lǐng)域，適用于具身推理任務(wù)、視覺-語言任務(wù)和語言任務(wù)，包括序列化機器人操作規(guī)劃、視覺問答和圖像描述生成等。

該模型可直接整合來自具身智能體傳感器模態(tài)的連續(xù)輸入，從而使語言模型本身能夠做出更貼近現(xiàn)實的推理，以支持現(xiàn)實世界中的序列化決策。

圖像和狀態(tài)估計等輸入會被嵌入到與語言令牌（Language Tokens）相同的潛在嵌入空間中，并由基于 Transformer 的大型語言模型（LLM）的自注意力層以與處理文本相同的方式進行處理。

PaLM-E系統(tǒng)架構(gòu)

1）PaLM-E模型整體架構(gòu)

PaLM-E模型的架構(gòu)由三部分構(gòu)成：多模態(tài)編碼器、投影器和僅含解碼器的大型語言模型（LLM）。它能在給定前綴或提示的情況下，以自回歸方式生成文本補全內(nèi)容。

其主要架構(gòu)思路是將連續(xù)的具身觀察信息（如圖像、狀態(tài)估計或其他傳感器模態(tài)）注入預(yù)訓(xùn)練語言模型的語言嵌入空間。其具體實現(xiàn)方式：將連續(xù)觀察信息編碼為一系列向量，這些向量的維度與語言標(biāo)記的嵌入空間維度相同。因此，連續(xù)信息以類似于語言令牌的方式被注入語言模型中。

PaLM-E 的輸入: 包括文本和（多個）連續(xù)觀察數(shù)據(jù)。與這些觀察數(shù)據(jù)對應(yīng)的多模態(tài)令牌與文本交錯排列，形成多模態(tài)句子。例如：What happened between and ? where represents an embedding of an image. 其中，代表圖像的嵌入向量。

PaLM-E 的輸出: 是模型通過自回歸方式生成的文本，既可以是問題的答案，也可以是PaLM-E 以文本形式生成的、由機器人執(zhí)行的一系列決策。

為實現(xiàn)模型輸出與具身智能體的連接，該研究將其區(qū)分為兩種具體情況：

a. 如果任務(wù)僅通過輸出文本即可完成（例如，在具身問答或場景描述任務(wù)中），那么模型的輸出就直接被視為該任務(wù)的解決方案。

b. 如果是解決具身規(guī)劃或控制任務(wù)，它會生成文本以調(diào)控低級指令。

具體而言，假設(shè)有一些策略能夠執(zhí)行來自某個（小型）詞匯表的低級技能，而PaLM-E 生成的有效規(guī)劃必須由一系列此類技能構(gòu)成。

但是，PaLM-E 必須根據(jù)訓(xùn)練數(shù)據(jù)和提示信息自行判斷可用的技能，且沒有其他機制用于約束或過濾其輸出。盡管這些策略是受語言調(diào)控的，但它們無法解決長時程任務(wù)或處理復(fù)雜指令。

因此，PaLM-E 被整合到控制環(huán)路中，其預(yù)測的決策由機器人通過低級策略執(zhí)行，進而產(chǎn)生新的觀察結(jié)果 —— 基于這些結(jié)果，PaLM-E 可在必要時重新規(guī)劃。從這個意義上來說，PaLM-E可以被理解為一種高級策略，用于對低級策略進行排序和控制。

2) 不同傳感器模態(tài)的輸入與場景表征

針對不同傳感器模態(tài)（如狀態(tài)估計向量、二維圖像等），需采用專用編碼器進行處理。為此，谷歌提出差異化的編碼器架構(gòu)選擇：通過映射函數(shù)將對應(yīng)模態(tài)數(shù)據(jù)對齊至語言嵌入空間。具體研究涵蓋以下模態(tài)處理方案：

狀態(tài)估計向量：采用多層感知器（MLP）。狀態(tài)向量（例如來自機器人的向量或?qū)ο蟮臓顟B(tài)估計向量）包含這些對象的位姿、大小、顏色等信息。多層感知器（MLP）會將狀態(tài)向量映射到語言嵌入空間中。

二維圖像特征：采用視覺 Transformer（ViT）。ViT是一種Transformer架構(gòu)，能將圖像映射為多個標(biāo)記嵌入向量。研究人員考慮了多種變體，包括 40 億參數(shù)模型的ViT-4B），以及220 億參數(shù)模型 ViT-22B，這兩種模型均在圖像分類任務(wù)上進行過預(yù)訓(xùn)練。

三維場景表征：采用對象場景表征Transformer（OSRT）。它不依賴于對象的外部知識，而是通過架構(gòu)中的歸納偏置以無監(jiān)督方式發(fā)現(xiàn)對象�；� SRT，OSRT 通過新穎的視圖合成任務(wù)，在領(lǐng)域內(nèi)數(shù)據(jù)上學(xué)習(xí)以三維為中心的神經(jīng)場景表征。

3）PaLM-E模型訓(xùn)練方法

PaLM-E 以預(yù)訓(xùn)練的PaLM 模型（分別為80億、620億和5400億參數(shù)的僅含解碼器版本）為基礎(chǔ)，通過輸入編碼器向其中注入連續(xù)觀察數(shù)據(jù)。

PaLM-E-12B：80 億參數(shù)LLM與 40 億參數(shù)ViT相結(jié)合；

PaLM-E-84B：620億參數(shù)LLM與220億參數(shù)ViT相結(jié)合；

PaLM-E-562B：5400億參數(shù)LLM與 220 億參數(shù)ViT相結(jié)合。

備注：PaLM-E-562B ——盡管它僅在單圖像樣本上進行過訓(xùn)練，但卻具備多種能力，包括零樣本多模態(tài)思維鏈（CoT）推理、少樣本提示、無需光學(xué)字符識別（OCR）的數(shù)學(xué)推理以及多圖像推理。

a. 訓(xùn)練方法1：更新所有組件的參數(shù)。然而，若能提供合適的提示，大型語言模型會展現(xiàn)出令人印象深刻的推理能力。

b. 訓(xùn)練方法2：凍結(jié)大型語言模型，僅訓(xùn)練輸入編碼器；在這種情況下，編碼器必須生成嵌入向量，使凍結(jié)的大型語言模型能基于觀察數(shù)據(jù)，并將具身實體的能力信息傳遞給大型語言模型。訓(xùn)練此類編碼可理解為一種輸入條件化的軟提示，與常規(guī)軟提示相關(guān)。

c. 訓(xùn)練方法3：跨任務(wù)協(xié)同訓(xùn)練: 在多種不同數(shù)據(jù)上對模型進行協(xié)同訓(xùn)練。其中，“完整混合數(shù)據(jù)集”主要包含大規(guī)�；ヂ�(lián)網(wǎng)級別的視覺 - 語言數(shù)據(jù)，涵蓋多種任務(wù)。其采樣頻率設(shè)置為：完整混合數(shù)據(jù)集中僅有 8.9% 是具身數(shù)據(jù)，且每個具身場景下包含多個任務(wù)。

實驗結(jié)果顯示，相較于僅在不同任務(wù)上單獨訓(xùn)練，在“完整混合數(shù)據(jù)集” 上進行協(xié)同訓(xùn)練的模型，性能提升了一倍以上。

4）研究發(fā)現(xiàn)

a. 盡管當(dāng)前最先進的通用視覺- 語言模型在零樣本情況下無法很好地解決具身推理問題，但通過訓(xùn)練，在多模態(tài)大型語言模型的訓(xùn)練中融入具身數(shù)據(jù)，可以訓(xùn)練出一個具備通用性、遷移學(xué)習(xí)能力且適用于多具身形式的決策智能體 —— 一個既能勝任通用視覺 - 語言任務(wù)，又能高效進行具身推理的模型。

b. 相較于單任務(wù)訓(xùn)練范式，多任務(wù)聯(lián)合訓(xùn)練顯著提升模型綜合性能。其核心價值在于跨任務(wù)知識遷移能力——該機制大幅提高機器人任務(wù)的數(shù)據(jù)利用效率（例如僅需10%的示范數(shù)據(jù)即可達到同等成功率），并賦予模型對新物體組合的強泛化能力（單樣本泛化成功率提升37%）及開放世界物體的零樣本操作能力。

c. 在多模態(tài)模型聯(lián)合訓(xùn)練過程中，研究揭示兩種保持PaLM-E語言能力的有效途徑：

參數(shù)凍結(jié)策略：鎖定大型語言模型（LLM）參數(shù)，僅訓(xùn)練輸入編碼器——此方案顯著降低訓(xùn)練成本，成為構(gòu)建具身語言模型的高效方法。

規(guī)�；说蕉擞�(xùn)練：當(dāng)進行全模型端到端訓(xùn)練時，模型參數(shù)量與語言能力保留度呈正相關(guān)（例如562B的PaLM-E模型保留540B的PaLM模型96%的語言性能），可有效抑制具身化過程中的災(zāi)難性遺忘現(xiàn)象。

基于語言任務(wù)的實驗結(jié)果

備注：通用語言任務(wù)實驗結(jié)果表明——隨著模型規(guī)模擴大，PaLM-E模型相較于其基礎(chǔ)PaLM模型的災(zāi)難性遺忘程度顯著降低。

2. 2023年6月：谷歌發(fā)布通用智能體RoboCat

2023年6月，谷歌DeepMind推出多具身形態(tài)、多任務(wù)通用智能體RoboCat——一種基于視覺目標(biāo)條件的決策Transformer，可處理動作標(biāo)注的視覺經(jīng)驗數(shù)據(jù)，能夠通過自身生成的數(shù)據(jù)進行訓(xùn)練迭代實現(xiàn)自我改進。

1）對Gato的繼承和創(chuàng)新RoboCat

直接沿用Gato的多模態(tài)Transformer架構(gòu)作為基礎(chǔ)，將視覺、語言、動作數(shù)據(jù)統(tǒng)一處理為離散token序列。這一設(shè)計被認(rèn)為是DeepMind在通用智能體Gato的技術(shù)路線上的延續(xù)。

另外，在Gato基礎(chǔ)上，RoboCat針對機器人任務(wù)強化了以下能力：

a. 動作輸出適配：RoboCat 針對機器人任務(wù)的動作頭擴展并非簡單的維度調(diào)整，而是通過動態(tài)動作空間映射實現(xiàn)的深度優(yōu)化。

多自由度兼容設(shè)計：動作頭支持混合動作表示，可同時處理離散動作（如按鍵）和連續(xù)動作（如關(guān)節(jié)力矩）；引入動作頭參數(shù)共享機制，即不同機械臂的動作頭共享底層Transformer 參數(shù)，但通過任務(wù)特定的適配器（Adapter）實現(xiàn)自由度差異的動態(tài)適配。

硬件無關(guān)的控制接口：通過統(tǒng)一動作語義空間實現(xiàn)跨機械臂遷移。例如，抓取動作在不同機械臂中被抽象為"閉合夾具" 的語義指令，動作頭根據(jù)當(dāng)前機械臂的自由度自動生成具體的關(guān)節(jié)角度序列。另外，引入動作空間正則化技術(shù)：在訓(xùn)練階段，通過對抗訓(xùn)練使動作頭輸出分布與機械臂物理約束對齊，避免生成超出關(guān)節(jié)極限的動作。

b. 目標(biāo)條件策略：RoboCat 的目標(biāo)圖像輸入通道并非簡單的輸入擴展，而是構(gòu)建了端到端的視覺 - 動作閉環(huán)。

目標(biāo)圖像的多模態(tài)融合：目標(biāo)圖像通過預(yù)訓(xùn)練的VQ-GAN 編碼器轉(zhuǎn)化為 token 序列，并與當(dāng)前觀測圖像 token、動作 token、任務(wù)描述 token 共同輸入 Transformer；引入目標(biāo)-觀測注意力機制：Transformer 在處理序列時，會動態(tài)計算目標(biāo)圖像 token 與當(dāng)前觀測 token 的相關(guān)性，優(yōu)先關(guān)注需要調(diào)整的區(qū)域。

閉環(huán)控制的實時性優(yōu)化：采用時序目標(biāo)對齊技術(shù)，將目標(biāo)圖像分解為時間序列token，并與當(dāng)前動作序列token 進行時序?qū)R訓(xùn)練；引入失敗補償機制 —— 當(dāng)動作執(zhí)行未達到目標(biāo)時，模型會自動生成補償動作。

2) 自我改進閉環(huán)學(xué)習(xí)機制

研究實驗表明，RoboCat既能零樣本泛化到新任務(wù)與新形態(tài)機器人，也可僅通過100-1000個目標(biāo)任務(wù)樣本的微調(diào)，快速適配到不同的新任務(wù)，包括新機器人具身、未見過的行為、物體和感知變體（光照/視角等感知條件變化），以及從仿真模擬到真實的遷移。

此外，訓(xùn)練后的模型自身可生成數(shù)據(jù)用于后續(xù)訓(xùn)練迭代，從而構(gòu)建自我改進閉環(huán)學(xué)習(xí)機制 —— 研究人員使用多樣化的訓(xùn)練數(shù)據(jù)集來訓(xùn)練該通用智能體的初始版本，該版本可通過100-1000 次演示數(shù)據(jù)微調(diào)至適配新任務(wù)，隨后部署到真實機器人上，為這些任務(wù)生成更多數(shù)據(jù)。生成的新數(shù)據(jù)將被添加到訓(xùn)練數(shù)據(jù)集中，用于RoboCat的下一迭代版本訓(xùn)練，這種機制在一定程度上突破了傳統(tǒng)機器人依賴真機數(shù)據(jù)的局限，使模型能持續(xù)進化變成可能。

如下圖所示，RoboCat通過自我改進閉環(huán)流程持續(xù)提升智能體能力——增強其跨任務(wù)遷移性、通過微調(diào)擴展適配任務(wù)范圍，并在現(xiàn)有任務(wù)中實現(xiàn)性能突破。

RoboCat自我改進閉環(huán)流程機制

3）基礎(chǔ)模型訓(xùn)練數(shù)據(jù)

RoboCat 的訓(xùn)練數(shù)據(jù)集聚焦于視覺目標(biāo)條件下的機器人操作任務(wù)，且針對性覆蓋了多形態(tài)硬件和復(fù)雜場景，包含400 萬次機器人操作片段，涵蓋物體分揀、工具使用、導(dǎo)航等多樣化場景。

多具身形態(tài)適配：數(shù)據(jù)來自4 種不同類型的真實機器人（如 Sawyer、Panda 機械臂）及模擬環(huán)境，包含不同自由度、觀察空間和動作規(guī)范的操作序列。

任務(wù)多樣性覆蓋：訓(xùn)練數(shù)據(jù)覆蓋253 項基礎(chǔ)任務(wù)及 141 項變體，涉及精密裝配（如齒輪插入、積木堆疊等）、基礎(chǔ)操作類（如抓取指定物體、分揀水果等）等場景。

4）RoboCat的局限性

在具身智能領(lǐng)域，機器人面臨的最大挑戰(zhàn)是如何像人類一樣快速適應(yīng)新任務(wù)與環(huán)境。RoboCat首次在通用機器人領(lǐng)域?qū)崿F(xiàn)了“學(xué)習(xí)-實踐-進化”的完整閉環(huán)，為破解這一難題提供了全新路徑。

這一突破性技術(shù)通過在模擬與真實環(huán)境中融合跨機器人經(jīng)驗，結(jié)合生成式人工智能的自我數(shù)據(jù)增強能力，顯著降低了新技能學(xué)習(xí)所需的人類演示數(shù)據(jù)量。然而，在動態(tài)環(huán)境適應(yīng)性、跨本體泛化效率等方面仍存在明顯局限。

1）動態(tài)環(huán)境應(yīng)對不足：物理建模深度的不夠

RoboCat在靜態(tài)桌面操作（如抓取固定物體、堆疊積木）中表現(xiàn)出色，但面對動態(tài)交互場景時性能急劇下降。例如在抓取滾動球體任務(wù)中，其成功率不足30%，遠低于工業(yè)場景要求的95%+的可靠性標(biāo)準(zhǔn)。這本質(zhì)上是世界模型缺失的體現(xiàn)。與人類基于物理直覺預(yù)判行為后果不同，RoboCat僅建立“圖像-動作”的統(tǒng)計關(guān)聯(lián)，缺乏對“力-運動-形變”因果鏈的內(nèi)在表征。當(dāng)環(huán)境變量超出訓(xùn)練集分布時（如地面材質(zhì)由木質(zhì)變?yōu)榻饘伲�，模型無法通過物理推理調(diào)整策略，導(dǎo)致跨場景泛化崩潰。

2）硬件適配的柔性瓶頸：本體特化與通用性的兩難

雖然RoboCat支持跨機械臂遷移，但其適配效率仍受限于本體動力學(xué)特性差異。當(dāng)新硬件與訓(xùn)練集機械臂存在顯著動力學(xué)差異時，微調(diào)成本劇增。這些問題暴露了跨本體適配的“表面泛化”特性：模型可適應(yīng)外形相似、自由度相近的機械臂，但對動力學(xué)特性迥異的系統(tǒng)，仍需近乎重訓(xùn)級的深度調(diào)整。

3. 2023年7月：谷歌發(fā)布機器人VLA模型RT-2

2023年7月，谷歌DeepMind發(fā)布具身智能視覺-語言-動作模型（VLA）RT-2（Robotics Transformer 2）。其核心設(shè)計是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機器人動作軌跡數(shù)據(jù)對預(yù)訓(xùn)練好的視覺-語言模型（VLM）進行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識遷移到機器人控制中，實現(xiàn)端到端的語義推理與動作生成。

1）模型架構(gòu)

RT-2以預(yù)訓(xùn)練的視覺-語言模型為核心骨干，通過動作 Token 化將機器人控制任務(wù)統(tǒng)一到自然語言生成框架中，形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對應(yīng)的實例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

RT-2模型架構(gòu)

2）聯(lián)合微調(diào)（Co-Fine-Tune）

將機器人動作數(shù)據(jù)（來自RT-1）與網(wǎng)絡(luò)數(shù)據(jù)混合，共同輸入模型進行聯(lián)合微調(diào)。其中，網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺問答（VQA）、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機器人動作數(shù)據(jù)為13臺機器人持續(xù)17個月采集的辦公環(huán)境中的廚房場景數(shù)據(jù)（與RT-1訓(xùn)練所使用的數(shù)據(jù)相同）。

在具體實現(xiàn)方案中，谷歌DeepMind通過提高機器人動作數(shù)據(jù)集的采樣權(quán)重，以平衡每批次訓(xùn)練數(shù)據(jù)中機器人動作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。

模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動作空間之間的映射關(guān)系。為此，需要預(yù)先保留256 個標(biāo)記（tokens）作為專用的動作標(biāo)記。具體選擇哪些標(biāo)記作為動作標(biāo)記，取決于所使用的視覺語言模型（VLM）的分詞方案：

PaLI-X：由于其分詞方案為每個不超過 1000 的整數(shù)分配了唯一的標(biāo)記，因此可直接將 action bins 映射到對應(yīng)的整數(shù)標(biāo)記上。

PaLM-E：該模型的分詞方案不包含數(shù)字的直接表示，因此需要覆蓋詞匯表中 256個使用頻率最低的標(biāo)記，將它們重新定義為動作詞匯表。

DeepMind通過實驗證明 —— 提升機器人性能的關(guān)鍵訓(xùn)練技巧在于：將機器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進行聯(lián)合微調(diào)，而非僅對機器人數(shù)據(jù)實施簡單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強的策略，因為在此過程中，策略同時接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺概念和微調(diào)過程中的低層級機器人動作，而非僅局限于機器人動作。

3）RT-2的局限性

本文闡述了如何通過結(jié)合視覺語言模型（VLM）預(yù)訓(xùn)練與機器人數(shù)據(jù)來訓(xùn)練視覺語言動作（VLA）模型。

谷歌DeepMind提出了基于PaLM-E和PaLI-X的兩種VLA實現(xiàn)方案，分別命名為RT-2-PaLM-E和RT-2-PaLI-X。這些模型通過機器人軌跡數(shù)據(jù)進行聯(lián)合微調(diào)，以輸出表示為文本標(biāo)記的機器人動作。

研究表明，該方法不僅能生成高性能的機器人策略，更重要的是其泛化能力顯著提升，并繼承了大規(guī)模網(wǎng)絡(luò)視覺- 語言預(yù)訓(xùn)練所賦予的涌現(xiàn)能力。

盡管RT-2展現(xiàn)出優(yōu)異的泛化性能，該方法仍存在多重局限。

1）局限一：可用的開源VLM模型少

目前僅有少量可用于創(chuàng)建RT-2 的通用視覺 - 語言模型（VLM），期待更多開源模型及開放專有模型的微調(diào)API——這是構(gòu)建VLA模型的必要條件。

2）局限二：動作創(chuàng)新能力受限

VLM通過網(wǎng)絡(luò)規(guī)模預(yù)訓(xùn)練可提升語義與視覺概念的泛化能力，但機器人并未因包含這些額外經(jīng)驗而獲得執(zhí)行新動作的能力。

模型的物理技能仍局限于機器人數(shù)據(jù)中所見的技能分布，僅能創(chuàng)新性地組合已有技能。DeepMind認(rèn)為這源于數(shù)據(jù)集的技能多樣性不足所致。未來研究的關(guān)鍵方向是探索通過新數(shù)據(jù)收集范式（如人類操作視頻）獲取新技能。

3）局限三：實時推理瓶頸

盡管實現(xiàn)了大型VLA模型的實時運行，但其計算成本仍高昂。若應(yīng)用于需高頻控制的場景，實時推理將成為主要瓶頸。未來研究需探索量化和蒸餾技術(shù)，以提升模型速率或適配低成本硬件。

4. 2023年10月：谷歌發(fā)布機器人VLA模型RT-X

2023年10月，谷歌DeepMind發(fā)布了通用具身智能模型RT-X（含RT-1-X和RT-2-X），并開源其訓(xùn)練數(shù)據(jù)集Open X-Embodiment。

RT-X 模型并非指單一模型，而是一個項目/系列。在原有 RT-1 和 RT-2 的框架基礎(chǔ)上，使用大規(guī)�？鐧C器人數(shù)據(jù)集 Open X-Embodiment 進行訓(xùn)練（微調(diào)），從而得到了兩個系列的模型：RT-1-X 系列和 RT-2-X系列。

截至目前，Open X-Embodiment已整合 60個機器人數(shù)據(jù)集，覆蓋 311 種場景與 22 類不同類型的機器人平臺（含單臂/雙臂/四足機器人等），提供超100萬條真實機器人運動軌跡，涵蓋 527 項技能及 160,266 項任務(wù)。

Open X-Embodiment 開源數(shù)據(jù)集

1）RT-X模型訓(xùn)練使用數(shù)據(jù)集

據(jù)了解，在當(dāng)時訓(xùn)練RT-1-X 和 RT-2-X 時，所使用的數(shù)據(jù)并非如今 Open X-Embodiment 數(shù)據(jù)集的全部內(nèi)容。其數(shù)據(jù)僅涵蓋 22 個機械臂中的 9 個，以及 60 組子數(shù)據(jù)集中的 12 組，總計 1,131,788 條數(shù)據(jù)。由于該數(shù)據(jù)集處于持續(xù)增長狀態(tài)，在開展 RT-X 相關(guān)實驗時，這 12 組數(shù)據(jù)便是當(dāng)時數(shù)據(jù)集的全部內(nèi)容。

這12組數(shù)據(jù)集包括：RT-1、QT-Opt、Bridge、Task Agnostic Robot Play、Jaco Play、Cable Routing、RoboTurk、NYU VINN、Austin VIOLA、Berkeley Autolab UR5、TOTO和Language Table。

其中，RT-1-X僅使用上述機器人數(shù)據(jù)（9類機械臂的12組數(shù)據(jù)集）進行訓(xùn)練；RT-2-X采用與原 RT-2類似的聯(lián)合微調(diào)策略，以約 1:1 比例混合經(jīng)任務(wù)篩選的VLM數(shù)據(jù)與機器人數(shù)據(jù)。

2）RT-X模型架構(gòu)

RT-1-X 和 RT-2-X 均以圖像和文本指令作為輸入，并輸出離散化的末端執(zhí)行器動作。RT-1-X 是一個專為機器人設(shè)計的架構(gòu)，包含一個 FiLM 條件化的 EfficientNet和一個 Transformer。RT-2-X 構(gòu)建在一個視覺語言模型（VLM）主干之上，其方法是將動作表征為另一種語言，并將動作文本標(biāo)記與視覺語言數(shù)據(jù)一起進行訓(xùn)練。

RT-X模型訓(xùn)練過程

2024年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2024年3月，谷歌推出具身智能模型RT-H

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一個帶動作分層結(jié)構(gòu)的機器人Transformer —— 將語言化動作作為高級任務(wù)描述與低級動作之間的中間預(yù)測層，從而通過語言化動作構(gòu)建動作分層結(jié)構(gòu)。

在上圖中，當(dāng)給定“蓋上開心果罐” 這類語言描述的任務(wù)以及場景圖像后，RT-H 會利用視覺語言模型（VLM）預(yù)測 “向前移動手臂”、“向右旋轉(zhuǎn)手臂” 等語言化動作；然后，再根據(jù)這些語言化動作，為機器人預(yù)測具體執(zhí)行動作（Robot Action）。

這種動作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動作的方式相比，這些語言化動作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實現(xiàn)更好的數(shù)據(jù)共享。

此外，該分層結(jié)構(gòu)還允許人類選擇性地向機器人提供語言化動作修正，以避免任務(wù)失敗，隨后利用這些新的語言化動作預(yù)測更優(yōu)的動作。當(dāng)人類完成干預(yù)后，RT-H 會像之前一樣繼續(xù)預(yù)測語言化動作。

然而，當(dāng)任務(wù)在語義上變得更加多樣時（例如“拿起可樂罐” 和 “倒杯子里的東西”），任務(wù)間的數(shù)據(jù)共享就會變得更加困難，因此學(xué)習(xí)從高級任務(wù)到具體動作指令的映射需要大量的演示數(shù)據(jù)。

為了彌合任務(wù)與動作之間的這一鴻溝，DeepMind的解法是賦予機器人『動作語義化』能力——使用原子級動作短語（如“前移機械臂”或“閉合夾爪”）描述底層運動。將語言化動作預(yù)測作為高層任務(wù)與底層執(zhí)行間的中間步驟，倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運動結(jié)構(gòu)。更重要的是，基于語言化動作條件生成的策略，可在執(zhí)行過程中通過人類指定的語義指令實時修正。

1）RT-H：利用語言構(gòu)建動作分層結(jié)構(gòu)

RT-H的推理流程包含兩個關(guān)鍵階段：

1）首先，RT-H 根據(jù)視覺觀察結(jié)果和高級任務(wù)描述，預(yù)測當(dāng)前的語言化動作（語言化動作指令請求），使模型能在細粒度層面推理任務(wù)執(zhí)行方式；

2）然后，RT-H聯(lián)合視覺觀察、任務(wù)描述及推斷出的語言化動作預(yù)測當(dāng)前的具體執(zhí)行動作（機器人動作指令請求），其中語言化動作為精確動作預(yù)測提供了關(guān)鍵上下文補充。

RT-H是以視覺語言模型（VLM）作為主干網(wǎng)絡(luò)，并遵循 RT-2的訓(xùn)練流程來實現(xiàn)。與RT-2 類似，通過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練，模型可調(diào)用自然語言處理與圖像理解領(lǐng)域的海量先驗知識。

為了將這些先驗知識融入動作層級結(jié)構(gòu)的各個層級，RT-H 使用單一的視覺語言模型（VLM）同時學(xué)習(xí)語言動作指令請求（Language Motion Query）和機器人動作指令請求(Action Query)。

RT-H的推理流程

圖左側(cè)：

RT-H利用語言構(gòu)建分層策略學(xué)習(xí)架構(gòu)：將動作預(yù)測拆分為語言化動作指令請求（π）與機器人動作指令請求（π）。其中：

π：基于圖像令牌（ Image Tokens）和任務(wù)描述令牌（Task Tokens）預(yù)測細粒度語言化動作（如“向前移動手臂”）；

π：結(jié)合場景視覺上下文，將該語言化動作解碼為具體的機器人動作指令。

圖右側(cè)：

用戶可直接對機器人動作指令請求進行干預(yù)，為機器人行為提供語言化動作修正，例如此處將“向前移動手臂” 改為 “向左移動手臂”。為了從修正中學(xué)習(xí)，只需用新標(biāo)注的語言化動作修正更新語言動作指令請求。隨后，將更新后的模型重新部署到動作層級結(jié)構(gòu)中。

RT-H通過端到端的方式學(xué)習(xí)預(yù)測語言化動作指令和機器人動作指令，不僅能夠在語言化動作空間中進行修正，還能從這些修正中高效學(xué)習(xí)。

當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時，語言化動作能再次發(fā)揮作用：它們?yōu)樵诰€人類修正提供了一個直觀的交互界面，且這種修正與特定場景相關(guān)聯(lián)。通過語言化動作訓(xùn)練的策略，能夠自然地遵循人類的低級修正指令，并借助修正數(shù)據(jù)成功完成任務(wù)。此外，該策略甚至可以在語言修正數(shù)據(jù)上進行訓(xùn)練，從而進一步提升自身性能。

a. RT-H模型訓(xùn)練

RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺語言模型（VLM），學(xué)習(xí)高層任務(wù)策略π與底層機器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實例化視覺語言模型（VLM）。該模型通過ViT編碼器將圖像處理為圖像令牌（Image Tokens），再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語言指令令牌，輸出離散動作令牌（Action Tokens）。

這些動作令牌的生成方式沿襲RT-2的離散化機制：將每個動作維度離散化為256個區(qū)間（bins），并將區(qū)間編碼為整數(shù)值。每個動作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動作指令以及任務(wù)終止標(biāo)志。

隨后，RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進行聯(lián)合訓(xùn)練，并從預(yù)訓(xùn)練檢查點開始。在該聯(lián)合訓(xùn)練過程中，視覺 Transformer（ViT）編碼器被凍結(jié)。RT-H 以相同的采樣率，用語言化動作指令請求和機器人動作指令請求替代了 RT-2 中的機器人動作指令請求。使用單一模型簡化了訓(xùn)練過程，并使語言化動作指令請求和機器人動作指令請求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊含的廣泛先驗知識中獲益。

b. 語言化動作的提取

為了低成本地提取每個片段中的每個時間步的可靠語言化動作，DeepMind開發(fā)了一種依賴機器人本體感知信息的自動標(biāo)注方案。

首先，將機器人末端執(zhí)行器位姿變化的每個維度與空間維度相關(guān)聯(lián)（例如，位置變化的z軸對應(yīng)上下方向）。針對所有 9 個動作維度（3 個位置增量維度、3 個姿態(tài)增量維度、2 個基座移動維度、1 個夾爪維度）執(zhí)行此操作后，就能確定機器人當(dāng)前的主要空間運動列表，例如 “手臂向上并向右移動”“閉合夾爪”“手臂逆時針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動”。之后，可以過濾掉低于選定 “小動作” 閾值的維度，再按照動作幅度的順序組合得到的動作。

例如，如果機器人主要是向前移動手臂，同時開始閉合夾爪，研究人員會提取出“向前移動手臂并閉合夾爪” 這一語言化動作。通過這種方式，語言的組合性使得從一組簡單的已知動作中能夠提取出超過 2500 種語言化動作。

此外，由于這些語言化動作直接源于動作本身，因此在RT-H 中運行動作指令請求時，它們對動作本身具有很強的預(yù)測能力。

然而，語言化動作在抽象層級的選擇上存在基本權(quán)衡的問題：語言化動作的顆粒度越細，語言化動作指令請求的預(yù)測難度越高，但對機器人動作指令請求的指導(dǎo)性越強；反之亦然。

2）RT-H：推理與修正

在測試階段，RT-H首先運行語言化動作指令請求（π）以推導(dǎo)語言化動作序列，隨后將該序列輸入機器人動作指令請求（π）生成具體的執(zhí)行動作參數(shù)。

然而，由于兩個指令請求需在每一步時序中串行執(zhí)行，該過程使推理耗時翻倍。雖對小規(guī)模模型影響甚微，但對于RT-H中使用的55B參數(shù)的大型模型而言，必將引發(fā)不可避免的請求處理延遲問題。

為應(yīng)對這一挑戰(zhàn)，谷歌DeepMind提出兩種語言化動作推理模式：

a. 異步查詢：僅訓(xùn)練RT-H中的語言化動作指令請求（π）預(yù)測未來一步動作。測試時，利用上一時間步推導(dǎo)的語言化動作執(zhí)行當(dāng)前機器人動作指令請求，同時并行預(yù)測下一時間步的語言化動作。此方案通過批處理查詢實現(xiàn)與RT-2近乎同等的請求延遲。

b. 固定頻率：每H步執(zhí)行一次語言化動作指令請求，分?jǐn)傃舆t壓力。

在實驗中，DeepMind選擇異步查詢方案，因語言化動作常需在精確時間步變更，無法適配固定頻率帶來的約束。

2025年：谷歌具身智能基礎(chǔ)模型關(guān)鍵布局

1. 2025年3月：谷歌發(fā)布具身智能大模型Gemini Robotics

2025年3月12日，谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型：Gemini Robotics（VLA）和Gemini Robotics-ER（VLM）。

1） Gemini Robotics-ER

Gemini Robotics - ER（VLM模型）,其中ER 代表 “embodied reasoning”（具身推理），將Gemini的多模態(tài)推理能力擴展至物理世界，具備增強的空間和時間理解能力，包括物體檢測、指向、軌跡預(yù)測和抓取預(yù)測等2D空間概念理解能力，以及多視角3D場景理解和3D邊界框檢測等3D空間推理能力。

多視角3D場景理解：通過關(guān)聯(lián)不同視角的2D點來理解3D場景

a. 支持零樣本和少樣本機器人控制

在實驗中，研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型，分別采用兩種不同的機器人控制方法進行實驗。

零樣本（zero-shot）機器人控制——通過代碼生成控制機器人。

少樣本（few-shot）控制——通過上下文學(xué)習(xí)（in-context learning, ICL），基于少量示例適應(yīng)新行為。

兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對比

備注：這些任務(wù)涵蓋了不同難度和物體類型，從簡單的抓取任務(wù)（如抬起香蕉）到長時序、多步驟、多任務(wù)的操作（如將玩具放入盒子并關(guān)閉盒子）。

試驗結(jié)果表明，Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)（in-context learning），僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)（如折疊衣物）的執(zhí)行能力，并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。

在零樣本機器人控制方面，Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。

在少樣本機器人控制方面，Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達到51%。然而，Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達到 65%。

另外，實驗還表明，模型的具身推理能力與下游機器人控制的性能之間存在強相關(guān)性。Gemini Robotics-ER 可以直接用于機器人控制，包括：作為感知模塊（如物體檢測），規(guī)劃模塊（如軌跡生成）以及通過生成和執(zhí)行代碼來協(xié)調(diào)機器人運動。

不過，Gemini Robotics-ER作為VLM模型，也存在局限性，尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因為需要額外的中間步驟來將模型的具身推理能力與機器人執(zhí)行動作關(guān)聯(lián)起來。

2）Gemini Robotics

Gemini Robotics是一種端到端的VLA（視覺-語言-行動）模型，將強大的具身推理先驗與現(xiàn)實世界機器人的靈巧低級控制相結(jié)合，能夠在不同環(huán)境下解決靈巧任務(wù)，并支持不同的機器人形態(tài)。

Gemini Robotics是Gemini Robotics-ER的一個衍生版本，采用了雙組件架構(gòu)：

Gemini Robotics 主干網(wǎng)絡(luò)：托管在云端，負(fù)責(zé)視覺-語言推理。

Gemini Robotics 解碼器：運行在機器人控制器上，負(fù)責(zé)動作執(zhí)行。

Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個蒸餾版本（distilled version）組成，其查詢-響應(yīng)延遲已優(yōu)化至小于160ms（相比原始模型減少了數(shù)秒）。為了補償主干網(wǎng)絡(luò)的延遲，Gemini Robotics解碼器在本地執(zhí)行低級控制。

Gemini Robotics模型架構(gòu)概覽

3）Gemini Robotics 的優(yōu)勢

Gemini Robotics模型在精細的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于：

強大的視覺語言模型，具備增強的具身推理能力；

針對機器人任務(wù)，采用大規(guī)模機器人動作數(shù)據(jù)與多樣化的非機器人數(shù)據(jù)的特定訓(xùn)練方案；

專為低延遲機器人控制設(shè)計的獨特架構(gòu)。

Gemini Robotics模型的關(guān)鍵優(yōu)勢在于：成功繼承Gemini Robotics-ER的具身推理特性，能高效遵循開放詞匯指令，并展現(xiàn)強大的零樣本泛化能力。通過微調(diào)實現(xiàn)專項適應(yīng)，該模型在新任務(wù)/新實體形態(tài)中達成較高操作精度，并在挑戰(zhàn)性場景中保持泛化能力。

2. 2025年6月：谷歌發(fā)布設(shè)備端具身智能模型Gemini Robotics On-Device

2025年6月，谷歌DeepMind正式發(fā)布機器人模型Gemini Robotics On-Device。它是視覺-語言-動作（VLA）模型 Gemini Robotics 的輕量化版本。該模型重點解決在設(shè)備端部署的問題。

據(jù)悉，Gemini Robotics On-Device是首個支持本地微調(diào)的具身智能VLA模型。模型經(jīng)過計算資源壓縮，可在 Franka FR3 機械臂、Apollo 人形機器人等邊緣設(shè)備上實現(xiàn)低延遲推理（<100ms），并支持全鏈路離線運行。

在任務(wù)泛化能力方面，在Visual Gen（視覺泛化）、Semantic Gen（語義泛化）、Action Gen（動作泛化）三項核心測試中，該模型得分均接近旗艦版模型Gemini Robotics，且超越此前最佳設(shè)備端模型，尤其在處理未見過的物體（如異形拉鏈袋）和復(fù)雜多步驟指令（如 “拉開袋子→取出物品→折疊衣物”）時表現(xiàn)突出。

模型的任務(wù)泛化能力比較

同時，谷歌還推出Gemini Robotics SDK，提供MuJoCo 物理模擬器集成、示范數(shù)據(jù)標(biāo)注工具及模型微調(diào)接口，幫助開發(fā)者評估Gemini Robotics 在設(shè)備上的性能。開發(fā)者可通過 50-100 次真實操作演示完成模型適配。這一數(shù)據(jù)量顯著低于傳統(tǒng)強化學(xué)習(xí)方法（通常需數(shù)千次迭代），體現(xiàn)了該模型的高效遷移學(xué)習(xí)能力。

Gemini Robotics On-Device的推出，是對機器人開發(fā)范式的革新。

Gemini Robotics On-Device 實現(xiàn)了端到端本地化運行，解決網(wǎng)絡(luò)中斷場景的可靠性問題，對工業(yè)巡檢、應(yīng)急救援等關(guān)鍵領(lǐng)域具有戰(zhàn)略意義。

該模型通過高效的微調(diào)能力，顯著降低跨平臺適配成本，可擴展至Apollo人形機器人與Franka FR3機械臂等不同形態(tài)。

結(jié)語

具身智能的核心是讓AI 從 “數(shù)字世界” 走向 “物理世界”，而物理推理能力是其關(guān)鍵瓶頸 —— 即模型能否讓機器人像人類一樣理解物體的物理屬性（重量、硬度、彈性）、空間關(guān)系（距離、遮擋、方位）、因果邏輯（推、拉、碰撞的后果）等。

“物理推理能力” 的核心主體是具身智能大模型，機器人是這一能力的 “物理執(zhí)行者”。谷歌在具身智能基礎(chǔ)模型領(lǐng)域布局的本質(zhì)是通過大模型突破物理推理的技術(shù)壁壘，再借助跨平臺動作泛化框架與端云協(xié)同部署，實現(xiàn)機器人在現(xiàn)實應(yīng)用場景中的可靠落地。

當(dāng)前，谷歌在正以「通用智能模型賦能者 + 跨場景生態(tài)協(xié)同者」的定位重塑行業(yè)技術(shù)范式。其通過 RT 系列與 Gemini Robotics 大模型構(gòu)建核心智能引擎，結(jié)合 Open X-Embodiment 開源數(shù)據(jù)集與 Gemini Robotics SDK 開發(fā)工具，形成從模型研發(fā)到應(yīng)用落地的全鏈條支撐體系，通過技術(shù)迭代與生態(tài)聯(lián)動構(gòu)建具身智能護城河。

未來，隨著具身智能基礎(chǔ)模型物理推理能力的持續(xù)提升，谷歌有望成為具身智能時代“物理世界語言” 的標(biāo)準(zhǔn)制定者。

原文標(biāo)題 : 2022~2025：2萬字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

12月9日
立即報名>> 恩智浦創(chuàng)新技術(shù)峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本

<thead id="vwddk"><em id="vwddk"><span id="vwddk"></span></em></thead>