人形機器人行動困局:非軟非硬,而是“協(xié)同失語癥”
業(yè)內(nèi)流傳著“不做硬件的具身智能公司,不是好公司”,其背后邏輯是:如果想在軟件上登峰造極,必須深度理解硬件特性,而要發(fā)揮硬件極限也需軟件在架構與調(diào)度層面予以配合。這種融合,需從設計之初就埋入系統(tǒng)。但現(xiàn)實是,我們常聽到廠商抱怨“做算法根本不懂硬件,做硬件的又不會算法”,兩撥人幾乎是各自為戰(zhàn)。
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
是什么桎梏了人形機器人的行動?到底是硬件跟不上還是軟件能力不足?關于這一問題,業(yè)內(nèi)的爭議已經(jīng)展開。
在不久前的ALL-IN SUMMIT上,馬斯克被問及Optimus目前硬件與軟件哪個更難突破?他坦言:我們?nèi)栽跒橛布淖罱K設計而掙扎。而當主持人追問:假如硬件挑戰(zhàn)得以解決,基于大語言模型(LLM)的進展,是否就能實現(xiàn)自然的人機交互,使機器人聽懂指令、執(zhí)行任務?馬斯克則信心十足地回應:沒問題。
圖片來源:ALL-INSUMMIT
和馬斯克硬件焦慮形成鮮明對比的是,宇樹科技王興興則在多場合表示“硬件夠用了”,相反在AI領域,他認為“讓AI干活整個領域目前都是荒漠”。王興興認為,目前數(shù)據(jù)和模型都是機器人的難點。AI模型本身的能力也還不太夠,沒辦法讓機器人真正用起來,比如AI模型難以很好地控制靈巧手。
這兩種看似對立的觀點,恰恰反映出同一本質(zhì)困境。問題的核心或許并不在于“軟”或“硬”單一維度的落后,而在于二者之間缺乏有效的協(xié)同與融合。
而這問題的答案也不應該只由整機廠來回答,更應該聽聽上游的聲音。
近日,具身研習社和亞德諾半導體(ADI)進行溝通,作為上游核心硬件和解決方案提供商,其視角跳出了單一的軟硬件孰優(yōu)孰劣的二元對立視角,轉(zhuǎn)而以“協(xié)同”思路判斷。
ADI院士兼技術副總裁陳寶興表示,問題的核心在于AI與硬件的深度集成。“比如抓取一個雞蛋或其他物品,就需要優(yōu)化。機器人需要知道物體的性質(zhì)、用多大的力、如何防滑等具體要求。這些都需要硬件與軟件、AI與控制的深度集成,我認為這還有大量的工作要做。”
這或許也是為什么我們很難看到靈敏的、聰慧的、動作有的放矢的機器人。其已經(jīng)超出了單純的軟件或硬件所能獨自解決的范圍,如何讓軟硬件更好的系統(tǒng)性協(xié)同或許是未來的主要攻關方向。
硬件真的夠用了嗎?
自從王興興在WRC說出:“目前的硬件某種意義上是完全夠用的”,一時間引發(fā)了業(yè)內(nèi)巨大爭議。但事實上,王興興旋即就提到了一個硬件普遍的難點:“更大的問題是把它(硬件)量產(chǎn)”。無獨有偶,馬斯克甚至直言:人形機器人沒有供應鏈,必須從頭開始,自己設計。這也是他的量產(chǎn)計劃推遲的重要原因。
因此硬件的第一個明顯的難點是“缺乏標準”。即便市面上已有成千上萬種來自工業(yè)、汽車等領域復用的零部件,卻始終缺少專為機器人設計的。簡單來說,硬件能用,但并不是好用的,因此也有了業(yè)內(nèi)流傳的觀點“硬件制約軟件”正成為束縛模型落地的現(xiàn)狀。
造成該現(xiàn)場的根本原因在于:其一,人形機器人屬于初期階段,體量較大的供應商,并不愿意分散精力投入到一個利潤極為有限,財報無法增色的產(chǎn)線上去。所以,各種零部件的不適配加上特定零部件的量產(chǎn)能力、良品率等問題,最終讓這個在技術上已經(jīng)鮮有卡點,但工程化問題卻十分明顯的硬件,成了人形機器人鋪展開的一道障礙。
其二,不同人形機器人廠商技術路線相差巨大,不管是本體硬件也好,亦或者是大腦模型,技術均未進入收斂期,不同的AI算法與不統(tǒng)一的硬件平臺之間更加難以匹配,于是誕生了另一道障礙,硬件“缺乏AI能力”的問題。
換句話說,硬件與軟件之間過于解耦,就像提線木偶斷了線一樣。因此,當前真正的難點在于缺乏如同智能硬件所強調(diào)的“AI原生設計”,這也是陳寶興口中所說的“要加速人形機器人的創(chuàng)新和落地,最重要的是AI與物理智能緊密、深度融合”。
陳寶興把“AI和物理智能”的關系類比成“大腦跟身體”的關系,比如AI是機器人的“大腦”,負責學習、推理、決策。物理智能是“身體”,負責感知、運動、與環(huán)境互動。他認為只有兩者深度融合,機器才能像人一樣靈活、聰明、可靠。
物理智能的核心是高性能傳感器,ADI的機器人團隊正致力于將其傳感器和執(zhí)行器模型集成進 NVIDIA 的 Isaac Sim 平臺,如此可以模擬真實世界的物理反饋,訓練可直接部署的控制策略,從而實現(xiàn)Sim2Real,從仿真到現(xiàn)實的突破路徑。
ADI認為想要實現(xiàn)物理智能有兩個要點,這也正是目前ADI主要發(fā)力點:第一,要能夠與大腦(即中央處理單元)配合;第二,要注重與小腦(即類似脊髓反應相關的部分)緊密相關,例如神經(jīng)元層面的功能——包括感知神經(jīng)元、運動神經(jīng)元,以及靈巧性方面的實現(xiàn)。
舉個例子,電機、驅(qū)動器能否快速、精準地執(zhí)行AI下達的“非標”指令?例如,如何讓一個關節(jié)在需要時瞬間輸出爆發(fā)力(如起跳),又能實現(xiàn)極精細的力度控制(如捏住雞蛋)?這過程中,就要求硬件本身具備低延時、高帶寬、高精度的特性,并能進行包括觸覺在內(nèi)的多維傳感器的數(shù)據(jù)傳輸進行邊云間通信與計算,這都要求AI算法深度適配。
圖片來源:特斯拉
這樣看來,硬件的問題不僅僅是單純的“缺乏行業(yè)標準”,又或者是更具體的“力量”“成本”“尺寸”“可靠性”等指標,而是如何被AI高效、精準、低延遲地驅(qū)動和控制的問題。這本質(zhì)上是一個軟硬件協(xié)同設計的難題。
從“軟硬全棧”到“軟硬融合”
長期一段時間,軟硬件兩手抓的企業(yè)成為資本市場的寵兒。但這里有一個誤區(qū),“軟硬件全棧”應該超越PR層面,進入到真實的“軟硬件協(xié)同”“軟硬件融合”,就像我們說“AI原生硬件”一樣,機器人本身作為大AI硬件在規(guī)劃、研發(fā)階段就圍繞AI進行設計與搭建。
業(yè)內(nèi)流傳著“不做硬件的具身智能公司,不是好公司”,反之也有人贊同。其背后邏輯是:如果你想在軟件上登峰造極,必須深度理解硬件特性,而要發(fā)揮硬件極限也需軟件在架構與調(diào)度層面予以配合。這種融合,需從設計之初就埋入系統(tǒng)。但現(xiàn)實是,我們常聽到廠商抱怨“做算法根本不懂硬件,做硬件的又不會算法”,兩撥人幾乎是各自為戰(zhàn)。
總之,軟硬一體化策略的成果案例在手機賽道已經(jīng)很多了,如蘋果、小米、華為等,不再贅述。就說狹義上的模型廠商中也有像OpenAI收購io,要做AI原生硬件;Meta做AI眼鏡;字節(jié)做AI耳機;釘釘做AI錄音硬件等。
目前來看,具身智能賽道也有部分企業(yè)意識到這種融合的重要性,這部分企業(yè)可以分為兩種,一種是意識到軟硬件協(xié)同的。硬件在設計階段就通盤考慮,有清晰的接口和分工,是目前主流努力的方向。這些企業(yè)會預留開發(fā)接口,為特殊場景設計硬件構型、尺寸以及加裝定制參數(shù)的零部件、功能模塊。
當然這是較普遍的做法,更高階的狀態(tài)應該是“融合”。它打破了傳統(tǒng)的軟硬件界限,你中有我,我中有你。硬件為軟件算法而生,軟件為硬件特性而寫。
例如,為特定的強化學習算法設計專用的計算芯片和傳感器;在AI模型訓練中引入硬件物理響應(如彈性、摩擦系數(shù))的建模;硬件的設計也會為了適應AI的決策頻率而優(yōu)化,比如模型推理間隙,由端側(cè)芯片自主完成觸覺反射調(diào)節(jié)。
當前僅有少數(shù)領頭羊開始探索“融合”,大多數(shù)企業(yè)仍未進入軟硬件“協(xié)同”階段。
也正是因此,軟硬件融合將會是具身企業(yè)的競爭力與新機會,也會推動具身賽道走向進一步落地。但這遠不是本體廠商自己的命題,上游需一同努力。
例如,ADI作為上游廠商,在讓機器具備有思想、有觸感和有行動力的過程中,主要針對四個關鍵環(huán)節(jié):感知(sense)、連接(connect)、解譯(interpret)、控制(control),而這四個環(huán)節(jié)正好串聯(lián)起機器人軟硬件協(xié)同。
從感知看,機器人需具備視覺、觸覺等能力,未來通過“多模態(tài)感知融合” 判斷物體形態(tài)、提升靈巧度;從連接看,機器人需高速穩(wěn)定的 “神經(jīng)網(wǎng)絡” 連接;而解譯則是對這些傳感器原始數(shù)據(jù)和各部件動態(tài)信息進行分析、理解;進而控制系統(tǒng)作為機器人“大腦皮層”,負責運動規(guī)劃與執(zhí)行,最新 AI 驅(qū)動的運動控制算法可實現(xiàn)其多關節(jié)協(xié)調(diào)與復雜動作。
我們可以看到,硬件與軟件之間的“結合部”存在著明顯短板,蘊藏著眾多機會。
人形機器人的發(fā)展,一定是一場軟硬件協(xié)同進化的旅程。不是硬件夠了軟件沒跟上,或者軟件行了硬件拖后腿,而是它們必須像生物界的腦與身體一樣,彼此塑造、耦合反饋、不可分割。未來的突破,將依賴于我們能否用技術創(chuàng)新與工程智慧加速這一“共同進化”的過程。
原文標題 : 人形機器人行動困局:非軟非硬,而是“協(xié)同失語癥”

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字