訂閱
糾錯(cuò)
加入自媒體

人形機(jī)器人,缺一個(gè)殺手級(jí)共識(shí)

作者|毛心如

蓄力助跑,僅憑一次嘗試,星動(dòng)紀(jì)元 L7 就以 95.641cm 的成績(jī),創(chuàng)下人形機(jī)器人跳高世界紀(jì)錄。

171cm 的身高,65kg 的體重,即便是普通人也未必能蹦出來(lái)這么高、這么標(biāo)準(zhǔn)的超級(jí)瑪麗跳。

盡管本屆世界人形機(jī)器人運(yùn)動(dòng)會(huì)上不乏各類「翻車」名場(chǎng)面,吸引了不少眼球,不可忽視的是,無(wú)論是跑步、跳高還是跳遠(yuǎn),這些項(xiàng)目都深度考驗(yàn)了機(jī)器人「算法+硬件」高度耦合的能力。

與此同時(shí),在本屆運(yùn)動(dòng)會(huì)中奪冠次數(shù)最多的宇樹(shù)科技,其創(chuàng)始人王興興在世界機(jī)器人大會(huì)論壇上的發(fā)言,卻因?qū)Ξ?dāng)前熱門的 VLA 路線提出質(zhì)疑,而被不少人稱為「炸裂發(fā)言」甚至「暴論」。

同樣作為冠軍團(tuán)隊(duì)的星動(dòng)紀(jì)元,其創(chuàng)始人陳建宇卻對(duì) VLA 表達(dá)出與王興興不同的態(tài)度。

觀點(diǎn)分野的背后,實(shí)則是兩家公司對(duì)「如何讓機(jī)器人變得更強(qiáng)大」這一目標(biāo),所采取的不同實(shí)踐路徑——一條是「硬件先行」,另一條是「軟硬一體、垂直整合」。

垂直整合和硬件先行的觀念分野

兩位創(chuàng)始人的背景差異,在一定程度上預(yù)示了兩家公司的不同發(fā)展方向。

王興興是典型的工程師思維,宇樹(shù)科技也因此走上了「硬件先行」的道路;而陳建宇作為清華交叉信息研究院的教授,更具科學(xué)家視角,因此星動(dòng)紀(jì)元選擇了「軟硬一體」的垂直整合路線。

雙方最顯著的觀點(diǎn)差異在對(duì)「VLA 是否可行」的判斷上。

陳建宇把 VLA 當(dāng)作一個(gè)廣義范式來(lái)理解,只要模型能把視覺(jué)、語(yǔ)言、行為整合并在物理世界執(zhí)行就屬于 VLA。

他認(rèn)為,隨著生成式世界模型與強(qiáng)化學(xué)習(xí)的加入,端到端方法的能力正在被逐步證明。

因此星動(dòng)紀(jì)元持續(xù)投入于軟硬一體、端到端 VLA、強(qiáng)化學(xué)習(xí)與世界模型的融合研發(fā),并在去年發(fā)布了端到端原生機(jī)器人大模型 ERA-42。

王興興對(duì)當(dāng)前機(jī)器人大火的 VLA 路線持懷疑態(tài)度,傾向于將更多資源投向「世界模型/視頻驅(qū)動(dòng)」路線。

他認(rèn)為如果模型只是表面地把視覺(jué)、語(yǔ)言和行動(dòng)拼接起來(lái),卻沒(méi)有穩(wěn)定的世界表示與預(yù)測(cè)能力,這樣的系統(tǒng)在真實(shí)世界交互時(shí)會(huì)暴露出短板,例如對(duì)數(shù)據(jù)質(zhì)量和多樣性的過(guò)度依賴、對(duì)長(zhǎng)期規(guī)劃和因果推理能力不足等。

其次,在「模型-數(shù)據(jù)-硬件」的權(quán)重判斷上,兩家公司也有鮮明差異。

陳建宇堅(jiān)持模型架構(gòu)是第一位,但數(shù)據(jù)的多樣性與質(zhì)量、硬件設(shè)計(jì)同等關(guān)鍵,三者共同決定機(jī)器人的性能上限,因此星動(dòng)紀(jì)元走的是軟硬一體、同步推進(jìn)的路線。

同時(shí)他也把如何用更少真機(jī)數(shù)據(jù)達(dá)到訓(xùn)練目標(biāo)作為重要工程問(wèn)題,并設(shè)計(jì)了數(shù)據(jù)金字塔與「預(yù)訓(xùn)練 + 真機(jī)微調(diào)」兩階段訓(xùn)練的策略。

王興興更強(qiáng)調(diào)模型決定數(shù)據(jù),即要先把模型范式搞清楚,避免將過(guò)多資源浪費(fèi)在無(wú)效的數(shù)據(jù)收集或硬件上。他覺(jué)得現(xiàn)階段模型設(shè)計(jì)仍是瓶頸,模型能力不足會(huì)導(dǎo)致對(duì)數(shù)據(jù)量或數(shù)據(jù)種類的盲目追求。

同樣,對(duì)于「開(kāi)源和生態(tài)」,陳建宇和王興興的關(guān)注點(diǎn)也有些差異。

陳建宇重視開(kāi)源生態(tài)能帶來(lái)的協(xié)同作用,星動(dòng)紀(jì)元有了仿人機(jī)器人強(qiáng)化學(xué)習(xí)框架 Humanoid Gym 及生成式大模型 VPP 等開(kāi)源成果,認(rèn)為開(kāi)源能帶動(dòng)生態(tài)繁榮并受益于社區(qū)迭代。

王興興關(guān)注更多的是構(gòu)建可復(fù)用的數(shù)據(jù)與模型資源,以及大規(guī)模分布式算力的工程實(shí)現(xiàn),即更在意「如何讓模型在多臺(tái)機(jī)器人、多場(chǎng)景下可復(fù)制」。

最后是在商業(yè)化節(jié)奏上,兩人對(duì)于短期落地的判斷也有所不同。

陳建宇傾向于 B 端場(chǎng)景先行,逐步過(guò)渡到家庭場(chǎng)景的路徑。他透露星動(dòng)紀(jì)元已經(jīng)在部分真實(shí)的工業(yè)場(chǎng)景進(jìn)行部署,目前已經(jīng)達(dá)到了 70% 多的人的效率,預(yù)計(jì)明年能達(dá)到 90% 左右。

這種選擇背后是對(duì)技術(shù)成熟度和市場(chǎng)接受度的務(wù)實(shí)考量,同時(shí)也符合軟硬一體技術(shù)的迭代需求。

王興興則采取了更加多元化的商業(yè)化策略。他毫不避諱地表示,宇樹(shù)科技的機(jī)器人目前主要還是干表演、參加格斗比賽,因?yàn)檠巯赂蓪?shí)際工作的本事,確實(shí)還不到家。

這種選擇是基于對(duì)技術(shù)發(fā)展階段的清醒認(rèn)知,既然機(jī)器人暫時(shí)還無(wú)法勝任復(fù)雜的實(shí)際工作,不如先在娛樂(lè)展示場(chǎng)景中積累技術(shù)、資金和市場(chǎng)關(guān)注,等待技術(shù)拐點(diǎn)的到來(lái)。

值得一提的是,兩家在商業(yè)發(fā)展上也處在不同節(jié)點(diǎn)。

宇樹(shù)離 IPO 只有臨門一腳,需要一些「小步快跑」的策略維持經(jīng)濟(jì)性支撐,例如最近宇樹(shù)發(fā)布了新品人形機(jī)器人 R1、四足機(jī)器狗 A2,同時(shí)也預(yù)告了一款全尺寸的人形機(jī)器人。

星動(dòng)紀(jì)元?jiǎng)t是在今年完整搭建起「人形機(jī)器人-服務(wù)機(jī)器人-靈巧手-機(jī)器人大模型」這樣的全棧式體系。

區(qū)別于「宇樹(shù)模式」的端到端閉環(huán)架構(gòu)

區(qū)別于宇樹(shù)的「硬件先行」路徑,星動(dòng)紀(jì)元走的是「軟硬一體、端到端 VLA + 強(qiáng)化學(xué)習(xí) + 世界模型融合」的路線。

宇樹(shù)模式強(qiáng)調(diào)硬件自研的核心地位,通過(guò)提升關(guān)節(jié)電機(jī)扭矩、優(yōu)化機(jī)械結(jié)構(gòu)等方式為機(jī)器人身體奠定高性能基礎(chǔ)。

而星動(dòng)紀(jì)元?jiǎng)t更傾向于將硬件與軟件視作一個(gè)整體系統(tǒng),認(rèn)為唯有雙向深度耦合,才能釋放人形機(jī)器人在復(fù)雜環(huán)境中的最大潛能。

事實(shí)上,人形機(jī)器人的作業(yè)本質(zhì)已經(jīng)決定了軟硬件耦合發(fā)展的需求。

人形機(jī)器人要在復(fù)雜、動(dòng)態(tài)的現(xiàn)實(shí)環(huán)境中完成抓取、搬運(yùn)、行走等任務(wù),這些任務(wù)既依賴復(fù)雜的感知,也依賴高帶寬的運(yùn)動(dòng)執(zhí)行。

如果只專注「腦」或「身體」,都難以形成可落地的閉環(huán),只有將「感知-決策-執(zhí)行」的工程鏈路閉環(huán)并持續(xù)迭代,才能在復(fù)雜的真實(shí)世界中保持穩(wěn)定表現(xiàn)。

其次,端到端的即時(shí)反饋與高頻控制也具備顯著優(yōu)勢(shì)。傳統(tǒng)分階段的「感知—規(guī)劃—控制」架構(gòu)存在階段延遲與信息丟失情況,難以實(shí)現(xiàn)人類式的「看到馬上做、實(shí)時(shí)修正」反饋回路。

端到端策略可以把「視覺(jué)-語(yǔ)言-動(dòng)作」耦合在一個(gè)學(xué)習(xí)體中,使機(jī)器人在遇到突發(fā)干擾時(shí)能快速適配,尤其在需要高頻、細(xì)粒度動(dòng)作的任務(wù)中優(yōu)勢(shì)明顯。

從商業(yè)化角度看,完全押注「先做大腦」的公司將面臨漫長(zhǎng)的交付周期;而采用軟硬一體、并行推進(jìn)的策略,則能通過(guò)客戶與落地場(chǎng)景獲取寶貴的數(shù)據(jù)與工程反饋,反哺模型迭代。

星動(dòng)紀(jì)元目前已在國(guó)內(nèi) B 端市場(chǎng)實(shí)現(xiàn)落地,通過(guò)真實(shí)場(chǎng)景數(shù)據(jù)驗(yàn)證產(chǎn)品,形成技術(shù)閉環(huán),從而兼顧研究進(jìn)展與商業(yè)需求。

在將抽象理論轉(zhuǎn)化為工程實(shí)踐的過(guò)程中,星動(dòng)紀(jì)元構(gòu)建了自下而上共五個(gè)層級(jí)的技術(shù)系統(tǒng):

硬件層包括自研關(guān)節(jié)模組、直驅(qū)電機(jī)、減速器、靈巧手等。以跳高冠軍 L7 為例,其關(guān)節(jié)峰值扭矩、轉(zhuǎn)速與自由度等參數(shù)均體現(xiàn)出高動(dòng)態(tài)動(dòng)作的設(shè)計(jì)取向。硬件自研不僅為實(shí)現(xiàn)高性能,也為獲取更高質(zhì)量、可重復(fù)的真機(jī)訓(xùn)練數(shù)據(jù)。

實(shí)時(shí)控制層包含了低延遲驅(qū)動(dòng)、關(guān)節(jié)級(jí)高頻控制器與動(dòng)力學(xué)的在線求解模塊。

星動(dòng)紀(jì)元在這一層既使用傳統(tǒng)控制理論的穩(wěn)定性保障手段,也集成了強(qiáng)化學(xué)習(xí),用于學(xué)習(xí)高維度運(yùn)動(dòng)策略。這種混合策略能在保證機(jī)器人在安全與穩(wěn)定的運(yùn)動(dòng)前提下,擴(kuò)展可學(xué)動(dòng)作的上限。

感知與世界模型層融合了多模態(tài)感知例如視覺(jué)、觸覺(jué)、深度等,并運(yùn)行生成式的世界模型。目前星動(dòng)紀(jì)元已經(jīng)在嘗試將生成式模型與世界模型結(jié)合,用于未來(lái)預(yù)測(cè)、認(rèn)知與行為生成,即用模型去想象未來(lái)并據(jù)此產(chǎn)生動(dòng)作。

協(xié)同端到端 VLA 大模型 ERA-42 與高層決策層則把視覺(jué)、語(yǔ)言和動(dòng)作整合為端到端策略,覆蓋從場(chǎng)景理解、任務(wù)解析到動(dòng)作輸出的閉環(huán)。

高層策略可借助預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型與生成式模塊,再在真機(jī)上通過(guò)強(qiáng)化學(xué)習(xí)微調(diào)以實(shí)現(xiàn)任務(wù)特化。

數(shù)據(jù)工程與訓(xùn)練平臺(tái)層包含仿真環(huán)境、數(shù)據(jù)標(biāo)注及分布式訓(xùn)練集群。這些層級(jí)連成鏈條,形成了從硬件到模型、從仿真到真機(jī)、從開(kāi)源到商業(yè)場(chǎng)景的「閉環(huán)加速器」。

而在這一體系的支持下,星動(dòng)紀(jì)元已收獲了階段性工程成果:

L7 跳高奪冠,是其在「動(dòng)力學(xué)設(shè)計(jì)、關(guān)節(jié)控制、算法整合」工程能力的實(shí)證。

靈巧手已進(jìn)入穩(wěn)定量產(chǎn)階段,成本與穩(wěn)定性顯著優(yōu)化,與 VLA 控制整合實(shí)現(xiàn)手指高頻細(xì)粒度控制,從實(shí)驗(yàn)室樣機(jī)邁向了工業(yè)級(jí)產(chǎn)品。

發(fā)表運(yùn)控強(qiáng)化學(xué)習(xí)、世界模型融合與生成式 VLA 相關(guān)論文,開(kāi)源 Humanoid Gym 與 VPP 等項(xiàng)目,推動(dòng)行業(yè)協(xié)作。

在倉(cāng)儲(chǔ)搬運(yùn)、巡檢、文娛演示等工業(yè)場(chǎng)景完成商業(yè)化驗(yàn)證,今年已累計(jì)交付超 300 臺(tái)產(chǎn)品,另有上百訂單在量產(chǎn)中,全球市值前十的科技公司中有 9 家為其客戶。

星動(dòng)紀(jì)元的閉環(huán)體系及其成果,展示了技術(shù)落地的一種可能。而這也恰恰是當(dāng)前行業(yè)「百家爭(zhēng)鳴」的一個(gè)縮影。

而將視野從一家公司的實(shí)踐拉升至整個(gè)行業(yè),不難發(fā)現(xiàn),在陳建宇與王興興看似迥異的選擇背后,映射出的正是整個(gè)行業(yè)對(duì)于人形機(jī)器人未來(lái)的共同信仰。

分歧背后更多的是對(duì)行業(yè)的共同信仰

盡管陳建宇與王興興在技術(shù)路徑和商業(yè)策略上存在明顯差異,但在一些根本性問(wèn)題上,二人有著高度共識(shí)。

他們都相信人形機(jī)器人是 AI 技術(shù)的終極載體之一,能夠影響人類社會(huì)生產(chǎn)和生活方式。

王興興預(yù)測(cè),人形機(jī)器人的「ChatGPT 時(shí)刻」正在臨近,快則一兩年,慢則三五年,屆時(shí)機(jī)器人將能夠在一個(gè)完全陌生的環(huán)境中,聽(tīng)懂各種復(fù)雜指令并順利執(zhí)行。

陳建宇也認(rèn)同從機(jī)器工人到家庭伙伴的漸進(jìn)式發(fā)展路徑,認(rèn)為「最終殺手級(jí)的應(yīng)用,一定是在家庭里面」。

他們對(duì)技術(shù)本質(zhì)的理解也有異曲同工之處,即具身智能的本質(zhì)是「感知-決策-執(zhí)行」的閉環(huán),而非簡(jiǎn)單的軟件或硬件突破。

王興興認(rèn)為機(jī)器人最重要的還是 AI,而不是機(jī)器人的本體,但這并不意味著硬件不重要,而是指智能水平已成為當(dāng)前的主要瓶頸。

陳建宇則通過(guò)軟硬一體的實(shí)踐,證明了硬件性能邊界對(duì)智能能力的關(guān)鍵制約,只有足夠靈活的手才能執(zhí)行復(fù)雜的操作任務(wù),只有足夠強(qiáng)大的運(yùn)動(dòng)能力才能支持廣泛的工作范圍。

在軟硬協(xié)同的重要性上,兩人更是不謀而合。陳建宇雖然強(qiáng)調(diào)軟件的主導(dǎo)性,但始終承認(rèn)硬件性能決定了模型的發(fā)揮上限;王興興雖堅(jiān)守硬件先行,卻也在積極引入大模型提升機(jī)器人的自主決策能力。

這些共識(shí)背后,是行業(yè)對(duì)「機(jī)器人是系統(tǒng)工程」的共同認(rèn)知,沒(méi)有強(qiáng)大的模型,硬件只是一堆精密的機(jī)械;沒(méi)有可靠的硬件,模型只能是實(shí)驗(yàn)室里的算法。

從當(dāng)前的技術(shù)現(xiàn)狀到理想的通用具身智能,人形機(jī)器人行業(yè)仍需跨越多個(gè)發(fā)展階坎。通過(guò)陳建宇和王興興的觀點(diǎn),或許可以勾勒出行業(yè)未來(lái)發(fā)展的可能路徑:

短期(1-3 年):端到端 VLA、世界模型、視頻生成等不同技術(shù)路徑將并行迭代、相互借鑒融合;領(lǐng)先企業(yè)將在特定工業(yè)場(chǎng)景實(shí)現(xiàn)小批量落地,驗(yàn)證商業(yè)化可行性

中期(3-5 年):可能迎來(lái)「ChatGPT 時(shí)刻」,技術(shù)突破提升通用能力,行業(yè)逐漸形成統(tǒng)一技術(shù)標(biāo)準(zhǔn),應(yīng)用場(chǎng)景從工業(yè)擴(kuò)展到物流、醫(yī)療、零售等多個(gè)商業(yè)領(lǐng)域

長(zhǎng)期(5-10 年):有望進(jìn)入家庭成為「家庭伙伴」,但需解決安全性、可靠性、交互自然性等問(wèn)題,技術(shù)也需持續(xù)突破迭代

事實(shí)上,陳建宇已經(jīng)將世界模型視為 VLA 范式下的一個(gè)重要演進(jìn)方向,而王興興也并不完全否定端到端方法的價(jià)值。

未來(lái),多元技術(shù)路徑也可能在行業(yè)發(fā)展過(guò)程中逐漸融合。端到端 VLA 模型可會(huì)吸收世界模型的預(yù)測(cè)和推理能力,提高在陌生環(huán)境中的表現(xiàn);世界模型也可能借鑒 VLA 的架構(gòu)設(shè)計(jì),提升實(shí)時(shí)交互能力。

世界上沒(méi)有兩片完全相同的樹(shù)葉,在這場(chǎng)具身智能競(jìng)爭(zhēng)中沒(méi)有一家企業(yè)在戰(zhàn)術(shù)、范式和工程焦點(diǎn)完全一致。

在范式尚未完全收斂的當(dāng)下,分歧越多,越可能引導(dǎo)行業(yè)找到通向正確結(jié)果的「捷徑」。

當(dāng)實(shí)踐檢驗(yàn)與范式反思并行的同時(shí)彼此驗(yàn)證,行業(yè)才能既快速落地,又不會(huì)過(guò)早陷入技術(shù)僵化。

從技術(shù)積累到產(chǎn)業(yè)化,從賽場(chǎng)的一次冠軍到變成家里一個(gè)可靠的助理,這個(gè)過(guò)程必然是長(zhǎng)期且充滿不確定的。

未來(lái)幾年或許會(huì)是最具戲劇性也最關(guān)鍵的階段。只有在不斷反思底層范式的同時(shí),把「技術(shù)-商業(yè)」閉環(huán)跑通,二者合力才能讓人形機(jī)器人變成可持續(xù)的生產(chǎn)力。

       原文標(biāo)題 : 人形機(jī)器人,缺一個(gè)殺手級(jí)共識(shí)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)