訂閱
糾錯
加入自媒體

本體無關(guān):Generalist 27萬小時要掀真機采集場桌子

圖片

數(shù)據(jù)競賽的關(guān)鍵分水嶺,已不再是數(shù)據(jù)方案的路線之爭,而在于是否回歸到數(shù)據(jù)采集的“第一性原理”:追求可復用、可擴展、可演進的規(guī)模化數(shù)據(jù)流。那些執(zhí)著于單一本體、高成本標注的傳統(tǒng)遙操模式,不僅難以支撐Scaling Law所需的數(shù)據(jù)洪流,更在根本上背離了智能泛化的基本邏輯。

作者:王夢燦

編輯:狄鑫彤

出品:具身研習社

2025年11月4日,美國硅谷機器人公司Generalist AI發(fā)布了一個震撼行業(yè)的消息:他們的GEN-0具身基礎(chǔ)模型在27萬小時人類操作視頻數(shù)據(jù)上完成訓練,首次在機器人領(lǐng)域驗證了Scaling Law的存在。這被業(yè)內(nèi)譽為具身智能的"ChatGPT時刻"。

 

圖片

圖片來源:Generalist

 

27萬小時是什么概念?

這一數(shù)據(jù)量遠超目前公開的所有本體機器人數(shù)據(jù)集,且仍在以每周1萬小時的速度增長。與此形成鮮明對比的是,一度被視為“金字塔尖”的存在的真機遙操數(shù)據(jù)采集模式在效率上陷入了難以逾越的瓶頸,其緩慢的積累速度使其根本無法滿足Scaling Laws對數(shù)據(jù)規(guī)模的指數(shù)級需求。

真機遙操數(shù)據(jù)的采集,本質(zhì)上是一種受限于物理世界的線性積累過程。其典型模式是圍繞特定機器人硬件,建立線下數(shù)據(jù)工場,由操作員通過遙操作真實機器人進行任務演示。這種模式的幾個內(nèi)在特性,決定了其難以跟上Scaling Law的步調(diào):

線性增長與指數(shù)需求的對立:Scaling Law揭示,模型性能隨著數(shù)據(jù)規(guī)模呈冪律提升,這意味著需要數(shù)據(jù)量能持續(xù)指數(shù)級擴張。然而,真機遙操數(shù)據(jù)采集嚴重依賴“堆人頭”和實機運行,其增長是線性的。每一個數(shù)據(jù)點的產(chǎn)生,都伴隨著真實的硬件磨損、物理運動時間和人力成本。即便建立數(shù)百人的采集基地,其年數(shù)據(jù)產(chǎn)量也往往停留在萬小時級別,與Scaling Law所要求的“數(shù)據(jù)洪流”相去甚遠。

物理硬件的“錨定效應”:真實機器人的部署、調(diào)試和維護流程復雜,使得數(shù)據(jù)采集體系剛性且笨重,無法實現(xiàn)靈活、快速的規(guī);瘮U展。數(shù)據(jù)的積累速度被物理硬件的能力和可用性牢牢鎖死。有從業(yè)者坦言:“我們傾注全力建設的實體工廠,其數(shù)據(jù)產(chǎn)能天花板清晰可見,這種模式無法支撐我們走向 scaled model。”

不惜成本大搞特搞數(shù)據(jù)采集,最終只能沉淀出百萬級數(shù)據(jù)集。"就算將注入全部心血搞出的數(shù)據(jù)集開源,于產(chǎn)業(yè)困境而言也不過是杯水車薪。"某具身智能從業(yè)者曾對具身研習社表示。

可見,真機遙操數(shù)據(jù)雖質(zhì)量更高,但我們?nèi)孕枰鞒鲆粭l能解決數(shù)據(jù)規(guī);牡缆。在等待真機數(shù)據(jù)解鎖規(guī)模增長的同時,Generalist方案代表的是另一種解法。

誠然,技術(shù)路線沒有對錯之分,拼的是發(fā)展路徑能否適應AI規(guī);傻年P(guān)鍵分野。但至此,一道看似無解的題就擺在面前:如何突破數(shù)據(jù)采集的規(guī)模瓶頸?

這題該怎么破?

想解決問題先問問機器人需要什么

破題的第一性原理要回到具身機器人的“語言”中,產(chǎn)業(yè)的核心命題從來不是盲目擴張市場規(guī)模、追求表面的 “蛋糕做大”,而是沉下心傾聽具身機器人的 “真實需求”:它需要什么樣的場景土壤、技術(shù)支撐與數(shù)據(jù)養(yǎng)分,才能真正完成從“技術(shù)展品”到 產(chǎn)業(yè)工具”的跨越?

具身機器人的價值實現(xiàn),核心在于“用起來”的深層邏輯,即場景應用必須同時滿足剛需性、長效性與規(guī)模經(jīng)濟性的三重訴求。這三者構(gòu)成了產(chǎn)業(yè)落地的底層支撐:剛需性是場景存在的前提,指向產(chǎn)業(yè)未被滿足的核心痛點;長效性決定了價值的可持續(xù)性,避免短期噱頭式應用;規(guī)模經(jīng)濟性則是產(chǎn)業(yè)規(guī);年P(guān)鍵,支撐技術(shù)迭代與商業(yè)閉環(huán)的正向循環(huán)。

當前行業(yè)內(nèi)頻繁出現(xiàn)的表演、展演場景,本質(zhì)上只是商業(yè)化初期的“場景切片”。這類應用雖能直觀展示技術(shù)進展、吸引市場關(guān)注,但遠非產(chǎn)業(yè)落地的完整圖景。具身機器人的真正落地方向,是成為人類勞動的 “協(xié)同伙伴”:

一方面將人類從重復性勞動、低價值繁瑣事務中解脫,另一方面承接高危、高負荷的作業(yè)場景任務,最終深度融入工廠生產(chǎn)、商業(yè)服務、特種作業(yè)等核心產(chǎn)業(yè)場景,實現(xiàn)勞動效率的躍遷與生產(chǎn)模式的升級。

核心產(chǎn)業(yè)場景的落地,絕非舞臺上依賴預設程序完成標準化動作的表演模式所能支撐。它要求具身機器人跳出“動作復刻”的桎梏,深度理解物理世界的內(nèi)在肌理與動態(tài)運行軌跡。包括環(huán)境變量的實時適配、物體屬性的精準感知、任務執(zhí)行的容錯邊界等核心命題。

換句話說,具身機器人不僅要“會做”,更要“懂做”:明確不同場景下“把事情做對”的標準,理解動作背后的邏輯關(guān)聯(lián),而非機械執(zhí)行預設指令。

這種“懂做”的能力,本質(zhì)是對人類行為模式的系統(tǒng)性拆解、復現(xiàn)與優(yōu)化。相較于肢體擺動等大開大合的宏觀動作,長效落地的產(chǎn)業(yè)場景中,核心難點集中于觸覺反饋、力控精度、環(huán)境感知等精細化交互能力。

“AI教母”李飛飛在其最新發(fā)表的空間智能宣言中深刻剖析了這一難題。她指出,空間智能在人類與物理世界的交互中發(fā)揮著根本性作用——我們每天都在依賴它完成各種看似平凡的動作:停車時通過想象車頭與路沿間逐漸縮小的距離來判斷位置,接住從房間另一頭扔來的鑰匙,或是半睡半醒時不用看就能把咖啡倒進杯子里。

 

圖片

圖片來源:A16Z賬號截圖

然而,讓機器人掌握這種能力面臨嚴峻挑戰(zhàn)。李飛飛明確指出:"開發(fā)這些機器人面臨的一個核心挑戰(zhàn)是,缺乏適用于各種具身形式的訓練數(shù)據(jù)。"

這意味著,機器人需要掌握更精細的物理交互數(shù)據(jù):敲擊鍵盤時如何應對鍵盤的回彈?拿起一瓶礦泉水時,因為它并非純粹的剛體會輕微變形,那么又需要多大力氣來擰開瓶蓋?足量且高質(zhì)量的精細化數(shù)據(jù),正是具身機器人精準執(zhí)行任務的"養(yǎng)分"。這部分人類難以言說的數(shù)據(jù),成為制約其規(guī)模應用的重要痛點。

沒有完善的數(shù)據(jù)閉環(huán)喂養(yǎng),其交互執(zhí)行極易陷入失控狀態(tài),這也是行業(yè)內(nèi)諸多"落地試錯案例"的根源。社交媒體上流傳的具身機器人"黑歷史",本質(zhì)上都是精細化能力缺失的直接體現(xiàn):擰瓶蓋時因缺乏對不同材質(zhì)、不同擰緊度的精準力控能力,導致力度失衡壓扁水瓶;搭積木時因缺少對物體空間位置與動態(tài)碰撞的準確感知能力,不小心碰倒整排積木;工業(yè)裝配中因缺乏對細分零件的觸覺反饋處理能力,出現(xiàn)零件壓損或裝配錯位等問題。

這些看似瑣碎的失誤,恰恰暴露了產(chǎn)業(yè)的核心短板:精細化能力的缺失,讓具身機器人難以應對真實場景的復雜性與不確定性。而這種能力短板的核心癥結(jié),在于缺乏能夠同時滿足物理真實性與規(guī)模化要求的訓練數(shù)據(jù)。 當行業(yè)困于這種核心能力的缺失,任何賬面上的訂單增長與出貨量,都難以轉(zhuǎn)化為實打?qū)嵉囊?guī)模應用落地。產(chǎn)業(yè)的真正拐點,必將始于在核心能力培育所需的數(shù)據(jù)供給上取得根本性突破。

真機不是萬金油

規(guī);瘮(shù)據(jù)觸碰 Scaling law 

在明確精細化交互能力是具身機器人落地的核心瓶頸后,需進一步審視支撐該能力的數(shù)據(jù)體系結(jié)構(gòu)。行業(yè)內(nèi)一直公認的評級標準為“數(shù)據(jù)金字塔”。

這一金字塔分為三層:底層基座由互聯(lián)網(wǎng)海量級公開數(shù)據(jù)及人類操作視頻數(shù)據(jù)構(gòu)成,中間層為仿真合成數(shù)據(jù),塔尖則是價值密度最高的真機遙操數(shù)據(jù)。

目前真正能讓具身機器人具備和物理世界深度交互、執(zhí)行工作任務的數(shù)據(jù),主要依賴于金字塔中層的真機遙操數(shù)據(jù)和帶物理參數(shù)的仿真合成數(shù)據(jù)。

就真機遙操數(shù)據(jù)來說,其通過具身機器人在真實產(chǎn)業(yè)場景中實測獲得,涵蓋觸覺反饋、力控參數(shù)、環(huán)境交互動態(tài)等精細化數(shù)據(jù)。簡而言之,真機遙操數(shù)據(jù)就是“一對一手把手”教具身機器人如何工作,通過百人規(guī)模的遙操采集場,圍繞單一本體形態(tài)進行數(shù)據(jù)標注。單項工作任務中成功率較高,其每條運動軌跡都有人類的影子。

真機遙操數(shù)據(jù)的核心價值在于其對真實物理世界的高保真記錄。真實環(huán)境中的接觸動力學、摩擦力變化、物體形變、力反饋等復雜物理交互,都被完整捕捉在真機遙操數(shù)據(jù)中。這些來自真實世界的物理細節(jié)——尤其是接觸、摩擦等非線性動力學參數(shù),能夠為機器人提供最直接、最真實的物理世界交互經(jīng)驗,這也是真機遙操數(shù)據(jù)被視為"金字塔頂端"的根本原因。

但也正是因為其采集方式,導致真機遙操數(shù)據(jù)存在部分痛點。

目前業(yè)內(nèi)具身機器人形態(tài)尚未收斂,就連相同身高的具身機器人臂長也有所不同,行動軌跡也自然有出入,這便導致數(shù)據(jù)采集難以跨形態(tài)部署。當機器人本體迭代或客戶需求變化時,此前的數(shù)據(jù)資產(chǎn)便難以復用,形成了"賣本體"驅(qū)動的數(shù)據(jù)采集模式,而非"數(shù)據(jù)驅(qū)動"的規(guī);J。

其次,數(shù)據(jù)采集往往消耗大量人力物力,鮮少有企業(yè)能承擔賬面壓力,大部分數(shù)據(jù)采集員為兼職,甚至整個場景數(shù)據(jù)采集為外包公司承接,一定程度上影響數(shù)據(jù)采集的質(zhì)量。

可見,諸多客觀因素導致真機遙操數(shù)據(jù)難以觸碰Scaling Law,而Scaling Law——即模型性能隨數(shù)據(jù)量和算力的增加而可預測地提升,才是具身機器人數(shù)據(jù)側(cè)的首要解法。

Generalist AI的突破,恰恰驗證了規(guī);瘮(shù)據(jù)的可能性。Generalist發(fā)布的GEN-0具身基礎(chǔ)模型,用27萬小時人類操作視頻數(shù)據(jù)首次在機器人領(lǐng)域驗證了Scaling Law的存在。更關(guān)鍵的是,Generalist采用了UMI(通用操作接口)方案,數(shù)據(jù)采集設備與機器人本體解耦,可在全球數(shù)千個家庭、倉庫、工作場所靈活部署,實現(xiàn)了真正的規(guī);瘮(shù)據(jù)采集。

 

圖片

圖片來源:Generalist

在數(shù)據(jù)規(guī)模化的另一條路徑上,仿真合成數(shù)據(jù)同樣展現(xiàn)出觸碰Scaling Law的潛力,且在經(jīng)濟效率上更具優(yōu)勢。同一套仿真場景資產(chǎn),可以適配不同形態(tài)的機器人進行訓練,無需針對每個本體重新構(gòu)建環(huán)境。

更關(guān)鍵的是,仿真數(shù)據(jù)可在虛擬環(huán)境中快速生成海量、多樣化的訓練數(shù)據(jù),在成本控制和部署靈活性上具有獨特優(yōu)勢。對于預訓練數(shù)據(jù)集幾乎為零的具身智能領(lǐng)域而言——并沒有上百萬臺機器人在工廠、車間和家庭中持續(xù)采集數(shù)據(jù)——這個巨大的數(shù)據(jù)缺口,恰恰需要仿真合成數(shù)據(jù)這種可快速擴展、成本可控的方案來填補。

一方面,仿真合成數(shù)據(jù)能解決數(shù)據(jù)缺失和難以規(guī)模化的痛點, 另一方面通過仿真方式能極大降低數(shù)據(jù)資產(chǎn)沉淀的成本。二者相加,便能打開仿真合成數(shù)據(jù)助力具身機器人應用海量數(shù)據(jù)的大門。

更為重要的是,仿真合成數(shù)據(jù)精準覆蓋精細化數(shù)據(jù)需求并具備泛化能力。仿真環(huán)境可精準模擬觸覺反饋、力控閾值等真機實測中難以捕捉的精細化參數(shù),同時通過調(diào)整場景變量(如物體材質(zhì)、環(huán)境光照、任務流程),生成具備場景泛化性的數(shù)據(jù),助力機器人算法適配更多元的真實場景。

仿真合成數(shù)據(jù)的商業(yè)價值,已通過實際案例得到印證。銀河通用堅持以仿真技術(shù)為核心研發(fā)路徑,成功推出“銀河太空艙”并在全國實現(xiàn)大面積落地,深度和每一位客人交互,用看得見摸得著的產(chǎn)業(yè)成果,證明了仿真路線在商業(yè)轉(zhuǎn)化上的巨大潛力。這種落地并非偶然,而是仿真數(shù)據(jù)優(yōu)勢與產(chǎn)業(yè)需求深度匹配的必然結(jié)果 。通過仿真積累的海量數(shù)據(jù),支撐機器人在真實場景中實現(xiàn)更穩(wěn)定、精準的執(zhí)行,為商業(yè)規(guī)模化鋪平道路。

從產(chǎn)業(yè)發(fā)展規(guī)律來看,無論是Generalist用27萬小時人類操作視頻數(shù)據(jù)驗證的Scaling Law,還是仿真合成數(shù)據(jù)展現(xiàn)的規(guī);瘽摿,都指向同一個核心命題:如何高效獲取海量、高質(zhì)量的訓練數(shù)據(jù)。

產(chǎn)業(yè)更應秉持客觀審慎的態(tài)度,回歸“需求導向”的核心邏輯,實現(xiàn)數(shù)據(jù)規(guī)模化是當下的關(guān)鍵。那些仍在圍繞單一本體建造遙操采集場的企業(yè),本質(zhì)上是在用數(shù)據(jù)采集包裝"賣本體"的生意,其數(shù)據(jù)難以在Scaling Law的競爭中占據(jù)優(yōu)勢。

仿真亦是通途:物理真實與規(guī)模效率的協(xié)同進化

Generalist利用人類操作視頻數(shù)據(jù)驗證機器人領(lǐng)域的Scaling Law,其背后的數(shù)據(jù)邏輯與仿真合成數(shù)據(jù)不謀而合——兩者均致力于突破數(shù)據(jù)采集的物理限制,實現(xiàn)高復用性與規(guī);。只不過,Generalist通過UMI方案在真實世界中實現(xiàn)跨本體數(shù)據(jù)采集,而仿真合成數(shù)據(jù)則選擇在虛擬環(huán)境中構(gòu)建數(shù)據(jù)流水線。

值得關(guān)注的是,仿真合成數(shù)據(jù)在規(guī);瘽摿ι险宫F(xiàn)出不亞于人類操作視頻數(shù)據(jù)的勢頭。"AI教母"李飛飛在其3天前發(fā)表的長文《從語言到世界:空間智能是AI的下一個前沿》中指出,機器人一直是具身智能領(lǐng)域的夢想,而世界模型(World Models)將是實現(xiàn)這一夢想的關(guān)鍵。她特別提到:"我不會低估高質(zhì)量合成數(shù)據(jù)(Synthetic Data)的力量...它們在訓練過程的關(guān)鍵步驟中補充了互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)。"

早在前不久,李飛飛與英偉達AI科學家Jim Fan在一場NVIDIA Omniverse直播對話中,就仿真與世界模型進行深度對談。無獨有偶,下一期的Omniverse直播中,Omniverse & Physical AI產(chǎn)品營銷高級總監(jiān)Madison Huang與光輪智能創(chuàng)始人兼CEO謝晨博士,同樣也圍繞仿真合成數(shù)據(jù)如何縮小Sim-to-Real鴻溝展開了深度對話,進一步凸顯仿真路徑在主流技術(shù)路線中的地位正在強化。

 

圖片

圖片來源:直播截圖

謝晨在直播中指出:“當前已進入數(shù)據(jù)發(fā)展的關(guān)鍵階段。借助仿真技術(shù)與仿真資產(chǎn),機器人領(lǐng)域可實現(xiàn)多項突破。”這一判斷的背后,是光輪智能在仿真數(shù)據(jù)體系上的系統(tǒng)化布局——從高物理真實性的仿真資產(chǎn),到標準化、工業(yè)化的數(shù)據(jù)生產(chǎn)流程,最終形成可復用的工具鏈與開放生態(tài)。

在技術(shù)實現(xiàn)層面,光輪智能展示了其與NVIDIA合作開發(fā)的電纜仿真解決方案,能夠處理“可變形體+剛體”雙重物理屬性,為機器人操作線纜、軟管等復雜任務提供高保真數(shù)據(jù)。Madison Huang指出,“電纜操作是機器人領(lǐng)域的‘圣杯’問題”,在NVIDIA的生產(chǎn)環(huán)境中,單臺NVL72機架就需布設2英里長的銅纜,這類任務對機器人的力控與觸覺反饋提出極高要求。

 

圖片

圖片來源:直播截圖

為保障仿真數(shù)據(jù)的有效性,光輪建立了一套完整的基準測試流程:從物理屬性校準、遠程操控驗證,到強化學習壓力測試,并對比仿真與現(xiàn)實世界中的物理參數(shù)曲線,確保數(shù)據(jù)趨勢一致。謝晨強調(diào),仿真的目標不是追求與現(xiàn)實完全一致的“數(shù)字孿生”,而是生成具有多樣性和代表性的“數(shù)字同類體”(digital cousins),以覆蓋真實場景中的數(shù)據(jù)分布。

在規(guī)模化方面,光輪通過標準化流程將現(xiàn)有數(shù)字資產(chǎn)快速轉(zhuǎn)化為仿真就緒資產(chǎn)。例如,一個冰箱模型的轉(zhuǎn)化時間可縮短至約20分鐘。同時,其對仿真資產(chǎn)進行深度優(yōu)化,支持單GPU并行運行成百上千個環(huán)境,為強化學習提供大規(guī)模、低成本的訓練條件。

在架構(gòu)設計上,光輪智能以仿真引擎為底層基礎(chǔ),構(gòu)建可復用的工具鏈層——包括泛化學習、強化學習等模塊,均已實現(xiàn)產(chǎn)品化。在此基礎(chǔ)上,適配層根據(jù)不同客戶的傳感器與標注需求進行定制,從而快速響應多場景需求。

為拓展數(shù)據(jù)生成能力邊界,光輪與NVIDIA聯(lián)合推動Isaac Lab Arena開源框架的開發(fā),用于基準測試、數(shù)據(jù)收集與大規(guī)模強化學習,并集成Cosmos等世界模型增強合成數(shù)據(jù)的多樣性與復雜性。這套“仿真-資產(chǎn)-工具鏈-生態(tài)”的閉環(huán),為其規(guī);⻊湛蛻舻於嘶A(chǔ)。

目前,光輪智能的客戶除了英偉達,還覆蓋DeepMind、斯坦福、Genesis AI、Figure、1X、銀河、智元、阿里、字節(jié)等企業(yè)與機構(gòu),在產(chǎn)業(yè)中逐步建立起技術(shù)信譽。Madison Huang在直播中評價稱,與這些頂尖團隊的合作,“本身就證明了光輪在仿真資產(chǎn)與合成數(shù)據(jù)普及方面的前瞻性”。

李飛飛在空間智能宣言中強調(diào),空間智能需處理“語義、幾何、動態(tài)和物理”之間的復雜協(xié)調(diào),其難度遠超語言模型的一維序列建模。仿真合成數(shù)據(jù)正是應對這一挑戰(zhàn)的關(guān)鍵路徑——它不僅僅提供數(shù)據(jù),更在構(gòu)建一個可控、可擴展的物理學習環(huán)境。

光輪智能的實踐表明,仿真數(shù)據(jù)系統(tǒng)逐漸成為連接虛擬與現(xiàn)實、支持機器人從“感知”走向“操作”的基礎(chǔ)設施。據(jù)悉,光輪智能已實現(xiàn)破億營收,這也從商業(yè)層面驗證了仿真合成數(shù)據(jù)的規(guī);瘍r值正在被市場認可。

結(jié)語

Generalist以27萬小時人類操作視頻數(shù)據(jù)驗證了機器人領(lǐng)域的Scaling Law,其UMI方案更指明了一條數(shù)據(jù)規(guī);默F(xiàn)實路徑。當多數(shù)企業(yè)仍困于為單一本體建造遙操工廠時,像Generalist這樣依托人類操作視頻融資1.4億美元,或如光輪智能憑借仿真數(shù)據(jù)實現(xiàn)營收破億,都已證明:規(guī);拇箝T,早已向能夠突破數(shù)據(jù)瓶頸的玩家敞開。

這場競賽的關(guān)鍵分水嶺,已不再是數(shù)據(jù)方案的路線之爭,而在于是否回歸到數(shù)據(jù)采集的“第一性原理”:追求可復用、可擴展、可演進的規(guī)模化數(shù)據(jù)流。那些執(zhí)著于單一本體、高成本標注的傳統(tǒng)遙操模式,不僅難以支撐Scaling Law所需的數(shù)據(jù)洪流,更在根本上背離了智能泛化的基本邏輯。

Generalist的突破重寫了具身智能時代的數(shù)據(jù)法則:打破本體依賴,建立可復用、可擴展的數(shù)據(jù)飛輪,才是迎接Scaling Law時代的關(guān)鍵。

       原文標題 : 本體無關(guān):Generalist 27萬小時要掀真機采集場桌子

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號