訂閱
糾錯
加入自媒體

對標(biāo)25億美元估值獨角獸,這家具身智能公司被阿里、美團(tuán)重投

作者|向欣

阿里和美團(tuán),罕見地同時在同一輪融資中投了一家具身智能公司。

9 月 8 日,自變量機(jī)器人宣布完成近 10 億元 A+輪融資,阿里云、國科投資領(lǐng)投,國開金融、紅杉中國、渶策資本跟投,老股東美團(tuán)、聯(lián)想之星、君聯(lián)資本追投。

這是阿里云首次投資具身智能公司,也是美團(tuán)第二次參與自變量機(jī)器人的融資。

此前,自變量機(jī)器人已完成 7 輪融資,據(jù) CNBC 報道,自變量機(jī)器人總?cè)谫Y額達(dá)到 2.8 億美元(約合人民幣 20 億元)。

自變量機(jī)器人成立于 2023 年底。它的鮮明特征有兩點:

其一,從一開始就堅持走端到端的具身通用大模型路線,而不是分層模型或?qū)S眯∧P停苯訉?biāo)美國估值 24 億美元的 Physical Intelligence(PI);

其二,屬于「真機(jī)數(shù)據(jù)派」,相比一味追求數(shù)據(jù)規(guī)模和多樣性,更重視數(shù)據(jù)質(zhì)量。

就在宣布融資的同一天,自變量還開源了具身智能大模型「Wall-OSS」,該模型在多個維度上對標(biāo)并超越了π0 模型(PI 研發(fā)的具身大模型)。

在不久前的 WRC 上,自變量機(jī)器人將自研的 WALL-A 模型部署到「小量」機(jī)器人身上,實現(xiàn)了自主制作香囊、整理客廳等復(fù)雜任務(wù)。

目前行業(yè)中,不少企業(yè)傾向采用分層模型來解決具身智能的部分操作任務(wù),因為這種方式對數(shù)據(jù)需求更低,由于模塊化的設(shè)計,可控性更強(qiáng),還能針對特定任務(wù)做優(yōu)化。

完全的端到端模型,則被視為更長遠(yuǎn)的技術(shù)范式——它能在統(tǒng)一架構(gòu)下解決復(fù)雜任務(wù),但目前技術(shù)條件下難度極高。

自變量選擇的正是這條「終局之路」:打造具備強(qiáng)泛化能力的通用基礎(chǔ)模型。

這條路線需要更高的技術(shù)門檻和更長的資本耐力,但資本市場的密集押注,顯示它正在獲得越來越多的認(rèn)可與信任。

與此同時,經(jīng)過今年的一番密集投資,阿里、美團(tuán)、京東三大巨頭在具身智能領(lǐng)域的暗戰(zhàn)持續(xù)升溫,各自的布局邏輯已出現(xiàn)分化,勾勒出清晰、差異化的競爭格局。

端到端模型是唯一解

自變量機(jī)器人最初專注具身大模型,隨后擴(kuò)展到大模型與本體協(xié)同發(fā)展的全棧布局,是典型的「軟硬兼修」路徑。公司核心團(tuán)隊擁有北大、清華「雙核」背景。

創(chuàng)始人兼 CEO 王潛,本碩畢業(yè)于清華大學(xué),是全球最早在神經(jīng)網(wǎng)絡(luò)中提出注意力機(jī)制的研究者之一。

攻讀南加大博士期間,他在美國頂級機(jī)器人實驗室參與了機(jī)器人操作與家庭服務(wù)機(jī)器人相關(guān)的多個研究項目,幾乎涵蓋了該領(lǐng)域的所有主流方向。

王潛

聯(lián)合創(chuàng)始人兼 CTO 王昊,是北大計算物理博士,曾任粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA 研究院)大模型團(tuán)隊負(fù)責(zé)人,主導(dǎo)的開源模型下載量超過百萬。

簡單來說,王潛對機(jī)器人操作有深厚積累,王昊深耕大模型,兩者在技術(shù)上互補(bǔ)。

不過,王昊也評價王潛是「既懂機(jī)器人,又懂大模型」的少見復(fù)合型人才。

兩人共同確立了自變量的技術(shù)方向:端到端模型 + 真機(jī)數(shù)據(jù)。

早在 2016 年,王潛就判斷端到端是解決具身操作問題的必由之路,開始著手研發(fā)端到端的機(jī)器人模型。

那時,這個觀點并不被主流認(rèn)可,甚至有知名的機(jī)器人學(xué)者直接對王潛否定了這一技術(shù)路線。

但隨著 ChatGPT 和特斯拉 FSD 的出現(xiàn),端到端路線逐漸成為業(yè)內(nèi)共識。

在王潛看來,具身智能的難點在于物理交互的復(fù)雜性。分層模型每多一步拆解,就會引入額外誤差和不可控的噪聲,難以實現(xiàn)真正可靠地執(zhí)行;而端到端統(tǒng)一模型,能夠在「感知—決策—執(zhí)行」的全流程中保持連續(xù)性,從根本上解決這一問題。

從 2020 年起,他進(jìn)一步提出「統(tǒng)一模型」思路:用一個模型整合多模態(tài)信息,解決多類任務(wù),可以理解為「通用基礎(chǔ)模型」。

這正是自變量 WALL-A 模型的核心設(shè)計。這種端到端與統(tǒng)一體現(xiàn)在兩個維度:

縱向統(tǒng)一:從視頻、傳感器等原始輸入到機(jī)器人運動輸出,全部由同一模型處理,避免分層帶來的累積誤差。

橫向統(tǒng)一:不同任務(wù)共用同一個模型,訓(xùn)練和推理都在同一架構(gòu)下完成,具備跨任務(wù)遷移能力。

自變量的代表性成果 WALL-A 具身模型,已經(jīng)能在低成本硬件上完成諸如拉拉鏈、扣扣子、整理衣物等高難度任務(wù),成功率達(dá) 90% 以上。

對人類而言,這些是日常動作,但對機(jī)器人來說卻極其復(fù)雜:涉及柔性物體、隨機(jī)性和復(fù)雜拓?fù)浣Y(jié)構(gòu),每一步的預(yù)測難度都非常高,需要高度精準(zhǔn)的操作和動態(tài)調(diào)整。

而在通用性、泛化層面,WALL-A 可以做到使用極少的樣本,完成各種物理環(huán)境變量、動作模式的泛化和遷移,并且已在部分完全未訓(xùn)練過的新任務(wù)類型中展現(xiàn)出零樣本泛化能力。

零樣本泛化能力,正是具身智能機(jī)器人走向通用的標(biāo)志性技術(shù)壁壘。

它意味著機(jī)器人無需針對新任務(wù)重新訓(xùn)練,僅靠現(xiàn)有認(rèn)知就能適配未知場景,有了用有限的數(shù)據(jù)量做無限種類的任務(wù)的可能性,解決機(jī)器人發(fā)展的最大難題——數(shù)據(jù)不足的問題。

數(shù)據(jù)質(zhì)量遠(yuǎn)比規(guī)模和多樣性重要

在模型路線的選擇上,自變量的另一大堅持是:高質(zhì)量真機(jī)數(shù)據(jù)。

分層模型依賴人類先驗知識分解任務(wù),各模塊目標(biāo)明確,數(shù)據(jù)需求相對較低。

而端到端模型像一個「黑箱」,直接從原始輸入學(xué)習(xí)到最終輸出,不依賴人工拆解。這種模式對數(shù)據(jù)的規(guī)模、質(zhì)量和多樣性提出了更高要求。

王昊的經(jīng)驗在此發(fā)揮了關(guān)鍵作用。他是國內(nèi)最早做大模型研發(fā)的一批人,曾主導(dǎo)國內(nèi)首個百億級大模型和早期千億級模型之一「Ziya」。

他發(fā)現(xiàn),靠數(shù)據(jù)規(guī)模堆起來的大模型,并沒有明顯的「大力出奇跡」的效果。

ChatGPT 誕生后,早期大家試圖僅靠堆砌大量數(shù)據(jù)來復(fù)刻 ChatGPT,但都失敗了;直到有人用 ChatGPT 的數(shù)據(jù)來「微調(diào)」模型,才第一次做出了可用的大模型。

因此,自變量在數(shù)據(jù)策略上,強(qiáng)調(diào)質(zhì)量優(yōu)先于數(shù)量和多樣性。

自變量的訓(xùn)練數(shù)據(jù)主要來自現(xiàn)實生活中的真機(jī)采集,包括集中式數(shù)據(jù)采集場地、分布式現(xiàn)實環(huán)境收集,以及機(jī)器人部署后的回流數(shù)據(jù)。同時也會使用廣泛的互聯(lián)網(wǎng)視頻數(shù)據(jù)做預(yù)訓(xùn)練。復(fù)雜的物理交互環(huán)節(jié)(如精細(xì)手部操作),則完全不用仿真數(shù)據(jù)。

在高質(zhì)量數(shù)據(jù)驅(qū)動下,自變量的模型展現(xiàn)出較強(qiáng)的泛化能力。

王潛將泛化劃分為四個層次:

1、基礎(chǔ)條件的泛化:適應(yīng)光照、物體位置等同一任務(wù)、環(huán)境下的基礎(chǔ)條件變化;

2、跨環(huán)境的泛化:能從一個場景(如桌面)擴(kuò)展到不同場景(如廚房臺面);

3、對象層面的泛化:對同類但未見過的全新物體(例如不同種類的杯子),依然能完成任務(wù);

4、任務(wù)的泛化:對于完全未學(xué)習(xí)過的任務(wù),具備探索和解決的能力。

王潛稱,目前他們的模型在前三個層面都體現(xiàn)出了很好的通用性、泛化性能力,基本意味著可以在一個半封閉的或者是一個半開放的場景里去替代掉很多繁瑣的體力勞動,具備商業(yè)落地的可能性。

在商業(yè)化上,自變量的規(guī)劃是先從 To B 場景切入,逐步延展至 To C。

目前除大模型外,自變量還推出了輪式雙臂仿人形機(jī)器人「量子 2 號」,全身 62 個自由度,能夠覆蓋 0-2 米的工作空間,靈活應(yīng)對家務(wù)、物流等復(fù)雜任務(wù)。

三大電商巨頭的具身智能暗戰(zhàn)

自變量融資的背后,是電商巨頭在具身智能領(lǐng)域的又一次正面交鋒。

過去,阿里、美團(tuán)、京東在電商、外賣、超市、酒旅市場競爭得如火如荼,如今戰(zhàn)火延伸到了機(jī)器人。

投資入股成為它們進(jìn)入這一領(lǐng)域的核心方式。

三家大廠的投資行為存在兩個共性。

其一,它們往往以領(lǐng)投方身份入場,不僅是資金的主要提供者,也是對公司主導(dǎo)全面盡職調(diào)查的一方,深入了解標(biāo)的,下注最重;

其二,大廠的投資布局較為全面,從模型到本體的企業(yè)都有覆蓋。

其中阿里、京東還投了鈦虎機(jī)器人、靈心巧手、帕西尼感知等零部件企業(yè),產(chǎn)業(yè)投資的觸角延伸得更長。

但三者的差異同樣明顯。

阿里投資的具身智能公司數(shù)量最多,已投了 10 家。

其邏輯并不僅限于業(yè)務(wù)場景,而是更希望通過云計算和大模型擴(kuò)展人工智能的應(yīng)用邊界,構(gòu)建具身智能技術(shù)生態(tài)。

今年,阿里云與均勝具身智能達(dá)成全面合作,基于通義千問模型打造機(jī)器人智能體,支持工業(yè)、醫(yī)療等場景落地;阿里云「無影」系列云產(chǎn)品則能為具身智能提供彈性算力和跨端協(xié)同。

阿里同時也在加碼場景化應(yīng)用。去年 12 月,螞蟻集團(tuán)成立具身智能子公司螞蟻靈波科技,面向家庭、養(yǎng)老、醫(yī)療健康等領(lǐng)域打造機(jī)器人產(chǎn)品。

整體來看,阿里的具身智能策略是以「云+大模型」為核心技術(shù)底座,同時兼顧應(yīng)用端突破。

美團(tuán)雖然在具身智能公司的投資數(shù)量上不及阿里,但將目光從具身智能放大到整個機(jī)器人領(lǐng)域,會發(fā)現(xiàn)美團(tuán)對機(jī)器人布局更早、更廣。

從未來機(jī)器人、非夕、普渡科技等物流、協(xié)作、室內(nèi)配送方向的機(jī)器人本體企業(yè),到智譜 AI、光年之外、月之暗面等大模型和 AI 芯片公司,美團(tuán)幾乎在機(jī)器人相關(guān)的上下游都撒下過棋子。

這種「廣撒網(wǎng)」策略背后,反映出美團(tuán)對機(jī)器人的認(rèn)知:未來將它們是物理世界的基礎(chǔ)設(shè)施。

就像外賣騎手和即時配送體系鏈接了線上的數(shù)字世界與線下的物理世界,未來,王興希望延續(xù)這種鏈接,讓機(jī)器人成為數(shù)字指令的物理執(zhí)行者,美團(tuán)則成為這套智能基礎(chǔ)設(shè)施的搭建者與運營者。

換句話說,美團(tuán)的目標(biāo)不僅是應(yīng)用方,更希望扮演連接線下基礎(chǔ)設(shè)施與線上世界的科技「橋梁」的角色,線下基礎(chǔ)設(shè)施,指的就是機(jī)器人。

京東投資具身智能公司的時間較晚,今年才開始投資,但節(jié)奏很快,4 個月內(nèi)就投了 6 家具身公司。

與阿里類似,京東也希望打造具身智能技術(shù)生態(tài),推出了「JoyInside」具身智能平臺,賦能機(jī)器人、機(jī)器狗和 AI 玩具的對話能力,同時京東探索研究院也在數(shù)據(jù)、操作、大腦等方面發(fā)布具身智能技術(shù)成果。

不同之處在于,京東更強(qiáng)調(diào)場景導(dǎo)向,重點聚焦零售、物流、家庭三大垂直應(yīng)用。

京東今年已成立側(cè)重家用場景的具身智能相關(guān)部門,并依托電商+物流的雙重身份,將外部技術(shù)與自身需求結(jié)合。

例如,千尋智能公司創(chuàng)始人兼 CEO 韓峰濤就曾表示,京東投資的邏輯在于物流科技需求,千尋的「大腦能力」可助其通過機(jī)器人降低人力依賴、提升訂單準(zhǔn)確性。

綜合來看,三家大廠對于具身智能乃至機(jī)器人領(lǐng)域的布局特性如下:

美團(tuán):將機(jī)器人視作下個時代的基礎(chǔ)設(shè)施,自己不僅是應(yīng)用方,也充當(dāng)鏈接者與運營者。

阿里:提供云計算與算力等基礎(chǔ)服務(wù),充當(dāng)具身智能生態(tài)建設(shè)者。

京東:同樣希望成為具身智能生態(tài)建設(shè)者,但目前更多傾向于零售、物流、家庭三大垂類場景的應(yīng)用。

阿里、美團(tuán)、京東分別代表了云生態(tài)、基礎(chǔ)設(shè)施運營與垂直場景三種截然不同的路線選擇,他們的入場,實質(zhì)上是在以各自最熟悉的方式入局具身智能。

隨著資本、技術(shù)和場景三重力量的匯聚,以自變量為代表的企業(yè),將進(jìn)入「技術(shù)攻堅 + 生態(tài)競合」的新階段。

       原文標(biāo)題 : 對標(biāo)25億美元估值獨角獸,這家具身智能公司被阿里、美團(tuán)重投

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號