訂閱
糾錯(cuò)
加入自媒體

3個(gè)月連融5億,這家公司手握2026年具身智能流量密碼

作者 | 毛心如

今年,具身智能領(lǐng)域什么詞最火?VLA(視覺-語言-行動(dòng)模型)一定能占領(lǐng)一席之地。

無論是行業(yè)還是學(xué)界,對(duì) VLA 的關(guān)注都來到了新高度。根據(jù)公開信息統(tǒng)計(jì),在今年的三大機(jī)器學(xué)習(xí)頂會(huì)之一,ICLR,VLA 模型相關(guān)投稿量從去年的個(gè)位數(shù)飆升至 164 篇,足足增長了 18 倍。

這一技術(shù)路線因其能實(shí)現(xiàn)從視覺感知到動(dòng)作執(zhí)行的端到端映射,被視為實(shí)現(xiàn)通用機(jī)器智能的捷徑,吸引了大量研發(fā)投入。

然而,在表層共識(shí)之下,一場(chǎng)關(guān)于技術(shù)終局的深刻思辨早已暗流涌動(dòng)。

早在今年 8 月的 2025 世界機(jī)器人大會(huì)上,王興興直言不諱地稱當(dāng)下火熱的 VLA 模型是相對(duì)比較傻瓜式的架構(gòu),并表示保持比較懷疑的態(tài)度。

這一炸裂觀點(diǎn)在業(yè)內(nèi)引發(fā)了廣泛熱議,而其背后的邏輯更值得深究。

他認(rèn)為如果模型只是表面地把視覺、語言和行動(dòng)拼接起來,卻沒有穩(wěn)定的世界表示與預(yù)測(cè)能力,這樣的系統(tǒng)在真實(shí)世界交互時(shí)會(huì)暴露出短板,例如對(duì)數(shù)據(jù)質(zhì)量和多樣性的過度依賴、對(duì)長期規(guī)劃和因果推理能力不足等。

因此,王興興傾向于將更多資源投向世界模型路線。

這一判斷也呼應(yīng)了多位業(yè)內(nèi)人士的觀點(diǎn),即世界模型有望緩解具身智能在數(shù)據(jù)稀缺與泛化困難上的核心瓶頸,極可能在 VLA 之后,成為 2026 年的核心技術(shù)趨勢(shì)。

事實(shí)上,這場(chǎng)關(guān)于終極智慧的博弈不僅存在于人形機(jī)器人行業(yè),在智能駕駛,這個(gè)被視為具身智能先行區(qū)的賽道,像特斯拉、小鵬等頭部玩家們也在端到端、VLA、世界模型三條線路里探索、權(quán)衡。

技術(shù)路線的選擇,很可能決定未來 5 年的產(chǎn)業(yè)格局。

最近,專注世界模型的初創(chuàng)公司極佳視界獲得了 2 億元的 A2 輪融資,此前,極佳視界已分別完成 Pre-A、Pre-A+、A1 連續(xù)三輪融資,3 個(gè)月內(nèi)連續(xù)完成了 4 輪累計(jì) 5 億元 A 輪系列融資。

投資方包括中金資本、國中資本等傳統(tǒng)機(jī)構(gòu)以及華為哈勃這樣的產(chǎn)業(yè)資本。

值得注意的是,華為哈勃目前在具身智能領(lǐng)域的投資標(biāo)的較為有限,極佳視界是其中之一。

這一投資動(dòng)作,與華為將世界模型列為「未來智能世界 2035 年十大技術(shù)趨勢(shì)之首」的戰(zhàn)略預(yù)判不謀而合。

目前,極佳視界正在以世界模型為業(yè)務(wù)核心,同時(shí)布局智能駕駛和機(jī)器人兩條業(yè)務(wù)線。

這家公司的技術(shù)選擇和商業(yè)化路徑,恰好提供了一個(gè)絕佳樣本,讓我們得以觀察世界模型是否真能成為下一代機(jī)器人的通用大腦。

一支全棧式頂級(jí)團(tuán)隊(duì)

雖然已至年末,但具身智能行業(yè)的融資熱度并未消減,少量大額融資與密集多輪融資仍在輪番上演。極佳視界顯然屬于后者。

驅(qū)動(dòng)這一系列資本動(dòng)作的,是一支在學(xué)術(shù)、工程、產(chǎn)業(yè)和算法四個(gè)維度均配備頂尖人才的復(fù)合型創(chuàng)始團(tuán)隊(duì)。

這種覆蓋全鏈條的全棧式配置,在具身智能初創(chuàng)公司中尤為罕見。

黃冠:創(chuàng)始人兼 CEO,連續(xù)創(chuàng)業(yè)者,曾在微軟、地平線等企業(yè)從事算法開發(fā)工作

朱政:首席科學(xué)家,清華博士后,超 70 篇頂會(huì)論文;圈內(nèi)公認(rèn)學(xué)術(shù)大牛

毛繼明:工程副總裁,曾擔(dān)任百度 Apollo 仿真和工程負(fù)責(zé)人

孫韶言:產(chǎn)品副總裁,曾擔(dān)任阿里云總監(jiān)、地平線數(shù)據(jù)閉環(huán)產(chǎn)品線總經(jīng)理

陳新澤:算法負(fù)責(zé)人,AI 世界冠軍得主極佳科技創(chuàng)始人&CEO 黃冠

具身智能領(lǐng)域的競爭,本質(zhì)上是頂尖人才的競爭。

從技術(shù)角度講,極佳視界的團(tuán)隊(duì)架構(gòu)呈現(xiàn)出一種高維跨界特征,有效地彌合了傳統(tǒng) AI 研究中視覺感知、物理理解和機(jī)器人控制三者之間的鴻溝。

從公司運(yùn)營角度講,這種頂尖學(xué)術(shù)與大規(guī)模工業(yè)落地經(jīng)驗(yàn)的組合,也構(gòu)成了極佳視界的競爭優(yōu)勢(shì)。

基于這種復(fù)合能力,極佳視界選擇了一條看似更難、卻更利于構(gòu)筑長期護(hù)城河的商業(yè)化路徑:在智能駕駛與通用具身智能兩大戰(zhàn)場(chǎng)同時(shí)推進(jìn),并致力于打通從大腦到身體的全棧閉環(huán)。

除了團(tuán)隊(duì)光環(huán),極佳視界的自我造血能力也是資本看好的關(guān)鍵。極佳視界以空間智能相關(guān)研發(fā)為起點(diǎn),推出了面向物理空間的數(shù)據(jù)引擎和面向虛擬空間的內(nèi)容引擎兩個(gè)方向的技術(shù)。

目前其產(chǎn)品包括世界模型平臺(tái) GigaWorld、具身基礎(chǔ)模型 GigaBrain、通用具身本體 Maker 等全棧軟硬件產(chǎn)品。

商業(yè)化層面,其在自動(dòng)駕駛世界模型方向已經(jīng)和多個(gè)頭部主機(jī)廠達(dá)成簽約合作。

在具身世界模型、具身大腦等方向也已和多個(gè)具身本體、終端公司達(dá)成簽約合作,應(yīng)用于科研教育、數(shù)據(jù)采集、工業(yè)業(yè)、服務(wù)業(yè)等多個(gè)場(chǎng)景。

搭好了智能大腦的臺(tái)子,極佳視界也并沒有把自己局限在一個(gè)軟件提供商的角色。

隨著大模型業(yè)務(wù)的初步穩(wěn)定,今年年中,極佳科技開始組建機(jī)器人團(tuán)隊(duì),試圖將大模型能力應(yīng)用至輪臂機(jī)器人。

今年 10 月底,其與湖北人形機(jī)器人創(chuàng)新中心達(dá)成戰(zhàn)略合作,共建全球首個(gè)世界模型驅(qū)動(dòng)的虛實(shí)結(jié)合具身智能數(shù)據(jù)工廠。

11 月底,極佳視界推出首款輪式人形機(jī)器人 Maker H01,同時(shí)啟動(dòng)規(guī);慨a(chǎn)交付。

Maker H01 標(biāo)準(zhǔn)版高度約為 1.6 米,全身擁有 20+自由度,專為家庭、商業(yè)服務(wù)與輕工業(yè)等開放場(chǎng)景設(shè)計(jì)。目前正逐步在物品取放、巡檢接待、實(shí)驗(yàn)協(xié)助、倉儲(chǔ)搬運(yùn)等真實(shí)業(yè)務(wù)場(chǎng)景落地。Maker H01 的正式發(fā)布也標(biāo)志著極佳視界階段性完成了行動(dòng)核心+數(shù)據(jù)引擎+物理載體的三位一體產(chǎn)品架構(gòu)。

這種從算法、軟件到硬件的閉環(huán)布局,不僅驗(yàn)證了其世界模型的技術(shù),更意在搶占從智能到智能體的完整生態(tài)位,為其長期競爭奠定基礎(chǔ)。

用世界模型做技術(shù)深潛

極佳視界的敘事核心,圍繞世界模型展開。

但世界模型到底是什么?它為什么被認(rèn)為是下一代機(jī)器人大腦的關(guān)鍵?

通俗理解,我們可以把世界模型看作一個(gè)學(xué)習(xí)了物理規(guī)律的數(shù)字沙盤。

在這個(gè)沙盤里,AI 可以模擬現(xiàn)實(shí)世界的運(yùn)作,比如一個(gè)玻璃杯從桌邊掉落會(huì)摔碎,推動(dòng)一個(gè)箱子需要克服摩擦力。

借助這個(gè)沙盤,機(jī)器人不用在現(xiàn)實(shí)世界中經(jīng)歷多次且緩慢的試錯(cuò),就能預(yù)先腦補(bǔ)出各種行動(dòng)的結(jié)果,并學(xué)習(xí)最優(yōu)策略。

這也正是極佳視界技術(shù)范式的精髓,世界模型+行動(dòng)模型+強(qiáng)化學(xué)習(xí)的三位一體。

在這個(gè)體系中,三者分工明確:

世界模型負(fù)責(zé)構(gòu)建高保真的物理環(huán)境,解決機(jī)器人在不同場(chǎng)景下的泛化能力問題

行動(dòng)模型作為指揮中樞,負(fù)責(zé)理解復(fù)雜的多模態(tài)指令并將其分解為行動(dòng)序列

強(qiáng)化學(xué)習(xí)則讓機(jī)器人在虛擬環(huán)境中通過反復(fù)試錯(cuò),不斷優(yōu)化行動(dòng)策略,提升任務(wù)的完成精度與魯棒性

在這一架構(gòu)下,原生世界模型 GigaWorld-0 充當(dāng)基石與養(yǎng)料,而原生行動(dòng)模型 GigaBrain-0 則掌控決策核心。

GigaWorld-0 通過幾何一致、物理準(zhǔn)確的建模機(jī)制,大規(guī)模生成高保真交互數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)放大效應(yīng),讓模型訓(xùn)練擺脫了對(duì)昂貴且耗時(shí)的真實(shí)世界數(shù)據(jù)的依賴。

這是極佳視界專為 VLA 模型訓(xùn)練打造的世界模型框架,也是業(yè)內(nèi)首個(gè)采用 FP8 精度端到端訓(xùn)練的世界模型。

這里值得一提的是,F(xiàn)P8 精度訓(xùn)練作為一種計(jì)算效率高、內(nèi)存占用低、通信帶寬需求小的技術(shù),被廣泛應(yīng)用在 Deepseek-V3、GPT-4 等大語言模型訓(xùn)練中,可在保持模型性能的同時(shí)大幅提升訓(xùn)練速度。

其成功將世界模型生成數(shù)據(jù)在 VLA 訓(xùn)練中占比提升至 90%,是全球范圍內(nèi)首個(gè)實(shí)現(xiàn)的模型公司。

數(shù)據(jù)的量變帶來了能力的質(zhì)變。經(jīng)過生成數(shù)據(jù)訓(xùn)練的 VLA 模型在新紋理、新視角、新物體位置三大泛化維度上均實(shí)現(xiàn)了近 300% 的性能提升。

在 PBench(Robot Set)基準(zhǔn)測(cè)試中,GigaWorld-0 以最小參數(shù)量達(dá)成最高整體性能。這種小參數(shù)量+高性能的特性,為后續(xù)的工程化落地掃清了成本障礙。

GigaBrain-0 則是一款端到端的決策控制模型,專為具身智能體設(shè)計(jì)。

極佳視界團(tuán)隊(duì)認(rèn)為,目前具身智能的瓶頸存在三大挑戰(zhàn),一是高質(zhì)量數(shù)據(jù)稀缺,真機(jī)采集的成本高、效率低;二是仿真數(shù)據(jù)存在仿真到現(xiàn)實(shí)的誤差,難以直接利用;三是傳統(tǒng)仿真器的建模誤差制約強(qiáng)化學(xué)習(xí)效果。

而有世界模型 GigaWorld-0 加持下的 GigaBrain-0 將有潛力打破這些瓶頸。

基于 VLA 架構(gòu),該模型融合了圖像、深度、文本及本體狀態(tài)等多模態(tài)輸入,能夠輸出結(jié)構(gòu)化的任務(wù)規(guī)劃與運(yùn)動(dòng)指令。

針對(duì)當(dāng)前機(jī)器人在操作精度與推理能力的短板,GigaBrain-0 重點(diǎn)強(qiáng)化了 3D 空間感知與結(jié)構(gòu)化推理能力,提升其在復(fù)雜環(huán)境中的導(dǎo)航精度與長序列任務(wù)執(zhí)行能力,讓機(jī)器人擁有更強(qiáng)的泛化性能。

在制作咖啡、整理桌面、搬運(yùn)物品等復(fù)雜任務(wù)中,其模型性能不僅全面超過了π0,還能跟π0.5 相當(dāng)。

值得一提的是,其端側(cè)部署能力也很強(qiáng)。經(jīng)深度優(yōu)化的輕量級(jí)變體模型 GigaBrain-0-Small,在 NVIDIA Jetson AGX Orin 平臺(tái)上的推理延遲僅為 0.13 秒,遠(yuǎn)低于 π 的 1.28 秒。

而任務(wù)成功率卻與π0 的 80% 持平,這代表著在資源受限設(shè)備上,模型依然能進(jìn)行高效實(shí)時(shí)推理。這一點(diǎn)直擊傳統(tǒng)大模型算力需求高、難以部署的痛點(diǎn)。

總的來說,GigaBrain-0 的性能優(yōu)勢(shì)有三點(diǎn):

訓(xùn)練數(shù)據(jù)來源更豐富:在紋理、光照、視角變化下表現(xiàn)更魯棒、泛化性更好

架構(gòu)更深:關(guān)鍵子模塊引入更深層建模,操作表現(xiàn)更精細(xì)

有大小雙版本模型:小模型可達(dá)大模型 90% 效果,且可在端側(cè) Orin 實(shí)現(xiàn)實(shí)時(shí)推理

極佳視界的首席科學(xué)家朱政表示,現(xiàn)在 VLA 模型與世界模型越來越呈現(xiàn)合二為一的趨勢(shì)。

但這其中,世界模型的作用顯著。除了可以提供數(shù)據(jù)之外,還可以在 VLA 里加上隱式的未來狀態(tài)預(yù)測(cè)和顯式的未來視頻預(yù)測(cè),能夠克服行動(dòng)環(huán)節(jié)監(jiān)督太過稀疏的缺點(diǎn)。

誰先在機(jī)器人大腦拿下話語權(quán)

無論是今年大熱的 VLA 模型,還是被寄予厚望的世界模型,其本質(zhì)都是具身智能大腦在不同階段的范式演進(jìn)。

盡管終極范式尚無定論,但世界模型已引發(fā)全球產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注。無論是英偉達(dá)的 COSMOS,還是谷歌的 Genie-3,巨頭紛紛入場(chǎng)。

這背后,是一場(chǎng)關(guān)于機(jī)器人大腦底層話語權(quán)的爭奪。

目前來看,業(yè)內(nèi)匯聚了三股主要力量參與其中:

第一股是具有場(chǎng)景與量產(chǎn)路徑的汽車主機(jī)廠商,例如特斯拉、小鵬等。

他們的優(yōu)勢(shì)在于擁有真實(shí)的駕駛數(shù)據(jù)和閉環(huán)場(chǎng)景。特斯拉每天有數(shù)百萬輛車在路上跑,產(chǎn)生的真實(shí)駕駛數(shù)據(jù)是任何初創(chuàng)公司難以企及的。

但泛化受限的劣勢(shì)同樣明顯:從車端智能遷移到通用機(jī)器人,需要解決全新的平衡、操作與復(fù)雜交互難題。

第二股是海內(nèi)外的平臺(tái)級(jí)大廠,國內(nèi)字節(jié)、阿里,國外谷歌、英偉達(dá)等。

這類玩家擁有算力優(yōu)勢(shì)、數(shù)據(jù)體量,推出的模型往往具有更強(qiáng)的泛化能力和多模態(tài)理解水平,但大多公司傾向于先在云端形成規(guī)模化能力再向邊緣延展。

第三股是專注具身智能業(yè)務(wù)的初創(chuàng)公司,如 Figure AI、極佳視界、星動(dòng)紀(jì)元等。

具身初創(chuàng)企業(yè)們最大的優(yōu)勢(shì)在于路徑純粹、業(yè)務(wù)聚焦,他們沒有歷史包袱,敢于押注前沿技術(shù)路線。

然而,資金和場(chǎng)景制約是他們難題。訓(xùn)練一個(gè)高質(zhì)量的世界模型可能需要數(shù)萬 GPU 小時(shí)的算力投入,這對(duì)初創(chuàng)公司是巨大的燒錢游戲。

同時(shí),他們?nèi)狈ψ杂械拇笠?guī)模硬件生態(tài)和真實(shí)的數(shù)據(jù)閉環(huán),也需要高度依賴外部合作伙伴提供落地場(chǎng)景和數(shù)據(jù)回流。

無論三路玩家誰先爭得話語權(quán),也都要先解決當(dāng)前行業(yè)發(fā)展的三大瓶頸。

首先是真實(shí)世界的數(shù)據(jù)缺失,語言大模型的成功源于互聯(lián)網(wǎng)文本數(shù)據(jù)的爆發(fā),但具身智能需要具備高維物理信息的真實(shí)數(shù)據(jù)。

目前像極佳視界用世界模型試圖通過合成數(shù)據(jù)來破局,但如何減少仿真環(huán)境中訓(xùn)練的策略在真實(shí)世界部署時(shí)性能下降的問題,確保模型在模擬器中學(xué)到的行為在真實(shí)世界中穩(wěn)定可靠,是所有玩家面臨的挑戰(zhàn)。

其次是算力與推理成本的挑戰(zhàn),要訓(xùn)練好一個(gè)足夠聰明能理解世界的模型,需要的算力消耗會(huì)遠(yuǎn)超當(dāng)前的語言大模型。

而且機(jī)器人必須在毫秒級(jí)時(shí)間內(nèi)做出決策和反映,這意味著算力不能只集中到云端也需要下沉到邊緣側(cè)。

這就直接推高了具身智能的燒錢門檻。

這也正是極佳視界在 3 個(gè)月內(nèi)密集融資 5 億元的深層邏輯,押注世界模型不只是一場(chǎng)技術(shù)競賽,更是一場(chǎng)資本的耐力賽。

對(duì)于初創(chuàng)公司而言,能夠持續(xù)獲得機(jī)構(gòu)、產(chǎn)業(yè)資本及地方資本的青睞,確保持續(xù)的彈藥補(bǔ)給,是能在這場(chǎng)馬拉松中跑到最后的必要條件。

最后是生態(tài)層面的挑戰(zhàn),目前「傳感器-執(zhí)行器-模型」的數(shù)據(jù)閉環(huán)規(guī)模化搭建仍處于初級(jí)階段。

盡管世界模型的出現(xiàn)為數(shù)據(jù)生成提供了新路徑,但如何構(gòu)建可持續(xù)的數(shù)據(jù)源生態(tài),也是行業(yè)需要解決的核心問題。

話語權(quán)的爭奪戰(zhàn)才剛剛拉開序幕。未來的勝負(fù)手,將取決于兩個(gè)核心要素:

其一,模型通用化程度。誰能率先訓(xùn)練出一個(gè)不限于特定硬件或場(chǎng)景的通用模型,誰就掌握了核心話語權(quán)。

其二,生態(tài)構(gòu)建能力。在未來,具身智能的競爭將不再是單一技術(shù)點(diǎn)的較量,而是圍繞著模型、數(shù)據(jù)、硬件和應(yīng)用場(chǎng)景的生態(tài)之戰(zhàn)。

擁有最廣泛的合作伙伴、能夠形成最快速的數(shù)據(jù)飛輪的公司,才有可能在長期競爭中笑到最后。

而當(dāng)機(jī)器人的大腦真正具備了通用的物理理解能力,物理世界的 ChatGPT 時(shí)刻才會(huì)真正降臨。

       原文標(biāo)題 : 3個(gè)月連融5億,這家公司手握2026年具身智能流量密碼

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)