123,123,123

面對(duì)產(chǎn)業(yè)轉(zhuǎn)折點(diǎn)，商湯將發(fā)布具身智能“大腦”計(jì)劃。

文｜趙艷秋周路平

編｜�；�

2025世界人工智能大會(huì)（WAIC2025）將在本周末火爆開場(chǎng)。近日，商湯科技提前釋放出重要消息：將在大會(huì)上揭曉一款全新的具身智能“大腦”。

據(jù)商湯官方公眾號(hào)預(yù)告，7月27日的WAIC2025大模型論壇中，商湯將揭曉這款集成了感知能力、視覺導(dǎo)航、多模態(tài)交互的智能“大腦”系統(tǒng)，為機(jī)器人、智能設(shè)備等智能終端提供賦能。

實(shí)際上，商湯入局具身智能“大腦”賽場(chǎng)，業(yè)界并未感到意外。具身智能的研究與產(chǎn)業(yè)落地，主要由兩路人馬推進(jìn)：一路是計(jì)算機(jī)視覺領(lǐng)域的研究和從業(yè)者，如李飛飛；另一路是機(jī)器人領(lǐng)域的從業(yè)者。而商湯起家于計(jì)算機(jī)視覺，如今加碼具身智能，不僅在情理之中，甚至可以說，這是它必然要落子的一步。

布局具身智能“大腦”

具身智能“大腦”已成為全球人工智能的核心競(jìng)爭(zhēng)點(diǎn)。OpenAI與機(jī)器人公司Figure AI聯(lián)手打造通用機(jī)器人，谷歌推出具身智能RT-2模型，英偉達(dá)聚焦世界模型和仿真。國(guó)內(nèi)如華為也在今年6月剛發(fā)布包含“大腦”的CloudRobo具身智能平臺(tái)。商湯則是最早一批入局者，在不斷演化其技術(shù)路徑。

為何全球科技企業(yè)對(duì)這一賽道高度重視？實(shí)際上，本輪具身智能熱潮，本質(zhì)上就是大模型與機(jī)器人技術(shù)的深度融合帶來的。在“前大模型時(shí)代”，機(jī)器人是“只會(huì)一種技能的工人”——送餐的不會(huì)打螺絲，打螺絲的不會(huì)倒咖啡。本體泛化、任務(wù)泛化和場(chǎng)景泛化，成為具身智能三大瓶頸。

轉(zhuǎn)折發(fā)生在2022年。隨著ChatGPT等大模型的崛起，人工智能具備了自然語言理解、內(nèi)容生成和深度推理能力，業(yè)界開始設(shè)想，能否讓機(jī)器人擁有一個(gè)“更聰明的大腦”？這樣，它就能打破本體限制，完成更復(fù)雜、更靈活的任務(wù)。

這便是具身智能“大腦”的重要意義。不過，目前該領(lǐng)域仍處在探索階段，技術(shù)路線還未“收斂”。一些業(yè)內(nèi)人士提出，當(dāng)前主要有三種：

VLA 模型（Vision-Language-Action）：輸入語言+圖像，輸出動(dòng)作。優(yōu)勢(shì)是結(jié)構(gòu)簡(jiǎn)潔，但在物理屬性識(shí)別、利用物理規(guī)律與足夠的控制軌跡上存在不足。

“大小腦”架構(gòu)：將“規(guī)劃”與“執(zhí)行”分工，提高系統(tǒng)的模塊化和解釋性，但仍面臨泛化挑戰(zhàn)。

世界模型：對(duì)比前兩者，雄心則更大，對(duì)環(huán)境狀態(tài)、物理規(guī)律、時(shí)序邏輯等進(jìn)行建模，強(qiáng)調(diào)多模態(tài)信息融合和推理能力，目標(biāo)是讓智能體理解世界、預(yù)測(cè)變化、規(guī)劃行為。

從商湯目前披露的信息看，雖然未明確押注某一技術(shù)路線，但其分階段演進(jìn)的方式，指向了對(duì)“世界模型”能力的持續(xù)積累。

在過去幾年，商湯在具身智能“大腦”上的探索和布局似乎可分為四個(gè)階段：

第一步：從“看”到“動(dòng)”，構(gòu)建視覺-感知-決策閉環(huán)。

2022年8月，商湯推出家用機(jī)器人“元蘿卜”，首次將視覺算法與機(jī)械手深度結(jié)合，完成棋子識(shí)別與遮擋環(huán)境下的精準(zhǔn)抓取。這標(biāo)志著商湯初步建立了“視覺-感知-決策”的閉環(huán)，機(jī)器人開始具備與物理世界互動(dòng)的基礎(chǔ)框架。

傳統(tǒng)人工智能是“開環(huán)”的，坐在云端“思考”、“看見”世界。但一旦涉及操作，就要形成一個(gè)復(fù)雜的閉環(huán)——感知必須轉(zhuǎn)化為“理解”，并進(jìn)一步驅(qū)動(dòng)動(dòng)作執(zhí)行。這是具身智能的出發(fā)點(diǎn)。

第二步：“日日新V5.5 - V6”發(fā)布，多模態(tài)融合與推理能力邁向認(rèn)知中樞。

2025年4月，商湯推出“日日新V6”多模態(tài)大模型，核心突破在于模態(tài)融合，支持長(zhǎng)思維鏈、多模態(tài)推理與規(guī)劃能力，嘗試解決長(zhǎng)期困擾具身智能的難題——稍微復(fù)雜、步驟多、時(shí)間跨度長(zhǎng)，傳統(tǒng)系統(tǒng)就“斷鏈”。就像是機(jī)器人的“大腦皮層”，從“接收信號(hào)”躍升到“理解意圖”。

極為重要的是，它已被傅利葉、歸墟等機(jī)器人公司接入合作，意味著商湯具備了平臺(tái)級(jí)技術(shù)輸出能力，從研發(fā)走向產(chǎn)業(yè)賦能，進(jìn)入戰(zhàn)略躍遷階段。

這一系列能力的進(jìn)化并非一蹴而就。早在2024年7月商湯發(fā)布的“日日新V5.5”，是這一融合路線的重要中繼站：基于6000億參數(shù)模型性能升級(jí)，廣泛引入合成高階思維鏈數(shù)據(jù)，在數(shù)理邏輯、指令跟隨等方面表現(xiàn)突出，并首次推出原生流式多模態(tài)交互體驗(yàn)?zāi)Ｐ?ldquo;日日新5o”，推動(dòng)AI從“響應(yīng)輸入”走向“理解場(chǎng)景”。

此外，“日日新5.5 Lite”等端側(cè)模型也大幅提升效率與普及能力，拉近大模型與用戶之間的距離。

2024年底，商湯更是率先推出“日日新融合大模型”，領(lǐng)先實(shí)現(xiàn)原生融合模態(tài)訓(xùn)練，成功打破語言模型與多模態(tài)模型各自為政的局限。該模型在SuperCLUE和OpenCompass兩大權(quán)威榜單中同時(shí)奪冠，成為“雙冠王”，意味著商湯首次在深度推理與多模態(tài)融合領(lǐng)域?qū)崿F(xiàn)“模型一統(tǒng)”的實(shí)質(zhì)性突破，這一系列創(chuàng)新，為V6的能力躍升創(chuàng)造了條件。

第三步：“大腦”平臺(tái)化，走向世界模型。

接下來，商湯即將發(fā)布具身智能“大腦平臺(tái)”，標(biāo)志著其從單點(diǎn)能力向系統(tǒng)能力的整合與躍升。

而且，商湯在智駕領(lǐng)域布局積累很早。世界模型是其重點(diǎn)突破方向。商湯智駕品牌“絕影”構(gòu)建的“開悟”，已經(jīng)能理解物理規(guī)律、學(xué)習(xí)交通規(guī)則，在實(shí)際場(chǎng)景中落地。

而車和機(jī)器人，本質(zhì)上都是具身智能體。具備感知、導(dǎo)航、交互等能力，是它們的共同訴求。商湯或?qū)⒆詣?dòng)駕駛中構(gòu)建的“世界模型”經(jīng)驗(yàn)遷移到機(jī)器人領(lǐng)域，推動(dòng)具身智能大腦的的進(jìn)一步演進(jìn)。

這次產(chǎn)品發(fā)布，標(biāo)志著商湯具身智能戰(zhàn)略，進(jìn)入“平臺(tái)化”的新階段，并走向產(chǎn)業(yè)輸出。背后是商湯長(zhǎng)期的技術(shù)預(yù)埋與戰(zhàn)略耐心。

商湯的準(zhǔn)備

除了具身智能的大腦，商湯通過WAIC 2025釋放了另外一個(gè)明確信號(hào)：具身智能是“算力密度×數(shù)據(jù)密度×生態(tài)密度”的競(jìng)爭(zhēng)。

這幾年，算力需求井噴，算力的密度很大程度上決定了模型演進(jìn)和應(yīng)用落地的速度，尤其是具身智能需要實(shí)現(xiàn)對(duì)物理世界的感知和理解，涉及多種模態(tài)，對(duì)算力的消耗有增無減。

有數(shù)據(jù)統(tǒng)計(jì)，具身智能場(chǎng)景的算力消耗占比已從2023年的12%躍升至28%。而英偉達(dá)的芯片在今年一季度的銷售額，有30%流向具身智能設(shè)備。

過去多年，商湯在算力上的投資巨大。早在2018年，商湯就打造了國(guó)內(nèi)首個(gè)AI千卡集群原型機(jī)。兩年后，又建立了國(guó)內(nèi)首個(gè)智算中心。到2024年底，商湯大裝置的算力規(guī)模達(dá)到23000PetaFlops，超過了一些主要大城市的公共智能算力。今年4月，商湯又發(fā)布了商湯大裝置SenseCore 2.0，朝著“最懂大模型的AI基礎(chǔ)設(shè)施”發(fā)力。

商湯做大裝置，其初心是提高AI模型的生產(chǎn)效率和降低使用成本。但大裝置+大模型的結(jié)合，讓商湯在算力層面的能力得到了大幅提升。比如商湯對(duì)模型推理過程，做預(yù)填充和解碼的分離，提升GPU硬件利用率并降低推理延遲。

商湯大裝置已幫商湯拿下了不少智算和大模型訂單。比如南方電網(wǎng)基于商湯大裝置，實(shí)現(xiàn)從模型、平臺(tái)算法到底層算力的100%國(guó)產(chǎn)化，構(gòu)建了全棧國(guó)產(chǎn)電力AI基礎(chǔ)設(shè)施。而一家基建行業(yè)頭部設(shè)計(jì)院依托商湯大裝置的國(guó)產(chǎn)芯片及底座平臺(tái)，開發(fā)了工程勘察設(shè)計(jì)領(lǐng)域大語言模型、多模態(tài)大模型，解決了知識(shí)傳承困難、融合性差和應(yīng)用程度低等難題。

IDC的報(bào)告顯示，商湯大裝置在2024年下半年穩(wěn)居國(guó)內(nèi)AI大模型解決方案市場(chǎng)第二位。

如今，商湯已經(jīng)成長(zhǎng)為“大裝置-大模型-應(yīng)用”三位一體的AI廠商。

除了算力，高質(zhì)量數(shù)據(jù)是具身智能發(fā)展的一大卡點(diǎn)。盡管大腦架構(gòu)和技術(shù)路線正在快速演化，但所有路線最終都繞不開一個(gè)共識(shí)：數(shù)據(jù)，是具身智能最難啃的那塊骨頭。

而且有業(yè)內(nèi)人士提出，具身智能和大模型一樣，同樣存在Scaling Law。在他們的試驗(yàn)中，每多采10倍數(shù)據(jù)，機(jī)器人錯(cuò)誤率就會(huì)降低大約10倍。如果想從99%的成功率提高到99.9%，意味著要多采10倍數(shù)據(jù)，但成本也呈指數(shù)級(jí)上升。

目前，具身智能的高質(zhì)量數(shù)據(jù)來自于線下采集的真實(shí)數(shù)據(jù)、仿真合成數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù)。但兩者各有優(yōu)劣。比如特斯拉和Google都選擇用搖操獲取數(shù)據(jù)，但背后的成本投入巨大。據(jù)悉，Google 做十幾萬條數(shù)據(jù)，用時(shí)十多個(gè)月，花了上千萬美元。

在業(yè)內(nèi)看來，更加現(xiàn)實(shí)的做法是，利用互聯(lián)網(wǎng)視頻數(shù)據(jù)、合成數(shù)據(jù)，直接做到幾個(gè)9，再用真實(shí)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)。

人類80%以上的信息獲取來自視覺，商湯是以機(jī)器視覺起家，在視覺信息的處理上，有著一系列經(jīng)驗(yàn)技術(shù)。

同時(shí)，商湯也在推動(dòng)融合模態(tài)的數(shù)據(jù)合成與融合任務(wù)的增強(qiáng)訓(xùn)練。比如在預(yù)訓(xùn)練階段，商湯不僅采用了天然存在的海量圖文交錯(cuò)數(shù)據(jù)，還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態(tài)數(shù)據(jù)。在后訓(xùn)練階段，商湯構(gòu)建了大量的跨模態(tài)任務(wù)，包括視頻交互、多模態(tài)文檔分析、城市場(chǎng)景理解、車載場(chǎng)景理解等。

另外，除了算力、數(shù)據(jù)、模型等底層能力的積累，商湯在生態(tài)方面也在持續(xù)投入，通過旗下私募基金國(guó)香資本投資了一批具身智能企業(yè)，包括銀河通用機(jī)器人、眾擎機(jī)器人、鈦虎機(jī)器人、鹿明機(jī)器人等十幾家企業(yè)。這些企業(yè)覆蓋了具身智能全產(chǎn)業(yè)鏈，比如眾擎機(jī)器人主攻本體和運(yùn)控，鈦虎機(jī)器人主攻關(guān)節(jié)模組。

這種生態(tài)密度，讓商湯比其他大模型廠商更貼近產(chǎn)業(yè)需求，了解產(chǎn)業(yè)動(dòng)向。同時(shí)這些被投企業(yè)又給商湯提供了豐富的落地場(chǎng)景和真實(shí)數(shù)據(jù)，加速產(chǎn)業(yè)落地。

不難發(fā)現(xiàn)，從算力基礎(chǔ)設(shè)施，再到數(shù)據(jù)和生態(tài)，商湯在具身智能所需的各環(huán)節(jié)，也都在悄然押注和投入。

商湯即將推出具身智能“大腦”，恰逢2025年該產(chǎn)業(yè)由概念驗(yàn)證走向初步產(chǎn)品化、平臺(tái)化的關(guān)鍵拐點(diǎn)。大模型與機(jī)器人融合，正加速從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界。頭部科技公司和研究機(jī)構(gòu)的布局提速，已經(jīng)掀起了具身智能的競(jìng)爭(zhēng)熱潮。

與此同時(shí)，政策與資本的雙重推力也不容小覷：2025年政府工作報(bào)告中，具身智能作為新興產(chǎn)業(yè)首次被寫入其中。具身智能正在制造、無人零售、接待、健康醫(yī)療等產(chǎn)業(yè)滲透。僅在今年上半年，具身智能相關(guān)領(lǐng)域融資金額已經(jīng)超過了200億元，融資事件達(dá)130件，遠(yuǎn)超2024年全年。具身智能的 “黃金時(shí)代” 已悄然拉開序幕。

從商湯在具身智能“大腦”的技術(shù)布局以及其在算力、數(shù)據(jù)、生態(tài)等關(guān)鍵環(huán)節(jié)形成閉環(huán)能力來看，其在具身智能領(lǐng)域絕非偶然的戰(zhàn)略試探，而是其基于技術(shù)基因的必然延伸，更有望成為撬動(dòng)其第二增長(zhǎng)曲線的最佳支點(diǎn)。

從一系列信息的分析看，商湯在具身智能領(lǐng)域的動(dòng)作，既是對(duì)自身能力邊界的重構(gòu)，更是對(duì)下一代智能形態(tài)的提前卡位。當(dāng)機(jī)器人與智能設(shè)備真正成為 “有大腦的具身智能體”之后，具身智能，或?qū)⒊蔀樯虦兆∵B接未來的關(guān)鍵鑰匙。

發(fā)表評(píng)論

登錄