面對產業(yè)轉折點,商湯將發(fā)布具身智能“大腦”計劃。
文|趙艷秋 周路平
編|牛慧
2025世界人工智能大會(WAIC2025)將在本周末火爆開場。近日,商湯科技提前釋放出重要消息:將在大會上揭曉一款全新的具身智能“大腦”。
據商湯官方公眾號預告,7月27日的WAIC2025大模型論壇中,商湯將揭曉這款集成了感知能力、視覺導航、多模態(tài)交互的智能“大腦”系統(tǒng),為機器人、智能設備等智能終端提供賦能。
實際上,商湯入局具身智能“大腦”賽場,業(yè)界并未感到意外。具身智能的研究與產業(yè)落地,主要由兩路人馬推進:一路是計算機視覺領域的研究和從業(yè)者,如李飛飛;另一路是機器人領域的從業(yè)者。而商湯起家于計算機視覺,如今加碼具身智能,不僅在情理之中,甚至可以說,這是它必然要落子的一步。
01
布局具身智能“大腦”
具身智能“大腦”已成為全球人工智能的核心競爭點。OpenAI與機器人公司Figure AI聯手打造通用機器人,谷歌推出具身智能RT-2模型,英偉達聚焦世界模型和仿真。國內如華為也在今年6月剛發(fā)布包含“大腦”的CloudRobo具身智能平臺。商湯則是最早一批入局者,在不斷演化其技術路徑。
為何全球科技企業(yè)對這一賽道高度重視?實際上,本輪具身智能熱潮,本質上就是大模型與機器人技術的深度融合帶來的。在“前大模型時代”,機器人是“只會一種技能的工人”——送餐的不會打螺絲,打螺絲的不會倒咖啡。本體泛化、任務泛化和場景泛化,成為具身智能三大瓶頸。
轉折發(fā)生在2022年。隨著ChatGPT等大模型的崛起,人工智能具備了自然語言理解、內容生成和深度推理能力,業(yè)界開始設想,能否讓機器人擁有一個“更聰明的大腦”?這樣,它就能打破本體限制,完成更復雜、更靈活的任務。
這便是具身智能“大腦”的重要意義。不過,目前該領域仍處在探索階段,技術路線還未“收斂”。一些業(yè)內人士提出,當前主要有三種:
VLA 模型(Vision-Language-Action):輸入語言+圖像,輸出動作。優(yōu)勢是結構簡潔,但在物理屬性識別、利用物理規(guī)律與足夠的控制軌跡上存在不足。
“大小腦”架構:將“規(guī)劃”與“執(zhí)行”分工,提高系統(tǒng)的模塊化和解釋性,但仍面臨泛化挑戰(zhàn)。
世界模型:對比前兩者,雄心則更大,對環(huán)境狀態(tài)、物理規(guī)律、時序邏輯等進行建模,強調多模態(tài)信息融合和推理能力,目標是讓智能體理解世界、預測變化、規(guī)劃行為。
從商湯目前披露的信息看,雖然未明確押注某一技術路線,但其分階段演進的方式,指向了對“世界模型”能力的持續(xù)積累。
在過去幾年,商湯在具身智能“大腦”上的探索和布局似乎可分為四個階段:
第一步:從“看”到“動”,構建視覺-感知-決策閉環(huán)。
2022年8月,商湯推出家用機器人“元蘿卜”,首次將視覺算法與機械手深度結合,完成棋子識別與遮擋環(huán)境下的精準抓取。這標志著商湯初步建立了“視覺-感知-決策”的閉環(huán),機器人開始具備與物理世界互動的基礎框架。
傳統(tǒng)人工智能是“開環(huán)”的,坐在云端“思考”、“看見”世界。但一旦涉及操作,就要形成一個復雜的閉環(huán)——感知必須轉化為“理解”,并進一步驅動動作執(zhí)行。這是具身智能的出發(fā)點。
第二步:“日日新V5.5 - V6”發(fā)布,多模態(tài)融合與推理能力邁向認知中樞。
2025年4月,商湯推出“日日新V6”多模態(tài)大模型,核心突破在于模態(tài)融合,支持長思維鏈、多模態(tài)推理與規(guī)劃能力,嘗試解決長期困擾具身智能的難題——稍微復雜、步驟多、時間跨度長,傳統(tǒng)系統(tǒng)就“斷鏈”。就像是機器人的“大腦皮層”,從“接收信號”躍升到“理解意圖”。
極為重要的是,它已被傅利葉、歸墟等機器人公司接入合作,意味著商湯具備了平臺級技術輸出能力,從研發(fā)走向產業(yè)賦能,進入戰(zhàn)略躍遷階段。
這一系列能力的進化并非一蹴而就。早在2024年7月商湯發(fā)布的“日日新V5.5”,是這一融合路線的重要中繼站:基于6000億參數模型性能升級,廣泛引入合成高階思維鏈數據,在數理邏輯、指令跟隨等方面表現突出,并首次推出原生流式多模態(tài)交互體驗模型“日日新5o”,推動AI從“響應輸入”走向“理解場景”。
此外,“日日新5.5 Lite”等端側模型也大幅提升效率與普及能力,拉近大模型與用戶之間的距離。
2024年底,商湯更是率先推出“日日新融合大模型”,領先實現原生融合模態(tài)訓練,成功打破語言模型與多模態(tài)模型各自為政的局限。該模型在SuperCLUE和OpenCompass兩大權威榜單中同時奪冠,成為“雙冠王”,意味著商湯首次在深度推理與多模態(tài)融合領域實現“模型一統(tǒng)”的實質性突破,這一系列創(chuàng)新,為V6的能力躍升創(chuàng)造了條件。
第三步:“大腦”平臺化,走向世界模型。
接下來,商湯即將發(fā)布具身智能“大腦平臺”,標志著其從單點能力向系統(tǒng)能力的整合與躍升。
而且,商湯在智駕領域布局積累很早。世界模型是其重點突破方向。商湯智駕品牌“絕影”構建的“開悟”,已經能理解物理規(guī)律、學習交通規(guī)則,在實際場景中落地。
而車和機器人,本質上都是具身智能體。具備感知、導航、交互等能力,是它們的共同訴求。商湯或將自動駕駛中構建的“世界模型”經驗遷移到機器人領域,推動具身智能大腦的的進一步演進。
這次產品發(fā)布,標志著商湯具身智能戰(zhàn)略,進入“平臺化”的新階段,并走向產業(yè)輸出。背后是商湯長期的技術預埋與戰(zhàn)略耐心。
02
商湯的準備
除了具身智能的大腦,商湯通過WAIC 2025釋放了另外一個明確信號:具身智能是“算力密度×數據密度×生態(tài)密度”的競爭。
這幾年,算力需求井噴,算力的密度很大程度上決定了模型演進和應用落地的速度,尤其是具身智能需要實現對物理世界的感知和理解,涉及多種模態(tài),對算力的消耗有增無減。
有數據統(tǒng)計,具身智能場景的算力消耗占比已從2023年的12%躍升至28%。而英偉達的芯片在今年一季度的銷售額,有30%流向具身智能設備。
過去多年,商湯在算力上的投資巨大。早在2018年,商湯就打造了國內首個AI千卡集群原型機。兩年后,又建立了國內首個智算中心。到2024年底,商湯大裝置的算力規(guī)模達到23000PetaFlops,超過了一些主要大城市的公共智能算力。今年4月,商湯又發(fā)布了商湯大裝置SenseCore 2.0,朝著“最懂大模型的AI基礎設施”發(fā)力。

商湯做大裝置,其初心是提高AI模型的生產效率和降低使用成本。但大裝置+大模型的結合,讓商湯在算力層面的能力得到了大幅提升。比如商湯對模型推理過程,做預填充和解碼的分離,提升GPU硬件利用率并降低推理延遲。
商湯大裝置已幫商湯拿下了不少智算和大模型訂單。比如南方電網基于商湯大裝置,實現從模型、平臺算法到底層算力的100%國產化,構建了全棧國產電力AI基礎設施。而一家基建行業(yè)頭部設計院依托商湯大裝置的國產芯片及底座平臺,開發(fā)了工程勘察設計領域大語言模型、多模態(tài)大模型,解決了知識傳承困難、融合性差和應用程度低等難題。
IDC的報告顯示,商湯大裝置在2024年下半年穩(wěn)居國內AI大模型解決方案市場第二位。
如今,商湯已經成長為“大裝置-大模型-應用”三位一體的AI廠商。
除了算力,高質量數據是具身智能發(fā)展的一大卡點。盡管大腦架構和技術路線正在快速演化,但所有路線最終都繞不開一個共識:數據,是具身智能最難啃的那塊骨頭。
而且有業(yè)內人士提出,具身智能和大模型一樣,同樣存在Scaling Law。在他們的試驗中,每多采10倍數據,機器人錯誤率就會降低大約10倍。如果想從99%的成功率提高到99.9%,意味著要多采10倍數據,但成本也呈指數級上升。
目前,具身智能的高質量數據來自于線下采集的真實數據、仿真合成數據以及互聯網數據。但兩者各有優(yōu)劣。比如特斯拉和Google都選擇用搖操獲取數據,但背后的成本投入巨大。據悉,Google 做十幾萬條數據,用時十多個月,花了上千萬美元。
在業(yè)內看來,更加現實的做法是,利用互聯網視頻數據、合成數據,直接做到幾個9,再用真實數據進行強化學習。
人類80%以上的信息獲取來自視覺,商湯是以機器視覺起家,在視覺信息的處理上,有著一系列經驗技術。
同時,商湯也在推動融合模態(tài)的數據合成與融合任務的增強訓練。比如在預訓練階段,商湯不僅采用了天然存在的海量圖文交錯數據,還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態(tài)數據。在后訓練階段,商湯構建了大量的跨模態(tài)任務,包括視頻交互、多模態(tài)文檔分析、城市場景理解、車載場景理解等。
另外,除了算力、數據、模型等底層能力的積累,商湯在生態(tài)方面也在持續(xù)投入,通過旗下私募基金國香資本投資了一批具身智能企業(yè),包括銀河通用機器人、眾擎機器人、鈦虎機器人、鹿明機器人等十幾家企業(yè)。這些企業(yè)覆蓋了具身智能全產業(yè)鏈,比如眾擎機器人主攻本體和運控,鈦虎機器人主攻關節(jié)模組。
這種生態(tài)密度,讓商湯比其他大模型廠商更貼近產業(yè)需求,了解產業(yè)動向。同時這些被投企業(yè)又給商湯提供了豐富的落地場景和真實數據,加速產業(yè)落地。
不難發(fā)現,從算力基礎設施,再到數據和生態(tài),商湯在具身智能所需的各環(huán)節(jié),也都在悄然押注和投入。
商湯即將推出具身智能“大腦”,恰逢2025年該產業(yè)由概念驗證走向初步產品化、平臺化的關鍵拐點。大模型與機器人融合,正加速從實驗室走向現實世界。頭部科技公司和研究機構的布局提速,已經掀起了具身智能的競爭熱潮。
與此同時,政策與資本的雙重推力也不容小覷:2025年政府工作報告中,具身智能作為新興產業(yè)首次被寫入其中。具身智能正在制造、無人零售、接待、健康醫(yī)療等產業(yè)滲透。僅在今年上半年,具身智能相關領域融資金額已經超過了200億元,融資事件達130件,遠超2024年全年。具身智能的 “黃金時代” 已悄然拉開序幕。
從商湯在具身智能“大腦”的技術布局以及其在算力、數據、生態(tài)等關鍵環(huán)節(jié)形成閉環(huán)能力來看,其在具身智能領域絕非偶然的戰(zhàn)略試探,而是其基于技術基因的必然延伸,更有望成為撬動其第二增長曲線的最佳支點。
從一系列信息的分析看,商湯在具身智能領域的動作,既是對自身能力邊界的重構,更是對下一代智能形態(tài)的提前卡位。當機器人與智能設備真正成為 “有大腦的具身智能體”之后,具身智能,或將成為商湯握住連接未來的關鍵鑰匙。