訂閱
糾錯
加入自媒體

騰訊混元3D模型1.0開源,背后隱藏了哪些商業(yè)秘密?

圖片

2025年7月,上海世界人工智能大會(WAIC)的聚光燈下,騰訊拋出了一枚重磅炸彈:混元3D世界模型1.0(混元3D世界模型1.0)正式發(fā)布,并旋即宣布全面開源。

這并非又一個“文生視頻”式的技術(shù)炫技,而是一個能用一句話、一張圖在幾分鐘內(nèi)生成可漫游、可交互、可編輯的完整3D世界的龐然大物。

有人驚呼,這是“生成式AI領(lǐng)域的Minecraft”,但這個比喻或許還不夠精準(zhǔn)。它更像是一套完整的創(chuàng)世工具,將過去專屬于頂尖游戲工作室和CG團隊的“世界構(gòu)建”能力,以一種前所未有的方式向全球開發(fā)者開放。

當(dāng)一個行業(yè)巨頭選擇將如此核心的技術(shù)“公之于眾”,我們不能僅僅滿足于驚嘆其生成效果的酷炫。這背后必然隱藏著深思熟慮的技術(shù)路線選擇和環(huán)環(huán)相扣的商業(yè)戰(zhàn)略布局。

一、從“生成萬物”到“創(chuàng)造世界”

作為此次發(fā)布的亮點之一,騰訊混元3D世界模型1.0融合了全景視覺生成與分層3D重建技術(shù),同時支持文字和圖片輸入,實現(xiàn)了高質(zhì)量、風(fēng)格多樣的可漫游3D場景生成。

過去需要專業(yè)建模團隊數(shù)周才能搭建的3D虛擬世界,現(xiàn)在只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。

實現(xiàn)“世界生成”面臨兩大技術(shù)困境:純3D訓(xùn)練數(shù)據(jù)稀缺且昂貴;3D表征的計算和內(nèi)存開銷巨大。直接在3D空間進行暴力生成,目前來看既不經(jīng)濟也不高效。

對此,混元團隊采取了一種極為務(wù)實的融合方案,其技術(shù)架構(gòu)可以概括為一個巧妙的“兩階段”生成范式。

第一階段:3D世界的壓縮與表征(3D-aware VAE)

首先,模型需要學(xué)習(xí)如何“理解”一個3D世界。研究團隊訓(xùn)練了一個特制的3D感知變分自編碼器(3D-aware Variational Autoencoder, VAE)。

這個VAE的任務(wù)是將海量、高精度、結(jié)構(gòu)復(fù)雜的3D場景數(shù)據(jù),編碼(壓縮)成一個維度低得多但信息量密集的潛在空間(Latent Space)表征。

這個過程好比是將一本厚重的百科全書提煉成幾頁精準(zhǔn)的摘要。

這個“摘要”(即潛在編碼)保留了原始3D世界最核心的幾何、紋理和風(fēng)格信息,為后續(xù)的生成步驟奠定了堅實的基礎(chǔ)。

第二階段:在潛在空間中擴散生成(Diffusion Transformer)

當(dāng)擁有了一個高質(zhì)量的潛在空間后,真正的“創(chuàng)造”過程便開始了。

研究團隊在這一潛在空間上,訓(xùn)練了一個當(dāng)前生成領(lǐng)域最前沿的擴散模型(Diffusion Model),并且其骨干網(wǎng)絡(luò)采用了強大的Transformer架構(gòu)(即DiT, Diffusion Transformer)。

其工作原理可以通俗地理解為“從混沌到有序的雕琢”。模型從一個完全隨機的噪聲潛在編碼開始,在文本或圖像提示的語義引導(dǎo)下,通過多步“去噪”過程,逐步將這個隨機噪聲雕琢成一個有意義、符合用戶要求的、全新的3D世界潛在編碼。

最后,這個由DiT生成的新潛在編碼,會被送入第一階段VAE的解碼器中,由解碼器將其“解壓”還原,最終構(gòu)建出用戶所見的完整、具體的3D世界。

更值得一提的是,混元3D世界模型1.0最令人興奮的,并非僅僅是生成世界的視覺效果,還有其三大特性,這標(biāo)志著AI生成內(nèi)容從“展示品”向“生產(chǎn)力工具”的決定性轉(zhuǎn)變。

可漫游:生成的場景不是一個只能原地旋轉(zhuǎn)觀看的“天空盒”,用戶可以通過鍵盤和鼠標(biāo)在其中自由移動。這為游戲原型、VR體驗和虛擬旅游等應(yīng)用提供了基礎(chǔ)。

可編輯:得益于語義分層技術(shù),場景中的前景物體與背景是分離的。開發(fā)者可以將生成的標(biāo)準(zhǔn)3D網(wǎng)格文件導(dǎo)入Unity、Unreal Engine或Blender等主流軟件中,對單個物體進行移動、縮放、替換,甚至刪除,實現(xiàn)了AIGC內(nèi)容與傳統(tǒng)CG工作流的無縫銜接。

可仿真:這是其最深遠的潛力之一。由于場景中的物體是獨立的3D資產(chǎn),開發(fā)者可以為它們賦予物理屬性,進行動力學(xué)仿真。這意味著,生成的不僅是一個靜態(tài)布景,更可以是一個能夠響應(yīng)物理規(guī)律的微型世界。

這三大特性共同指向一個核心價值:工業(yè)級可用性。

騰訊的目標(biāo)顯然不是做一個玩具,而是要打造一個能被內(nèi)容創(chuàng)作者真正集成到生產(chǎn)管線中的強大工具。

圖片(生成界面演示:生成3D場景資產(chǎn)可二次編輯)

二、開源的“陽謀”:騰訊AI生態(tài)的戰(zhàn)略拼圖

發(fā)布即開源,對于一款如此重量級的模型而言,無疑是一次大膽的戰(zhàn)略宣言。要理解騰訊此舉的深意,必須將其置于其更宏大的AI戰(zhàn)略藍圖中進行審視。

WAIC現(xiàn)場,騰訊首次完整展示了其“1+3+N”的AI應(yīng)用全景圖。

“1”個核心引擎:以騰訊自研的混元大模型為基礎(chǔ)。

“3”類平臺能力:分別面向C端用戶的智能體平臺“騰訊元器”、面向B端企業(yè)的“騰訊云智能體開發(fā)平臺”,以及面向機器人行業(yè)的具身智能開放平臺“Tairos(鈦螺絲)”。

“N”個應(yīng)用矩陣:覆蓋辦公、生活、企業(yè)服務(wù)等場景的AI智能體,以及深度融合AI能力的微信、QQ、騰訊游戲等生態(tài)產(chǎn)品。

在這個體系中,混元3D世界模型1.0扮演的角色遠不止一個模型。它是“1”中多模態(tài)能力的巔峰體現(xiàn),更是賦能“3”和“N”的關(guān)鍵基礎(chǔ)設(shè)施。

對于游戲,它能極大縮短場景搭建周期;對于具身智能,它能提供低成本、高效率的物理仿真環(huán)境;對于C端應(yīng)用,它可以為VR/AR社交、虛擬空間體驗提供源源不斷的內(nèi)容。

圖片(物理仿真應(yīng)用展示)

騰訊的開源,并非純粹的“為愛發(fā)電”,而是一種更高維度的商業(yè)競爭策略。

首先是搶占標(biāo)準(zhǔn),定義未來。

在3D AIGC技術(shù)爆發(fā)的前夜,誰能提供最易用、最強大的開源工具鏈,誰就能定義這個領(lǐng)域的“游戲規(guī)則”。通過開源,騰訊希望讓混元3D世界模型1.0的架構(gòu)、數(shù)據(jù)格式和工作流成為事實上的行業(yè)標(biāo)準(zhǔn),吸引全球開發(fā)者圍繞其進行創(chuàng)作和創(chuàng)新。

其次是生態(tài)賦能,流量反哺。

騰訊的核心優(yōu)勢在于其龐大的應(yīng)用生態(tài),尤其是游戲和社交。通過免費提供強大的3D世界生成工具,可以極大地激發(fā)中小開發(fā)者和內(nèi)容創(chuàng)作者的活力。

這些開發(fā)者用騰訊的工具創(chuàng)造出的內(nèi)容,最容易、也最自然地會發(fā)布到騰訊的平臺(如微信小游戲、QQ頻道、VR應(yīng)用商店等),從而反哺和繁榮其主營業(yè)務(wù)。顯然,這是一種“授人以漁,共建魚塘”的策略。

第三是社區(qū)驅(qū)動,加速迭代。

開源能夠匯聚全球開發(fā)者的智慧。社區(qū)的力量可以幫助模型更快地發(fā)現(xiàn)問題、修復(fù)bug、開發(fā)插件、拓展應(yīng)用場景,從而以遠超閉源團隊的速度進行迭代。這在技術(shù)日新月異的AI領(lǐng)域至關(guān)重要。

最后是降低門檻,激活產(chǎn)業(yè)。

3D內(nèi)容創(chuàng)作的高門檻一直是行業(yè)痛點;煸3D世界模型1.0的開源,讓一個獨立游戲開發(fā)者或小型工作室,也能擁有接近大廠的場景生成能力。這將催生出大量過去因成本問題而無法實現(xiàn)的游戲和應(yīng)用,從而做大整個3D內(nèi)容產(chǎn)業(yè)的蛋糕,而作為平臺方的騰訊,自然能從中受益。

三、在開放與封閉之間,騰訊的選擇

放眼全球,AI巨頭們在模型策略上路徑不一。

OpenAI的GPT系列和Sora走向了高度封閉的商業(yè)模式,通過API調(diào)用獲利;Meta的Llama系列則堅定地選擇了開源路線,試圖通過開放社區(qū)挑戰(zhàn)OpenAI的領(lǐng)先地位。

騰訊此次在3D世界模型上的選擇,顯然更貼近Meta的哲學(xué),但又帶有自身獨特的“騰訊特色”。

與純粹的技術(shù)公司不同,騰訊擁有強大的內(nèi)容分發(fā)渠道和應(yīng)用場景。它的開源戰(zhàn)略,不僅僅是為了推動技術(shù)本身,更是為了武裝其龐大的生態(tài)軍團。這使得它的開源比其他公司多了一層產(chǎn)銷一體的閉環(huán)邏輯。

當(dāng)開發(fā)者使用混元工具創(chuàng)造出精彩的VR世界時,他們會發(fā)現(xiàn),將其一鍵發(fā)布到與騰訊合作的VR平臺是最便捷的選擇。這種無縫銜接,正是騰訊希望構(gòu)建的、難以被復(fù)制的生態(tài)壁壘。

我們看來,騰訊混元3D世界模型1.0的發(fā)布與開源,其意義遠超一次技術(shù)展示。它是一次精心布局的戰(zhàn)略落子,旨在通過解放3D內(nèi)容生產(chǎn)力,來重塑整個數(shù)字內(nèi)容生態(tài)的格局。

通過將最前沿的創(chuàng)世工具交到全球開發(fā)者手中,騰訊不僅是在展示自己的技術(shù)肌肉,更是在邀請全世界的創(chuàng)造者,共同來填充和繁榮它龐大的應(yīng)用宇宙。

這場由AI驅(qū)動的3D內(nèi)容革命已經(jīng)拉開序幕。它或許不會立刻顛覆一切,但它已經(jīng)為游戲開發(fā)者、VR夢想家、數(shù)字藝術(shù)家們打開了一扇通往新世界的大門。

正如騰訊所期望的,一個“好用的AI”正在從遙遠的技術(shù)地平線,加速來到我們身邊,而這一次,它帶來的,是創(chuàng)造整個世界的力量。

-END-

來源:@首席數(shù)智官

       原文標(biāo)題 : 騰訊混元3D模型1.0開源,背后隱藏了哪些商業(yè)秘密?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號