訂閱
糾錯(cuò)
加入自媒體

谷歌Genie 3 - 打開(kāi)“世界模型”通往自動(dòng)駕駛的大門

Google,掌握人類進(jìn)入高質(zhì)量數(shù)字世界入口的搜索引擎,是數(shù)字世界的王者。

但是到了2022年人工智能爆發(fā)時(shí)代,Open AI 推出ChatGPT征服人類世界的巴別塔語(yǔ)言、Midjourney和Stable Diffusion分別推出圖片生成模型,到了2024年Open AI繼續(xù)推出Sora視頻生成模型。

而在自動(dòng)駕駛領(lǐng)域,2009就開(kāi)始自動(dòng)駕駛項(xiàng)目的Google Waymo在2025年受到特斯拉強(qiáng)烈的挑戰(zhàn),特斯拉號(hào)稱可以迅速泛化拓展而且成本極低。

那么Google在人工智能AI時(shí)代是沒(méi)落了么?

最近一款叫做Nona-banana的圖片生成軟件火出圈了,各個(gè)玩家愛(ài)好競(jìng)相轉(zhuǎn)載使用Nona-banana生成的圖片,絕對(duì)是可以以假亂真,讓你驚嘆到世界還有什么是真實(shí)的。而這款圖片生成大模型,就來(lái)自于Google。

而在文字領(lǐng)域里面,國(guó)內(nèi)文化的朋友估計(jì)沉寂在Deepseek、豆包、Kimi樂(lè)此不疲,也有玩ChatGPT、Claude、Perplexity的極大的增效文案工作。

但是Google的Gemini 和NotebookLM各種大神們一用一個(gè)不吭聲,太好用了。

在視頻生成領(lǐng)域,有很多類似的案例模型,好吧我鋪墊不下去了,直接進(jìn)入今天的正文 Google的視頻生成模型 Genie 3。他是DeepMind 最近推出更新的一個(gè)視頻生成模型,這是一款真正稱得上世界模型的大模型。

雖然我們熟悉的自動(dòng)駕駛領(lǐng)域最近也有不少公司表示自己采用世界模型做輔助駕駛或者自動(dòng)駕駛。

但說(shuō)實(shí)話國(guó)內(nèi)的更多的是概念和營(yíng)銷,至于這個(gè)“世界模型”概念瓶子里面裝的是啥,誰(shuí)也不知道,反正大家也不懂,各家喊這個(gè)詞無(wú)非就是想占領(lǐng)關(guān)鍵詞和用戶心智。

而Google的 Genie 3 可能真的能夠打開(kāi)自動(dòng)駕駛或者輔助駕駛的世界模型大門。

Genie 3是什么?什么是世界模型?

Genie 3 是一個(gè)能夠根據(jù)文本或圖像生成交互式環(huán)境的世界模型。您可以以720p 和每秒 24 幀的速度實(shí)時(shí)瀏覽這些場(chǎng)景。世界在幾分鐘內(nèi)保持視覺(jué)一致,并且您可以通過(guò)新的提示隨時(shí)更改它。想象一下您可以進(jìn)入并控制的視頻生成。

我們先來(lái)回顧下,什么是世界模型,之前文章《世界模型 World Model 101》也分享過(guò)。

世界模型是一種人工智能系統(tǒng),它學(xué)習(xí) 世界的行為方式,并對(duì)其進(jìn)行未來(lái)設(shè)想。它不僅能預(yù)測(cè)下一個(gè)單詞或下一個(gè)視頻幀,還能預(yù)測(cè)當(dāng)你采取行動(dòng)時(shí)整個(gè)環(huán)境應(yīng)該如何演變。這使得智能體能夠在對(duì)其做出反應(yīng)的模擬環(huán)境中練習(xí)技能。這是邁向具身智能的一步,也是邁向更通用人工智能的關(guān)鍵要素。

世界模型概念很大,能裝下各種概念,但當(dāng)前國(guó)內(nèi)的世界模型應(yīng)該都是偽命題,或著極度夸大的概念。

Genie 3 如何將提示轉(zhuǎn)變?yōu)榭赏娴氖澜纾?/strong>

這個(gè)過(guò)程感覺(jué)很神奇,但簡(jiǎn)單來(lái)說(shuō)它的工作原理如下。

1. 類似于GPT類型模型,通過(guò)Prompt給 Genie 一個(gè)提示

你輸入的世界描述,可以是一句話、一個(gè)手稿,甚至是一張照片。這個(gè)提示是種子,是AI想象力的起點(diǎn)。它為Genie 3提供了你想要?jiǎng)?chuàng)造的世界的核心概念。

2. 人工智能解讀你的想法

在這個(gè)階段,Genie 3 會(huì)利用其訓(xùn)練數(shù)據(jù)(包括大量視頻和圖像數(shù)據(jù))來(lái)猜測(cè)你的世界應(yīng)該是什么樣子。當(dāng)你描述“上海城市”時(shí),它知道應(yīng)該包含時(shí)尚的建筑、外灘、人群。當(dāng)你描述“行走的汽車”時(shí),它知道汽車行駛的動(dòng)態(tài)模型,光線是如何反射的,以及汽車與周圍環(huán)境如何相互作用的。這就是它的世界模型,它理解物理世界以及存在的物理法則。

3. 快速構(gòu)建 3D 環(huán)境

Genie 3 利用這種內(nèi)部理解,開(kāi)始實(shí)時(shí)創(chuàng)建世界。不過(guò),它不像傳統(tǒng)游戲引擎那樣創(chuàng)建完整的 3D 文件。相反,每次你移動(dòng)或與世界互動(dòng)時(shí),它都會(huì)生成一個(gè)新的世界幀。這個(gè)過(guò)程非?,以 720p 分辨率每秒渲染 24 幀,讓你感覺(jué)就像在玩游戲一樣,沒(méi)有任何延遲或卡頓。

4. 世界回應(yīng)你

這就是 Genie 的與眾不同之處。當(dāng)你行走時(shí),AI 會(huì)從你的視角預(yù)測(cè)下一個(gè)場(chǎng)景應(yīng)該是什么樣子。

你按下“前進(jìn)”鍵。模型生成下一幀,顯示你的角色向前移動(dòng),建筑物越來(lái)越近,城鎮(zhèn)廣場(chǎng)上的人們繼續(xù)他們的行動(dòng)。你撞到一堵墻。模型從訓(xùn)練數(shù)據(jù)中得知你無(wú)法穿過(guò)墻壁,因此它會(huì)停止你的移動(dòng)并顯示你撞到了墻。這并不是因?yàn)樗?ldquo;撞墻”規(guī)則,而是因?yàn)樗鼜闹暗恼鎸?shí)視頻中學(xué)習(xí)到了這一點(diǎn)。

Genie 3最終呈現(xiàn)的是持久且可玩的現(xiàn)實(shí)

Genie 3 的最終輸出與傳統(tǒng)的生成視頻截然不同。你不再只是觀看,而是置身其中。實(shí)時(shí)互動(dòng)。

您的指令處理完畢后,您便可掌控一個(gè)栩栩如生、栩栩如生的世界。

Genie 3 以實(shí)時(shí)響應(yīng)的模擬方式運(yùn)行,以 720p 分辨率和每秒 24 幀的速度實(shí)時(shí)渲染每一幀新內(nèi)容。這種低延遲體驗(yàn)讓您身臨其境。您可以行走、跳躍并與物體互動(dòng),世界會(huì)自然地做出反應(yīng),提供堪比現(xiàn)代電子游戲的響應(yīng)速度。記憶的力量Genie 3 最卓越的成就之一是其視覺(jué)記憶。在早期的生成模型中,世界經(jīng)常會(huì)“忘記”它在前一幀中創(chuàng)造的內(nèi)容。如果你移動(dòng)一個(gè)物體并轉(zhuǎn)身離開(kāi),它可能會(huì)消失或重新出現(xiàn)在錯(cuò)誤的位置。

然而,Genie 3 能夠保持環(huán)境一致性約一分鐘。如果你掉下一個(gè)球并繞過(guò)一個(gè)角落,當(dāng)你回來(lái)時(shí)它仍然在那里。這種保持物體永久性和一致性的能力是一項(xiàng)意義深遠(yuǎn)的技術(shù)成就,它使模擬環(huán)境可信且穩(wěn)定。 

Genie 3 可提示改變的世界事件

Genie 3 的實(shí)時(shí)交互功能允許對(duì)世界本身進(jìn)行即時(shí)修改。這項(xiàng)名為“可提示的世界事件”的功能,已被證明能夠徹底改變創(chuàng)造力和敘事方式。在模擬環(huán)境中,你可以輸入新的提示,例如“下雨”或“添加一頭巨大的飛鯨”,AI 會(huì)立即整合這些新元素,無(wú)需重新開(kāi)始。

Genie 3 背后的技術(shù)創(chuàng)新

要在 Genie 3 中實(shí)現(xiàn)高度的可控性和實(shí)時(shí)交互性,需要重大的技術(shù)突破。在每一幀的自回歸生成過(guò)程中,模型必須考慮先前生成的隨時(shí)間增長(zhǎng)的軌跡。例如,如果用戶在一分鐘后再次訪問(wèn)某個(gè)位置,模型必須參考一分鐘前的相關(guān)信息。為了實(shí)現(xiàn)實(shí)時(shí)交互性,這種計(jì)算必須每秒進(jìn)行多次,以響應(yīng)新的用戶輸入。

 為了使AI生成的世界具有沉浸感,它們必須在很長(zhǎng)一段時(shí)間內(nèi)保持物理一致性。然而,自回歸生成環(huán)境通常比生成完整視頻更難,因?yàn)檎`差往往會(huì)隨著時(shí)間的推移而累積。盡管挑戰(zhàn)重重,Genie 3的環(huán)境在幾分鐘內(nèi)仍能保持基本一致,視覺(jué)記憶甚至可以追溯到一分鐘前。

Genie 3 的一致性是一項(xiàng)新興能力。其他方法,例如 NeRF 和高斯分布,我們?cè)谧詣?dòng)駕駛仿真中常見(jiàn)的底層技術(shù),他們也能實(shí)現(xiàn)一致的可導(dǎo)航 3D 環(huán)境,但是他們依賴現(xiàn)有數(shù)據(jù)的采集然后進(jìn)行恢復(fù)或者修改。相比之下,Genie 3 生成的世界更加動(dòng)態(tài)和豐富,因?yàn)樗鼈兪歉鶕?jù)世界描述和用戶操作逐幀創(chuàng)建的,而不是修改的。

這里就可以理解基于NeRF和3D高斯的仿真世界模型,可能不是真正的世界模型,他們可能是靠數(shù)據(jù)積累或者記錄所有真實(shí)世界的數(shù)據(jù)然后壓縮了而已。

至于Genie 3采用的是什么技術(shù),目前 Genie 3的論文沒(méi)有發(fā)布。但是根據(jù)Genie 2論文的介紹,Genie 3技術(shù)底層還是基于Transformer。

視覺(jué)人工智能,不管現(xiàn)在大火的VLA 都采用一種叫做Vision Transformer (ViT)的技術(shù)。

Genie 3采用了基于ViT創(chuàng)新的內(nèi)存高效的 ST-transformer 架構(gòu),空間-時(shí)間Transformer網(wǎng)絡(luò),可以分為兩個(gè)部分:

Spatial-Transformer 它通過(guò)自注意力機(jī)制,能夠捕捉實(shí)時(shí)車速、傳感器連接性、距離以及車流方向等多種因素決定的、不斷變化的空間模式。通過(guò)多頭注意力機(jī)制,還能同時(shí)考慮相似性、連通性和協(xié)方差等多種依賴模式。

長(zhǎng)程時(shí)間Transformer:能有效捕捉跨多個(gè)時(shí)間步的長(zhǎng)程雙向時(shí)間依賴關(guān)系。與傳統(tǒng)一步步預(yù)測(cè)不同,時(shí)間Transformer可以同時(shí)進(jìn)行多步預(yù)測(cè),直接從“無(wú)誤差”的歷史數(shù)據(jù)中預(yù)測(cè)未來(lái)多個(gè)時(shí)間點(diǎn),從而有效抑制預(yù)測(cè)誤差的傳播和累積,并支持并行訓(xùn)練和預(yù)測(cè),提高了效率和可擴(kuò)展性。

也就是實(shí)現(xiàn)了時(shí)空的雙向捕捉和編碼。

此外還有雙向Transformer解碼器:MaskGIT采用了一種新穎的圖像合成范式,利用雙向Transformer解碼器,改進(jìn)圖像生成領(lǐng)域中Transformer模型的效率和質(zhì)量。

Genie 的“交互式環(huán)境”本質(zhì)上就是一個(gè)視頻游戲:你可以感知它,也可以對(duì)它采取行動(dòng)。這是對(duì) ChatGPT、Claude、Gemini、Grok 甚至圖像/視頻模型(Imagen 4或Veo 3 )等 LLM 的質(zhì)的升級(jí)。

Genie 3 有望對(duì)人工智能領(lǐng)域產(chǎn)生巨大影響。

這是邁向通用人工智能 (AGI) 的一步。包括谷歌 DeepMind 在內(nèi)的許多專家都將 Genie 3 這樣的“世界模型”視為邁向通用人工智能 (AGI) 的關(guān)鍵里程碑。

通過(guò)從未標(biāo)記的視頻數(shù)據(jù)中學(xué)習(xí)世界的基本規(guī)則,Genie 3 展現(xiàn)出比以往 AI 模型更深入、更直觀的理解現(xiàn)實(shí)運(yùn)作方式。這種模擬物理屬性和因果關(guān)系的能力被認(rèn)為是構(gòu)建能夠在現(xiàn)實(shí)世界中推理和行動(dòng)的真正智能 AI 代理的必要條件。

對(duì)于自動(dòng)駕駛和機(jī)器人研究來(lái)說(shuō),Genie 3 提供了一個(gè)無(wú)限的“沙盒”。訓(xùn)練機(jī)器人和自主系統(tǒng)應(yīng)對(duì)所有可能場(chǎng)景非常困難、昂貴,而且往往很危險(xiǎn)。Genie 3 輕松解決了這個(gè)問(wèn)題,它允許研究人員即時(shí)生成動(dòng)態(tài)世界,讓多個(gè)獨(dú)立智能體可以通過(guò)反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)。這可能會(huì)加速機(jī)器人技術(shù)和自動(dòng)駕駛汽車的進(jìn)步。

然后,如果對(duì)這個(gè)世界模型進(jìn)行微調(diào)打通汽車的執(zhí)行器電機(jī),剎車,轉(zhuǎn)向的控制。蒸餾到車端進(jìn)行控車,那么世界模型應(yīng)用到自動(dòng)駕駛就真正成功。

Genie 3 不僅僅局限于人工智能研究,它還可能徹底改變游戲、教育和娛樂(lè)行業(yè)。它使創(chuàng)作者能夠通過(guò)簡(jiǎn)單的文本提示生成可玩的交互式世界。游戲設(shè)計(jì)師可以快速制作創(chuàng)意原型,教育工作者可以構(gòu)建沉浸式互動(dòng)課程,而故事講述者可以創(chuàng)作讓用戶身臨其境的生動(dòng)故事。

最重要的是,與前代產(chǎn)品相比,Gennie 3 的重要性在于它克服了諸多限制。它能夠生成 720p、24 fps 的交互式體驗(yàn),并保持長(zhǎng)達(dá)一分鐘的視覺(jué)記憶,這無(wú)疑是一項(xiàng)巨大的技術(shù)成就。該模型為 genAI 模型的功能樹(shù)立了新的標(biāo)準(zhǔn),并凸顯了 AI 創(chuàng)作內(nèi)容從被動(dòng)消費(fèi)到主動(dòng)參與的轉(zhuǎn)變。

Genie 3 能做什么應(yīng)用?

這項(xiàng)技術(shù)將在多個(gè)領(lǐng)域開(kāi)辟了無(wú)限的可能性:

快速游戲開(kāi)發(fā):游戲設(shè)計(jì)師可以勾勒出想法并立即看到它們變成現(xiàn)實(shí),無(wú)需花費(fèi)數(shù)月時(shí)間進(jìn)行開(kāi)發(fā)即可測(cè)試游戲玩法。

人工智能訓(xùn)練和機(jī)器人技術(shù):機(jī)器人、自動(dòng)駕駛和人工智能代理可以學(xué)習(xí)導(dǎo)航 Genie 3 生成的復(fù)雜世界,從而使它們?cè)诂F(xiàn)實(shí)世界中變得更加智能。

教育與創(chuàng)造力:教師、學(xué)生和講故事的人可以創(chuàng)建互動(dòng)課程或故事,使學(xué)習(xí)變得有趣且身臨其境。

虛擬和增強(qiáng)現(xiàn)實(shí):Genie 3 可以提供新的 VR 體驗(yàn),任何人都可以即時(shí)構(gòu)建和探索世界。

也就是說(shuō)技術(shù)在這里,就等著產(chǎn)品經(jīng)理們挖掘場(chǎng)景落地應(yīng)用了。

Genie 3 目前的缺陷?

雖然 Genie 3 突破了世界模型所能實(shí)現(xiàn)的界限,但Google團(tuán)隊(duì)也在介紹Genie提出必須承認(rèn)其目前的局限性:

行動(dòng)空間有限。盡管可觸發(fā)的世界事件允許進(jìn)行廣泛的環(huán)境干預(yù),但它們不一定由代理本身執(zhí)行。代理可直接執(zhí)行的行動(dòng)范圍目前受到限制。

與其他代理的交互和模擬。準(zhǔn)確建模共享環(huán)境中多個(gè)獨(dú)立代理之間的復(fù)雜交互仍然是一個(gè)持續(xù)的研究挑戰(zhàn)。

準(zhǔn)確表示真實(shí)世界的位置。Genie 3 目前無(wú)法以完美的地理精度模擬真實(shí)世界的位置。

文本渲染。通常只有在輸入世界描述中提供時(shí)才會(huì)生成清晰易讀的文本。

交互時(shí)長(zhǎng)有限。該模型目前支持幾分鐘的持續(xù)交互,但無(wú)法支持長(zhǎng)達(dá)數(shù)小時(shí)的交互。

寫在最后

目前,Genie 3并未推出給大家用,Google 的DeepMind表示,將向有限數(shù)量的測(cè)試人員提供 Genie 3 作為研究預(yù)覽版。所以,大家只能說(shuō)盡請(qǐng)期待,但這個(gè)Genie 3或著他背后的技術(shù)可能真正構(gòu)建一個(gè)世界模型。

而有了一個(gè)真正的世界模型,世界或許會(huì)有另外一個(gè)景象。

相信此刻,先進(jìn)和嗅覺(jué)敏銳的輔助駕駛、自動(dòng)駕駛公司都在研究Genie 3。

參考文章以及圖片

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 谷歌Genie 3 - 打開(kāi)“世界模型”通往自動(dòng)駕駛的大門

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)