訂閱
糾錯
加入自媒體

視頻模型在真推理還是“演”推理?港中文等提出新基準(zhǔn)拷問:Chain-of-Frame到底是真是假?

作者:Ziyu Guo等

解讀:AI生成未來

引言

近年來,以 Veo、Sora 等為代表的視頻生成模型展現(xiàn)出驚人的生成能力,能夠合成高度逼真、時間連續(xù)的動態(tài)畫面。這些進展暗示,模型在視覺內(nèi)容生成之外,或許已開始具備對物理世界結(jié)構(gòu)與規(guī)律的潛在理解。

值得注意的是,Google 最新研究指出,諸如 Veo-3 等模型正在顯現(xiàn)出超越純粹生成的“涌現(xiàn)能力”,例如感知建模、動態(tài)預(yù)測以及推理能力。

由此催生出一個與語言模型“思維鏈”(Chain-of-Thought, CoT)相對應(yīng)的新概念——幀鏈推理(Chain-of-Frame, CoF)。

其核心思想在于:視頻模型通過逐幀生成過程,構(gòu)建連貫的視覺演化,從而體現(xiàn)思維與推理的過程。然而,一個關(guān)鍵問題仍懸而未決——這些模型是否真的具備零樣本推理(Zero-Shot Reasoning)能力?還是僅僅在模仿訓(xùn)練數(shù)據(jù)中的表層模式?

為驗證這一點,來自香港中文大學(xué)、北京大學(xué)、東北大學(xué)等機構(gòu)的研究團隊開展了系統(tǒng)研究,對 Veo-3 等模型的零樣本推理潛能進行全面評估,并提出了涵蓋空間、幾何、物理、時間等 12 個維度的綜合基準(zhǔn)——MME-CoF。

什么是 Chain-of-Frame(CoF)?

“幀鏈推理(CoF)”可以視作語言中“思維鏈”(CoT)的視覺化形式:

CoT:通過逐步生成文本展示思考與推理路徑。CoF:通過逐幀生成畫面,以動態(tài)演化的方式呈現(xiàn)推理與決策過程。

這種方式使模型不僅輸出結(jié)果,更在生成的時間維度上“展示”其思考軌跡。

12 項推理挑戰(zhàn)概覽

研究團隊圍繞 12 個推理維度構(gòu)建了系統(tǒng)測試,對 Veo-3 模型進行了實證評估。以下為部分典型任務(wù)摘要。

視覺細(xì)節(jié)推理(Visual Detail Reasoning)

目標(biāo):檢測模型保持細(xì)粒度視覺屬性(顏色、紋理)與空間關(guān)系的能力。

表現(xiàn):對顯著、易識別物體表現(xiàn)較好。

局限:當(dāng)目標(biāo)較小、被遮擋或背景復(fù)雜時,模型易偏離任務(wù)目標(biāo)或生成風(fēng)格化偏差。

視覺追蹤推理(Visual Trace Reasoning)

目標(biāo):評估模型在動作序列中維持因果連續(xù)性的能力。

表現(xiàn):在簡單任務(wù)中能生成連貫的短時序路徑。

局限:長時序或高邏輯依賴任務(wù)中,模型難以保持連貫因果關(guān)系。

物理推理(Physics-based Reasoning)

目標(biāo):測試模型是否理解重力、碰撞、摩擦等物理規(guī)律。

表現(xiàn):能生成短期合理的動態(tài)畫面。

局限:經(jīng)常違反物理約束(如能量守恒),僅在“模仿”物理而非真正推理。

真實世界空間推理(Real-World Spatial Reasoning)

目標(biāo): 測試模型在視角變化下保持空間一致性的能力。

表現(xiàn): 簡單場景中能維持基本的方向與空間結(jié)構(gòu)。

局限: 在復(fù)雜多視角任務(wù)中常出現(xiàn)空間錯位或漂移。

3D 幾何推理(3D Geometry Reasoning)

目標(biāo): 評估模型在立體折疊、旋轉(zhuǎn)與重構(gòu)任務(wù)中的結(jié)構(gòu)理解。

表現(xiàn): 在單步操作中具備一定三維感知。

局限: 復(fù)雜組合變換時易崩壞,缺乏穩(wěn)定幾何一致性。

2D 幾何推理(2D Geometry Reasoning)

目標(biāo): 檢驗?zāi)P驮谄矫鏄?gòu)圖與形狀關(guān)系中的精確度。

表現(xiàn): 能識別并繪制基礎(chǔ)幾何關(guān)系。

局限: 更傾向生成“好看”的圖形而非“正確”的幾何,易出現(xiàn)邏輯順序錯誤。

其他六個推理維度概覽

除上述6項外,其余6個維度同樣揭示了 Veo-3 的限制:

旋轉(zhuǎn)推理(Rotation Reasoning):小角度旋轉(zhuǎn)可近似實現(xiàn),大角度下結(jié)構(gòu)崩壞。

圖表推理(Table & Chart Reasoning):可模仿局部視覺模式,但缺乏對數(shù)值關(guān)系的真實理解。

物體計數(shù)(Object Counting Reasoning):在靜態(tài)場景下表現(xiàn)良好,但動態(tài)環(huán)境中常出現(xiàn)漏數(shù)或重復(fù)。

GUI 推理(GUI Reasoning):能生成點擊或拖動動作,但對操作目的與邏輯缺乏認(rèn)知。

具身推理(Embodied Reasoning):能識別物體位置與動作,但不遵守環(huán)境規(guī)則,偶有“作弊式”生成。

醫(yī)學(xué)推理(Medical Reasoning):在放大或觀察局部細(xì)節(jié)時具備表面能力,但無法保持影像邏輯一致,易出現(xiàn)結(jié)構(gòu)性錯誤。MME-CoF:首個視頻推理基準(zhǔn)

研究團隊據(jù)此提出 MME-CoF,這是首個專門用于量化視頻模型推理能力的標(biāo)準(zhǔn)化評測體系。其主要特征包括:

首個系統(tǒng)化視頻推理評估框架;覆蓋 12 個維度;將抽象的推理過程轉(zhuǎn)化為視頻生成挑戰(zhàn),以迫使模型在視覺上展示“幀鏈思考”。

基于 MME-CoF 基準(zhǔn),研究團隊對多個主流模型進行了量化評測(由 Gemini-2.5-Pro 評分,滿分 4 分)。結(jié)果顯示:

整體表現(xiàn)較低:多數(shù)模型平均得分不足 2 分,推理能力仍有限。優(yōu)勢差異顯著:Sora-2 在物理、具身與醫(yī)學(xué)推理中表現(xiàn)相對突出;Veo-3 在真實空間推理上具優(yōu)勢;Seedance-1.0-Pro 在旋轉(zhuǎn)與三維幾何任務(wù)中略勝一籌?傮w趨勢:各模型均在特定方向具備偏好性,但仍停留在“模式重現(xiàn)”層面,尚未形成真正的邏輯推理能力。

結(jié)論:推理,還是表演?

通過對 Veo-3 等模型的實證分析,研究團隊得出如下結(jié)論:

缺乏真正的零樣本推理:當(dāng)前視頻模型更多依賴數(shù)據(jù)模式,而非自主邏輯推演。生成強 ≠ 推理強:高質(zhì)量的畫面并不代表深層理解。注重表象,忽視因果:生成結(jié)果“看似合理”,但常違背邏輯或物理規(guī)律。視頻模型可作為視覺推理系統(tǒng)的重要模塊,與語言或邏輯模型結(jié)合,推動多模態(tài)智能邁向真正的“通用理解”。

總體來看,本研究為學(xué)術(shù)界構(gòu)建了一個系統(tǒng)且可驗證的實證評估框架,清晰揭示了視頻生成模型在從“內(nèi)容生成”邁向“邏輯推理”,并邁向真正“通用視覺智能”過程中仍需跨越的核心瓶頸。

參考文獻

[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

       原文標(biāo)題 : 視頻模型在真推理還是“演”推理?港中文等提出新基準(zhǔn)拷問:Chain-of-Frame到底是真是假?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號