123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問:Chain-of-Frame到底是真是假？

2025-11-13 16:00

作者：Ziyu Guo等

解讀：AI生成未來

引言

近年來，以 Veo、Sora 等為代表的視頻生成模型展現(xiàn)出驚人的生成能力，能夠合成高度逼真、時間連續(xù)的動態(tài)畫面。這些進展暗示，模型在視覺內(nèi)容生成之外，或許已開始具備對物理世界結(jié)構(gòu)與規(guī)律的潛在理解。

值得注意的是，Google 最新研究指出，諸如 Veo-3 等模型正在顯現(xiàn)出超越純粹生成的“涌現(xiàn)能力”，例如感知建模、動態(tài)預(yù)測以及推理能力。

由此催生出一個與語言模型“思維鏈”（Chain-of-Thought, CoT）相對應(yīng)的新概念——幀鏈推理（Chain-of-Frame, CoF）。

其核心思想在于：視頻模型通過逐幀生成過程，構(gòu)建連貫的視覺演化，從而體現(xiàn)思維與推理的過程。然而，一個關(guān)鍵問題仍懸而未決——這些模型是否真的具備零樣本推理（Zero-Shot Reasoning）能力？還是僅僅在模仿訓(xùn)練數(shù)據(jù)中的表層模式？

為驗證這一點，來自香港中文大學(xué)、北京大學(xué)、東北大學(xué)等機構(gòu)的研究團隊開展了系統(tǒng)研究，對 Veo-3 等模型的零樣本推理潛能進行全面評估，并提出了涵蓋空間、幾何、物理、時間等 12 個維度的綜合基準(zhǔn)——MME-CoF。

什么是 Chain-of-Frame（CoF）？

“幀鏈推理（CoF）”可以視作語言中“思維鏈”（CoT）的視覺化形式：

CoT：通過逐步生成文本展示思考與推理路徑。CoF：通過逐幀生成畫面，以動態(tài)演化的方式呈現(xiàn)推理與決策過程。

這種方式使模型不僅輸出結(jié)果，更在生成的時間維度上“展示”其思考軌跡。

12 項推理挑戰(zhàn)概覽

研究團隊圍繞 12 個推理維度構(gòu)建了系統(tǒng)測試，對 Veo-3 模型進行了實證評估。以下為部分典型任務(wù)摘要。

視覺細(xì)節(jié)推理（Visual Detail Reasoning）

目標(biāo)：檢測模型保持細(xì)粒度視覺屬性（顏色、紋理）與空間關(guān)系的能力。

表現(xiàn)：對顯著、易識別物體表現(xiàn)較好。

局限：當(dāng)目標(biāo)較小、被遮擋或背景復(fù)雜時，模型易偏離任務(wù)目標(biāo)或生成風(fēng)格化偏差。

視覺追蹤推理（Visual Trace Reasoning）

目標(biāo)：評估模型在動作序列中維持因果連續(xù)性的能力。

表現(xiàn)：在簡單任務(wù)中能生成連貫的短時序路徑。

局限：長時序或高邏輯依賴任務(wù)中，模型難以保持連貫因果關(guān)系。

物理推理（Physics-based Reasoning）

目標(biāo)：測試模型是否理解重力、碰撞、摩擦等物理規(guī)律。

表現(xiàn)：能生成短期合理的動態(tài)畫面。

局限：經(jīng)常違反物理約束（如能量守恒），僅在“模仿”物理而非真正推理。

真實世界空間推理（Real-World Spatial Reasoning）

目標(biāo)：測試模型在視角變化下保持空間一致性的能力。

表現(xiàn)：簡單場景中能維持基本的方向與空間結(jié)構(gòu)。

局限：在復(fù)雜多視角任務(wù)中常出現(xiàn)空間錯位或漂移。

3D 幾何推理（3D Geometry Reasoning）

目標(biāo)：評估模型在立體折疊、旋轉(zhuǎn)與重構(gòu)任務(wù)中的結(jié)構(gòu)理解。

表現(xiàn)：在單步操作中具備一定三維感知。

局限：復(fù)雜組合變換時易崩壞，缺乏穩(wěn)定幾何一致性。

2D 幾何推理（2D Geometry Reasoning）

目標(biāo)：檢驗?zāi)Ｐ驮谄矫鏄?gòu)圖與形狀關(guān)系中的精確度。

表現(xiàn)：能識別并繪制基礎(chǔ)幾何關(guān)系。

局限：更傾向生成“好看”的圖形而非“正確”的幾何，易出現(xiàn)邏輯順序錯誤。

其他六個推理維度概覽

除上述6項外，其余6個維度同樣揭示了 Veo-3 的限制：

旋轉(zhuǎn)推理（Rotation Reasoning）：小角度旋轉(zhuǎn)可近似實現(xiàn)，大角度下結(jié)構(gòu)崩壞。

圖表推理（Table & Chart Reasoning）：可模仿局部視覺模式，但缺乏對數(shù)值關(guān)系的真實理解。

物體計數(shù)（Object Counting Reasoning）：在靜態(tài)場景下表現(xiàn)良好，但動態(tài)環(huán)境中常出現(xiàn)漏數(shù)或重復(fù)。

GUI 推理（GUI Reasoning）：能生成點擊或拖動動作，但對操作目的與邏輯缺乏認(rèn)知。

具身推理（Embodied Reasoning）：能識別物體位置與動作，但不遵守環(huán)境規(guī)則，偶有“作弊式”生成。

醫(yī)學(xué)推理（Medical Reasoning）：在放大或觀察局部細(xì)節(jié)時具備表面能力，但無法保持影像邏輯一致，易出現(xiàn)結(jié)構(gòu)性錯誤。MME-CoF：首個視頻推理基準(zhǔn)

研究團隊據(jù)此提出 MME-CoF，這是首個專門用于量化視頻模型推理能力的標(biāo)準(zhǔn)化評測體系。其主要特征包括：

首個系統(tǒng)化視頻推理評估框架；覆蓋 12 個維度；將抽象的推理過程轉(zhuǎn)化為視頻生成挑戰(zhàn)，以迫使模型在視覺上展示“幀鏈思考”。

基于 MME-CoF 基準(zhǔn)，研究團隊對多個主流模型進行了量化評測（由 Gemini-2.5-Pro 評分，滿分 4 分）。結(jié)果顯示：

整體表現(xiàn)較低：多數(shù)模型平均得分不足 2 分，推理能力仍有限。優(yōu)勢差異顯著：Sora-2 在物理、具身與醫(yī)學(xué)推理中表現(xiàn)相對突出；Veo-3 在真實空間推理上具優(yōu)勢；Seedance-1.0-Pro 在旋轉(zhuǎn)與三維幾何任務(wù)中略勝一籌�？傮w趨勢：各模型均在特定方向具備偏好性，但仍停留在“模式重現(xiàn)”層面，尚未形成真正的邏輯推理能力。

結(jié)論：推理，還是表演？

通過對 Veo-3 等模型的實證分析，研究團隊得出如下結(jié)論：

缺乏真正的零樣本推理：當(dāng)前視頻模型更多依賴數(shù)據(jù)模式，而非自主邏輯推演。生成強 ≠ 推理強：高質(zhì)量的畫面并不代表深層理解。注重表象，忽視因果：生成結(jié)果“看似合理”，但常違背邏輯或物理規(guī)律。視頻模型可作為視覺推理系統(tǒng)的重要模塊，與語言或邏輯模型結(jié)合，推動多模態(tài)智能邁向真正的“通用理解”。

總體來看，本研究為學(xué)術(shù)界構(gòu)建了一個系統(tǒng)且可驗證的實證評估框架，清晰揭示了視頻生成模型在從“內(nèi)容生成”邁向“邏輯推理”，并邁向真正“通用視覺智能”過程中仍需跨越的核心瓶頸。

參考文獻

[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

原文標(biāo)題 : 視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問:Chain-of-Frame到底是真是假？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

12月9日
立即報名>> 恩智浦創(chuàng)新技術(shù)峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本