訂閱
糾錯(cuò)
加入自媒體

視頻生成模型大盤(pán)點(diǎn):誰(shuí)能定義下一代內(nèi)容?

2025-08-07 15:12
新眸
關(guān)注

你被AI視頻包圍了嗎?

新眸原創(chuàng)·作者 | 簡(jiǎn)瑜

過(guò)去兩個(gè)月,不少人被一段“動(dòng)物跳水”短視頻刷了屏——在標(biāo)準(zhǔn)跳水臺(tái)上,大象、小豬、柯基輪番登場(chǎng),以高難度的動(dòng)作跳入水中,甚至耳邊還會(huì)伴隨有專(zhuān)業(yè)的賽事解說(shuō)和人群歡呼,從動(dòng)作編排到入水細(xì)節(jié),視頻的逼真程度堪比電影特效。

不僅是“動(dòng)物跳水”,諸如動(dòng)物擬人化情景演繹、切割不同材質(zhì)物品的解壓視頻等一類(lèi)AI生成視頻,早已開(kāi)始席卷抖音、小紅書(shū)、B站等各大內(nèi)容平臺(tái)。

而這樣的視效水平,過(guò)去只存在于制作精良的影視作品中。

在這些視頻背后,不僅形成了圍繞“腳本制作——關(guān)鍵幀創(chuàng)作——視頻生成”的一連串工作流,甚至還催生出一批靠AI視頻創(chuàng)作變現(xiàn)的“數(shù)字導(dǎo)演”。

事實(shí)上,早在2022年,市面上就開(kāi)始出現(xiàn)了一系列AI生成視頻,但當(dāng)時(shí)的視頻畫(huà)面,往往存在失真、怪異、觀感差等各種問(wèn)題,只在小范圍內(nèi)有所傳播。

轉(zhuǎn)折點(diǎn)出現(xiàn)在2024年。OpenAI在二月發(fā)布Sora,以DiT(Diffusion + Transformer)架構(gòu)為核心,突破了視頻生成在時(shí)長(zhǎng)、清晰度、邏輯一致性等方面的瓶頸,讓“AI生成視頻”第一次真正具備了走向大眾市場(chǎng)的可能。

之后越來(lái)越多的廠商開(kāi)始借鑒DiT或其他混合模型架構(gòu)的模式,陸續(xù)發(fā)布對(duì)標(biāo) Sora 的閉源模型產(chǎn)品,如24年6月推出的Runway Gen-3、Luma Dream Machine;7月底全面上線(xiàn)的快手可靈等。

時(shí)間來(lái)到下半年,視頻生成類(lèi)模型更是呈現(xiàn)了井噴式的增長(zhǎng)。阿里、字節(jié)等巨頭紛紛押注,智譜、MiniMax等創(chuàng)業(yè)公司也快速跟進(jìn)。曾經(jīng)因技術(shù)瓶頸被質(zhì)疑的AI視頻,儼然已經(jīng)成為了AI模型商業(yè)化最擁擠的賽道之一。

01 大小廠“諸侯混戰(zhàn)”各自的牌面有多大?

與已經(jīng)經(jīng)歷三年演進(jìn)和淘洗的大語(yǔ)言模型不同,無(wú)論是性能表現(xiàn)還是市場(chǎng)格局,AI視頻生成模型仍處在“諸侯割據(jù)”的早期階段。

自2024年起迎來(lái)密集爆發(fā)后,這一賽道在模型能力、用戶(hù)心智乃至具體落地場(chǎng)景上,都尚未形成類(lèi)似ChatGPT、Claude、Gemini等在LLM領(lǐng)域的頭部壟斷格局。

目前,視頻生成模型雖尚未建立統(tǒng)一的評(píng)測(cè)體系,但“時(shí)序一致性”“幀畫(huà)質(zhì)”“提示詞遵循度”“生成穩(wěn)定性”等,往往成為通用測(cè)評(píng)關(guān)鍵詞。而從多個(gè)測(cè)評(píng)榜單的變化趨勢(shì)來(lái)看,各個(gè)模型之間仍存在較為明顯的排名波動(dòng),領(lǐng)先優(yōu)勢(shì)尚未固化。

以今年4月和7月的AGI-Eval(由多所國(guó)內(nèi)頂尖高校和研究機(jī)構(gòu)聯(lián)合發(fā)布)榜單為例,僅僅三個(gè)月時(shí)間,前十排名便發(fā)生大幅洗牌,能維持榜上位置的僅剩Pika 1.5、MiniMax的 Video-01、愛(ài)詩(shī)科技的PixVerse V4。而其他原本上榜的模型,或被自家迭代版本替代,或已被后來(lái)者趕超。

值得一提的是,榜單上除了有阿里、字節(jié)等互聯(lián)網(wǎng)大廠,minimax、愛(ài)詩(shī)科技等創(chuàng)業(yè)公司也赫然在列,且國(guó)內(nèi)廠商的出現(xiàn)率明顯略高于國(guó)外廠商。

圖片來(lái)源:AGI-Eval官網(wǎng)

另一方面,由于模型生成路徑的不同,文生視頻(Text-to-Video)與圖生視頻(Image-to-Video)在測(cè)評(píng)維度上也存在較大差異。據(jù)國(guó)際測(cè)評(píng)機(jī)構(gòu)Artificial Analysis今年7月的榜單,僅有一半模型能同時(shí)躋身兩類(lèi)前十,也進(jìn)一步說(shuō)明當(dāng)前的模型能力仍處于尚未定型的快速演進(jìn)期。

圖片5.png
圖片5.png圖片6.png

圖片來(lái)源:Artificial Analysis官網(wǎng)(截止2025.8.6)

當(dāng)下,有不少聲音認(rèn)為大語(yǔ)言模型已進(jìn)入“技術(shù)平臺(tái)期”。GPT-5遲遲未能發(fā)布、Claude 4經(jīng)歷長(zhǎng)達(dá)11個(gè)月的版本跨度、DeepSeek新產(chǎn)品遲遲未現(xiàn)……相較之下,在視頻生成模型中,模型迭代仍處于初期向成熟過(guò)度的爆發(fā)地段,大廠與創(chuàng)業(yè)公司都在以2至4個(gè)月的頻率推陳出新。

以快手可靈為例,從2023年6月上線(xiàn)至今,平均不到兩個(gè)月就推出了一次新功能;2025年上半年更是完成了從1.6到2.1之間的兩次模型大版本迭代。Minimax旗下的海螺,自從去年8月上線(xiàn)以后,也在三個(gè)月內(nèi)實(shí)現(xiàn)了三次迭代,并于今年6月再次推出新模型海螺02。

盡管整體格局尚未完全明朗,但就國(guó)內(nèi)廠商而言,近半年以來(lái),快手、字節(jié)、MiniMax、愛(ài)詩(shī)科技等在各類(lèi)評(píng)測(cè)中的排名基本都能維持在前10之列,位列第一梯隊(duì)。

這一趨勢(shì)同樣體現(xiàn)在用戶(hù)側(cè)的使用排名中。據(jù)POE榜單顯示,快手可靈、MiniMax海螺長(zhǎng)期市場(chǎng)份額位于前列。而字節(jié)即夢(mèng)由于新版本上線(xiàn)時(shí)間較晚(2025年6月),在5月榜單中尚未露面。

圖片來(lái)源:Poe,《報(bào)告:2025年春季人工智能模型使用趨勢(shì)》

02 AI視頻生成的爆發(fā)式崛起:內(nèi)容土壤、成本革命與平臺(tái)競(jìng)速

某種程度上說(shuō),AI視頻生成之所以能在近一年時(shí)間里迎來(lái)井噴式增長(zhǎng),是一種“天時(shí)地利人和”的結(jié)果。

除了Sora帶來(lái)的技術(shù)瓶頸突破,視頻內(nèi)容的持續(xù)擴(kuò)張,構(gòu)成了AI視頻落地最堅(jiān)實(shí)的“土壤”。據(jù)QuestMobile數(shù)據(jù),截至2024年9月,中國(guó)移動(dòng)視頻行業(yè)的月活用戶(hù)已達(dá)11.36億,增速明顯,視頻內(nèi)容正成為流量的核心載體。

更關(guān)鍵的是,AI大幅降低了視頻制作的人力成本、時(shí)間成本與技術(shù)門(mén)檻。無(wú)論是實(shí)拍視頻中所涉及的導(dǎo)演、演員、場(chǎng)地、后期等復(fù)雜流程,還是動(dòng)畫(huà)視頻所需的渲染、建模、特效等高技能工序,AI視頻都能在幾秒鐘內(nèi)“一鍵生成”。

典型的例子,一部由迪士尼、皮克斯出品的頂級(jí)動(dòng)畫(huà)電影,其每分鐘制作成本高達(dá)200萬(wàn)美元,而AI模型生成的相似畫(huà)面,目前已可將單位成本壓縮至每分鐘300美元左右。

盡管現(xiàn)階段的視頻生成模型在效果穩(wěn)定性、劇情連貫性上仍有明顯短板,通常只能輸出幾秒至幾分鐘的片段,但這卻恰好匹配了短視頻、短劇等輕內(nèi)容場(chǎng)景的要求。

短視頻不僅在時(shí)長(zhǎng)要求上需求更低,用戶(hù)注意力碎片化,也使得內(nèi)容形式本身具備了更高容錯(cuò)率。AI工具也就自然而然成為了短視頻剪輯師、MCN機(jī)構(gòu)乃至普通創(chuàng)作者的增效神器。

為了快速占領(lǐng)創(chuàng)作者市場(chǎng),不同于語(yǔ)言大模型從閉源走向開(kāi)源的策略路徑,視頻生成廠商則選擇反其道而行之,從開(kāi)源起步,給予用戶(hù)一定的免費(fèi)使用權(quán)限,在拉新沉淀用戶(hù)習(xí)慣后,在通過(guò)訂閱制實(shí)現(xiàn)商業(yè)變現(xiàn)。

例如,快手可靈、字節(jié)即夢(mèng)、騰訊混元均通過(guò)贈(zèng)送積分、免費(fèi)次數(shù)等方式引導(dǎo)C端訂閱。百度繪想則在2025年7月初推出時(shí)開(kāi)放了免費(fèi)試用;而通義萬(wàn)相則以模型源碼的形式上傳至GitHub的方式進(jìn)行開(kāi)源分發(fā)。

背靠?jī)?nèi)容平臺(tái)的分發(fā)資源和用戶(hù)流量,字節(jié)、快手等內(nèi)容大廠在國(guó)內(nèi)C端用戶(hù)占據(jù)上更具優(yōu)勢(shì),已開(kāi)始構(gòu)建起“模型生成—內(nèi)容創(chuàng)作—平臺(tái)分發(fā)”的閉環(huán)生態(tài),將AI能力直接注入短視頻作者鏈條中,實(shí)現(xiàn)用戶(hù)對(duì)視頻模型的自然滲透。

相比之下,諸多創(chuàng)業(yè)公司如愛(ài)詩(shī)科技PixVerse、MiniMax海螺等,則將目標(biāo)用戶(hù)對(duì)準(zhǔn)了海外市場(chǎng)。

以愛(ài)詩(shī)科技為例,此前有公開(kāi)數(shù)據(jù)表示,PixVerse總用戶(hù)已經(jīng)達(dá)到了6000萬(wàn)以上,月活用戶(hù)超1600萬(wàn),而這一數(shù)據(jù)公開(kāi)時(shí)愛(ài)詩(shī)還尚未發(fā)布國(guó)內(nèi)產(chǎn)品,并且單就用戶(hù)量來(lái)看,PixVerse已經(jīng)成為了全球用戶(hù)量最大的AI視頻生成產(chǎn)品。

從模型性能來(lái)看,國(guó)內(nèi)創(chuàng)業(yè)公司在多項(xiàng)榜單中表現(xiàn)優(yōu)于海外競(jìng)爭(zhēng)者。但在國(guó)內(nèi)市場(chǎng)缺乏天然流量入口和品牌優(yōu)勢(shì)的背景下,出海成為了他們繞過(guò)強(qiáng)平臺(tái)、尋找藍(lán)海的最優(yōu)解。

除此之外,生數(shù)科技Vidu則選擇將目標(biāo)放在了B端市場(chǎng),于今年四月和飛書(shū)、百度搜索達(dá)成了合作。而在此之前,也分別與AR,VR等設(shè)備廠商、影視動(dòng)漫網(wǎng)站等開(kāi)展了合作。

03 模版還是工具?AI視頻生成走向分岔路

通過(guò)在社交軟件上的相關(guān)評(píng)論可以發(fā)現(xiàn),同樣面向短視頻創(chuàng)作,快手和抖音呈現(xiàn)出了不同的內(nèi)容優(yōu)勢(shì),可靈在國(guó)風(fēng)、二次元方面占優(yōu)勢(shì),而即夢(mèng)善于寫(xiě)實(shí)、藝術(shù)領(lǐng)域的內(nèi)容生成。

兩者之所以選擇出各自的垂類(lèi)賽道,一定程度上迎合了各自平臺(tái)的內(nèi)容特色。以真實(shí)生活記錄為內(nèi)容導(dǎo)向的快手,在模版選擇上更加接地氣,而以?shī)蕵?lè)化、潮流化為趨勢(shì)的抖音,則在風(fēng)格化能力上更為突出。

圖片88.png圖片9.png

來(lái)源:可靈官網(wǎng)

來(lái)源:即夢(mèng)官網(wǎng)

但無(wú)論是可靈還是即夢(mèng),當(dāng)AI視頻生成模型服務(wù)于短視頻創(chuàng)作時(shí),模版特效和提示詞設(shè)計(jì)的效果和穩(wěn)定性,成了AI視頻生成類(lèi)教程里逃不開(kāi)的關(guān)鍵詞。

換句話(huà)說(shuō),“選得快、改得少、出片穩(wěn)”才是決定工具使用頻率的核心變量。

事實(shí)上,愛(ài)詩(shī)科技PixVerse之所以能夠在海外獲得如此高的用戶(hù)量,一定程度上也得益于其模板化的視頻生成思路,通過(guò)提供眾多5s左右的“模版特效”,簡(jiǎn)化創(chuàng)作者的生成路徑,類(lèi)似的功能,在海螺、可靈中也有相似。

模版特效的優(yōu)勢(shì)在于能夠極大降低創(chuàng)作者的制作門(mén)檻,做出符合平均水平的視頻效果。但與此同時(shí),它的副作用也同樣明顯:確實(shí)能跑量,但無(wú)法拉長(zhǎng)生命周期。一旦用戶(hù)審美疲勞,內(nèi)容熱度轉(zhuǎn)瞬即逝,ROI表現(xiàn)也難以持續(xù)。

而這恰恰是AI視頻在內(nèi)容平臺(tái)中面臨的結(jié)構(gòu)性困境——效率很高,但很難留下“經(jīng)典”。

從這個(gè)角度來(lái)看,AI視頻依然要去探索長(zhǎng)時(shí)間、高質(zhì)量視頻的模型生成模式。

作為2018年就開(kāi)始推出第一個(gè)視頻生成模型的老大哥,Runway走在了更前面,根據(jù)官方數(shù)據(jù)顯示,盡管過(guò)去一年,Runway的官網(wǎng)訪(fǎng)問(wèn)量不足可靈的二分之一,但ARR卻幾乎達(dá)到了可靈的六倍。

Runway的商業(yè)邏輯,與短視頻模式走向了截然相反的路徑,通過(guò)與電影公司等高附加值產(chǎn)業(yè)合作,生產(chǎn)較為高品質(zhì)的影視內(nèi)容作品。

區(qū)別在于,Runway將視頻生成更多定位為“創(chuàng)意效率工具”,而非低門(mén)檻生產(chǎn)工具。它的核心功能主要有中間幀控制、AI角色的表情與動(dòng)作復(fù)刻、視頻擴(kuò)展等,在實(shí)現(xiàn)效率的同時(shí),核心的創(chuàng)意輸出依然由人類(lèi)自身所掌控。

當(dāng)市面上開(kāi)始涌現(xiàn)出越來(lái)越多的AI產(chǎn)品,留給行業(yè)和時(shí)代的問(wèn)題,更需要從對(duì)AI效率轉(zhuǎn)化性能的評(píng)價(jià),轉(zhuǎn)向厘清AI工具的使用邊界,讓真正的增量?jī)?nèi)容從中生長(zhǎng)出來(lái)。

       原文標(biāo)題 : 視頻生成模型大盤(pán)點(diǎn):誰(shuí)能定義下一代內(nèi)容?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)