訂閱
糾錯(cuò)
加入自媒體

超越Veo和Runway!可靈開源Kling-Omni:一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理!

作者:Kling 團(tuán)隊(duì)

解讀:AI生成未來

亮點(diǎn)直擊

統(tǒng)一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的通用生成框架中,打破了傳統(tǒng)碎片化的處理模式。

創(chuàng)新性的多模態(tài)視覺語言 (MVL) 范式:引入MVL作為交互機(jī)制,結(jié)合文本指令、參考圖像和視頻上下文,構(gòu)建統(tǒng)一的輸入表示,顯著提升了模型理解和推斷用戶復(fù)雜意圖的能力。

強(qiáng)大的模型智能和推理能力:通過MVL范式,模型超越了簡(jiǎn)單的像素級(jí)合成,展現(xiàn)出深度理解語義、物理邏輯和進(jìn)行智能推理的潛力。

全面的訓(xùn)練與優(yōu)化策略:構(gòu)建了包括指令預(yù)訓(xùn)練、監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)和模型蒸餾在內(nèi)的多階段訓(xùn)練策略,并通過優(yōu)化的數(shù)據(jù)管道和基礎(chǔ)設(shè)施確保了大規(guī)模訓(xùn)練的效率和可擴(kuò)展性。

卓越的性能表現(xiàn):在人類評(píng)估中,Kling-Omni在多模態(tài)引用生成、智能編輯和復(fù)雜指令遵循等多個(gè)關(guān)鍵任務(wù)上,表現(xiàn)出超越現(xiàn)有領(lǐng)先模型的先進(jìn)性能。部分效果展示

總結(jié)速覽

解決的問題

當(dāng)前視頻生成、編輯和智能推理任務(wù)之間存在功能分離,導(dǎo)致工具碎片化,難以處理多樣化的用戶輸入并實(shí)現(xiàn)高級(jí)別的感知與創(chuàng)作協(xié)同。具體挑戰(zhàn)包括:

碎片化的視頻生成與編輯方法:現(xiàn)有模型通常專注于特定任務(wù),如文本/圖像到視頻合成,且依賴靜態(tài)文本編碼器,難以捕捉復(fù)雜視覺細(xì)節(jié)。視頻編輯和理解也常依賴獨(dú)立的、任務(wù)特定的管道或外部適配器,造成集成和擴(kuò)展困難。

交互范式的限制:僅依賴自然語言提示難以捕捉視覺想象的細(xì)微之處,文本在描述精確空間關(guān)系、視覺參考和時(shí)間動(dòng)態(tài)方面存在固有局限,導(dǎo)致用戶意圖與模型輸出之間存在差距。

模型智能不足:現(xiàn)有模型在像素級(jí)合成方面表現(xiàn)出色,但往往缺乏語義推理能力,難以理解場(chǎng)景的底層物理或邏輯,更像是被動(dòng)生成器而非能推斷復(fù)雜用戶意圖的智能代理。

提出的方案

Kling-Omni是一個(gè)通用生成框架,旨在通過統(tǒng)一視頻生成、編輯和智能創(chuàng)作任務(wù)來解決上述挑戰(zhàn)。核心方案包括:

一體化通用框架:將不同的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的整體系統(tǒng)中,摒棄了碎片化的管道方法。

多模態(tài)視覺語言 (MVL) 交互范式:引入MVL作為新的交互機(jī)制,通過結(jié)合自然語言作為語義骨架和多模態(tài)描述,構(gòu)建統(tǒng)一的輸入表示。這增強(qiáng)了模型的基礎(chǔ)理解和控制,將文本和視覺信號(hào)視為一種內(nèi)聚的語言。

強(qiáng)化模型智能與推理能力:通過MVL范式,模型能夠深度理解并推斷用戶意圖,超越簡(jiǎn)單的生成,展現(xiàn)出意想不到的推理能力。

應(yīng)用的技術(shù)

Kling-Omni的實(shí)現(xiàn)依賴于多種先進(jìn)技術(shù)和策略:

核心架構(gòu):基于與視覺-語言模型對(duì)齊的擴(kuò)散Transformer構(gòu)建,建立了一個(gè)共享嵌入空間,實(shí)現(xiàn)深度跨模態(tài)交互。

三階段訓(xùn)練策略預(yù)訓(xùn)練:利用大規(guī)模文本-視頻配對(duì)數(shù)據(jù),結(jié)合指令驅(qū)動(dòng)的文本到視頻生成和圖像到視頻任務(wù),建立對(duì)多樣指令格式和MVL上下文的敏感性。

監(jiān)督微調(diào):包括“持續(xù)訓(xùn)練”以對(duì)齊復(fù)雜MVL輸入(涵蓋參考到視頻生成、圖像/視頻編輯和語義理解任務(wù))和“質(zhì)量微調(diào)”以提升生成質(zhì)量和多模態(tài)理解能力。強(qiáng)化學(xué)習(xí) (RL):采用直接偏好優(yōu)化(DPO)來彌合模型輸出與人類審美偏好之間的差距,優(yōu)化運(yùn)動(dòng)動(dòng)力學(xué)和視覺完整性。

模型加速:開發(fā)了兩階段蒸餾方法,包括軌跡匹配蒸餾和分布匹配蒸餾,顯著減少推理的計(jì)算成本(從150 NFE壓縮到10 NFE)。

Prompt Enhancer (PE) 模塊:基于多模態(tài)大語言模型(MLLM)構(gòu)建,用于將多樣化用戶提示映射到與模型訓(xùn)練數(shù)據(jù)一致的分布上,并通過SFT和RL進(jìn)行訓(xùn)練,以提高生成質(zhì)量和物理合理性。

多模態(tài)超分辨率模塊:采用級(jí)聯(lián)擴(kuò)散框架,基于基礎(chǔ)模型的低分辨率潛在特征和MVL信號(hào)進(jìn)行條件設(shè)置,以合成高保真、細(xì)粒度的視覺細(xì)節(jié)和紋理,并利用局部窗口注意力、偏移窗口策略和非對(duì)稱注意力機(jī)制來提高效率。

訓(xùn)練優(yōu)化:包括多模態(tài)數(shù)據(jù)管道和負(fù)載均衡(采用啟發(fā)式調(diào)度策略、微批次級(jí)彈性u(píng)lysses并行切換機(jī)制和兩層all-to-all策略)以及高效多模態(tài)框架和激活減少(使用MM-FlashAttention和選擇性重計(jì)算)。

達(dá)到的效果

Kling-Omni通過綜合評(píng)估展現(xiàn)了卓越的能力和顯著的效果:

卓越的生成和編輯性能:在OmniVideo-1.0基準(zhǔn)測(cè)試中的人類評(píng)估表明,Kling-Omni在圖像參考和視頻編輯任務(wù)上,在動(dòng)態(tài)質(zhì)量、提示遵循、身份一致性和視頻一致性等所有評(píng)估維度上均優(yōu)于行業(yè)領(lǐng)先模型(如Veo 3.1和Runway-Aleph)。

強(qiáng)大的上下文生成能力:在上下文中展現(xiàn)出色的生成能力,包括多模態(tài)和多維度精確引用(如圖像、視頻和文本輸入,以及身份、狀態(tài)、風(fēng)格、鏡頭構(gòu)圖和動(dòng)作等多個(gè)引用維度)。

智能推理編輯能力:能夠進(jìn)行推理驅(qū)動(dòng)的編輯,例如通過解釋圖像序列生成連貫的時(shí)間敘事,以及實(shí)現(xiàn)高自由度的交互式編輯,允許用戶沿任意維度(元素、風(fēng)格、場(chǎng)景、鏡頭)進(jìn)行內(nèi)容控制。

復(fù)雜指令遵循能力:能夠在一個(gè)生成過程中處理組合的復(fù)雜指令,無需順序任務(wù)執(zhí)行或手動(dòng)分解,簡(jiǎn)化了工作流程并避免了錯(cuò)誤累積。

更廣泛的智能潛力:探索性研究表明,模型能夠?qū)崿F(xiàn)視覺信號(hào)驅(qū)動(dòng)的可控生成和推理增強(qiáng)型生成,例如通過GPS坐標(biāo)實(shí)現(xiàn)地理空間推理,以及通過理解時(shí)間動(dòng)態(tài)進(jìn)行時(shí)間推理,從而實(shí)現(xiàn)上下文感知的場(chǎng)景合成和智能問題解決。

高效率:通過模型蒸餾,推理效率顯著提升,合成單個(gè)視頻樣本的計(jì)算成本大幅降低。

架構(gòu)方法

Kling-Omni是一個(gè)通用生成框架,旨在直接從多模態(tài)視覺語言(MVL)輸入合成高保真視頻。本文采用端到端視角,彌合了各種視頻生成、編輯和智能推理任務(wù)之間的功能分離,將它們整合到一個(gè)整體系統(tǒng)中。與分離的管道方法不同,Kling-Omni支持多樣化的用戶輸入,包括文本指令、參考圖像和視頻上下文,將它們處理成統(tǒng)一的多模態(tài)表示,以提供電影質(zhì)量和高度智能的視頻內(nèi)容創(chuàng)作。為了支持這些功能,本文構(gòu)建了一個(gè)全面的數(shù)據(jù)系統(tǒng),作為多模態(tài)視頻創(chuàng)作的基礎(chǔ)。該框架通過高效的大規(guī)模預(yù)訓(xùn)練策略和推理基礎(chǔ)設(shè)施優(yōu)化進(jìn)一步增強(qiáng)。

如下圖1所示,該架構(gòu)包含三個(gè)關(guān)鍵組件,并由強(qiáng)大的訓(xùn)練和基礎(chǔ)設(shè)施生態(tài)系統(tǒng)提供支持。

Prompt Enhancer (PE) 模塊:為了彌合異構(gòu)用戶輸入和模型表示之間的鴻溝,PE模塊采用多模態(tài)大語言模型(MLLM)來理解復(fù)雜的輸入,并將其與學(xué)習(xí)到的世界知識(shí)進(jìn)行綜合。通過這樣做,它推斷出創(chuàng)作者的特定創(chuàng)作意圖并相應(yīng)地重新組織提示。這些經(jīng)過優(yōu)化的特征作為Omni-Generator的輸入。

Omni-Generator:處理共享嵌入空間中的視覺和文本標(biāo)記,實(shí)現(xiàn)深度跨模態(tài)交互,確保強(qiáng)大的視覺一致性和精確的指令遵循。

多模態(tài)超分辨率模塊:對(duì)原始MVL信號(hào)進(jìn)行條件處理,以細(xì)化高頻細(xì)節(jié)。

整個(gè)系統(tǒng)由漸進(jìn)式多階段訓(xùn)練策略驅(qū)動(dòng),包括指令預(yù)訓(xùn)練、監(jiān)督微調(diào)到強(qiáng)化學(xué)習(xí)(RL),并在利用3D并行和模型蒸餾的高度優(yōu)化基礎(chǔ)設(shè)施上運(yùn)行,以提高訓(xùn)練和推理效率。

Omni-Generator的訓(xùn)練策略

預(yù)訓(xùn)練 在預(yù)訓(xùn)練階段,本文利用大規(guī)模文本-視頻配對(duì)數(shù)據(jù),向模型灌輸強(qiáng)大的基于指令的文本到視頻生成能力。為確保模型能適應(yīng)廣泛的用戶輸入,本文精心策劃了從簡(jiǎn)潔提示到詳細(xì)敘述的各種字幕,從而為理解多樣化的指令格式奠定了堅(jiān)實(shí)的基礎(chǔ)。此外,為促進(jìn)模型對(duì)多模態(tài)視覺語言(MVL)上下文的敏感性,本文將圖像到視頻任務(wù)注入訓(xùn)練混合中,在視覺和文本模態(tài)之間建立早期協(xié)同作用。

監(jiān)督微調(diào)

持續(xù)訓(xùn)練:此階段側(cè)重于使模型與復(fù)雜的MVL輸入深度對(duì)齊。本文引入了一個(gè)全面的課程,包括參考到視頻生成、圖像/視頻編輯以及一系列用于語義理解的專業(yè)任務(wù)。這些任務(wù)的特點(diǎn)是圖像、視頻和文本條件的交錯(cuò)格式。通過將模型暴露于此類異構(gòu)且信息豐富的數(shù)據(jù),有效增強(qiáng)了其解釋復(fù)雜指令和執(zhí)行初步推理的能力。

質(zhì)量微調(diào):為了進(jìn)一步提高模型的生成質(zhì)量和多模態(tài)理解能力,本文精心構(gòu)建了一個(gè)高質(zhì)量數(shù)據(jù)集,其特點(diǎn)是任務(wù)分布均衡和視頻標(biāo)準(zhǔn)卓越。每個(gè)數(shù)據(jù)樣本都與精確的指令注釋配對(duì)。通過對(duì)這個(gè)優(yōu)質(zhì)數(shù)據(jù)集進(jìn)行迭代微調(diào),本文逐步優(yōu)化模型的輸出分布,使其進(jìn)入卓越視覺質(zhì)量和理解能力的領(lǐng)域。

強(qiáng)化學(xué)習(xí)為了彌合模型輸出與人類審美偏好之間的差距,本文采用直接偏好優(yōu)化(DPO)。本文傾向于DPO而不是像GRPO這樣的替代算法,因?yàn)樗@過了后者所需的計(jì)算成本高昂的軌跡采樣,提供了簡(jiǎn)化的單步擴(kuò)散正向過程。優(yōu)化目標(biāo)集中在關(guān)鍵感知指標(biāo)上,特別是運(yùn)動(dòng)動(dòng)力學(xué)和視覺完整性。

模型加速 (蒸餾)本文開發(fā)了一種兩階段蒸餾方法,以顯著降低推理的計(jì)算成本,同時(shí)保持輸出保真度。加速管道結(jié)合了軌跡匹配蒸餾和分布匹配蒸餾,將模型推理壓縮到10個(gè)函數(shù)評(píng)估(NFE),而蒸餾前合成單個(gè)視頻樣本的原始成本為150個(gè)NFE。

Prompt Enhancer

為解決用戶輸入固有的模糊性和高方差問題,本文為Kling-Omni引入了一個(gè)Prompt Enhancer (PE) 模塊。PE的主要功能是將多樣化的用戶提示映射到與模型訓(xùn)練數(shù)據(jù)一致的分布上。這種對(duì)齊對(duì)于提高生成質(zhì)量至關(guān)重要,特別是在身份保持、空間連貫性和色彩保真度方面,同時(shí)通過文本推理提高物理合理性。PE基于多模態(tài)大語言模型(MLLM)構(gòu)建,以適應(yīng)多模態(tài)用戶輸入。

多模態(tài)超分辨率

為了提高生成器的訓(xùn)練和推理效率,本文提出了一種用于視頻超分辨率(VSR)的級(jí)聯(lián)擴(kuò)散框架。在基礎(chǔ)模型的低分辨率(LR)潛在特征和多模態(tài)視覺語言(MVL)信號(hào)的條件下,本文的VSR模型作為統(tǒng)一框架運(yùn)行。這種內(nèi)聚設(shè)計(jì)能夠合成高保真、細(xì)粒度的視覺細(xì)節(jié)和紋理,滿足各種應(yīng)用的需求。如下圖2所示,本文采用基礎(chǔ)模型的架構(gòu),并使用其預(yù)訓(xùn)練權(quán)重初始化VSR模塊。

訓(xùn)練優(yōu)化

本文開發(fā)了一個(gè)端到端訓(xùn)練系統(tǒng),優(yōu)化多模態(tài)數(shù)據(jù)處理、并行執(zhí)行和計(jì)算內(nèi)核,以實(shí)現(xiàn)大規(guī)模預(yù)訓(xùn)練。

多模態(tài)數(shù)據(jù)管道和負(fù)載均衡為了處理文本、圖像和視頻數(shù)據(jù)之間顯著的序列長(zhǎng)度變化,本文采用啟發(fā)式調(diào)度策略來減少管道并行(PP)和數(shù)據(jù)并行(DP)組之間的不平衡氣泡。如圖3所示,訓(xùn)練循環(huán)分為兩個(gè)階段:在線VAE/文本編碼器推理和DiT訓(xùn)練。中央調(diào)度器將樣本分配給DP組,以確保負(fù)載均衡。

高效多模態(tài)框架和激活減少在DiT訓(xùn)練中,輸入被展平為1D序列,并具有最小的填充,并且計(jì)算圖被重構(gòu)以保留模態(tài)無關(guān)的計(jì)算,從而最大程度地減少冗余數(shù)據(jù)移動(dòng)和布局轉(zhuǎn)換開銷。本文開發(fā)了一種多模態(tài)FlashAttention運(yùn)算符(MM-FlashAttention)的打包版本,以支持單個(gè)內(nèi)核中的任意跨模態(tài)掩碼和變長(zhǎng)序列,同時(shí)保持高性能。

實(shí)驗(yàn)人類評(píng)估

為了驗(yàn)證Kling-Omni與其他領(lǐng)先視頻生成和編輯模型相比的性能,本文構(gòu)建了OmniVideo-1.0基準(zhǔn)測(cè)試,其中包含了一套全面且具有代表性的場(chǎng)景。本文收集了大量高質(zhì)量的多模態(tài)數(shù)據(jù)集,包括圖像、主題和視頻作為元素。利用該數(shù)據(jù)集,本文設(shè)計(jì)了500多個(gè)案例,以全面評(píng)估模型引用、集成和編輯不同元素的能力。本文從多個(gè)維度精心構(gòu)建了評(píng)估集,包括:主題類別(包含人類、卡通人物、動(dòng)物、服裝和道具)、應(yīng)用場(chǎng)景(如專業(yè)視頻制作、電子商務(wù)廣告和社交媒體內(nèi)容創(chuàng)作)以及額外挑戰(zhàn)(涉及復(fù)雜動(dòng)作、廣角視角、情感表達(dá)、跨風(fēng)格集成和多元素融合)。

本文與從專業(yè)導(dǎo)演到普通用戶的創(chuàng)作者合作。通過收集不同用戶群體的需求,本文構(gòu)建了一個(gè)全面、結(jié)構(gòu)化和可解釋的評(píng)估系統(tǒng),以評(píng)估模型的整體能力。該系統(tǒng)主要包括以下核心指標(biāo):

動(dòng)態(tài)質(zhì)量:評(píng)估模型的時(shí)序性能,關(guān)注幀間連續(xù)性、屬性穩(wěn)定性以及運(yùn)動(dòng)相對(duì)于物理定律和常識(shí)動(dòng)力學(xué)的合理性。

提示遵循:反映用戶的創(chuàng)作意圖,衡量模型指令遵循的準(zhǔn)確性。

身份一致性:評(píng)估模型在視頻中不同視角、表情、復(fù)雜運(yùn)動(dòng)和光照條件下,保持參考主體(如人物、物體或風(fēng)格)的身份和結(jié)構(gòu)特征的能力。

視頻一致性:專門針對(duì)視頻編輯任務(wù),衡量模型對(duì)未編輯區(qū)域的忠實(shí)度。

本文基于OmniVideo-Benchmark 1.0進(jìn)行了雙盲人類評(píng)估,邀請(qǐng)領(lǐng)域?qū)<液蛯I(yè)標(biāo)注員將Kling-Omni與行業(yè)領(lǐng)先模型進(jìn)行比較。評(píng)估人員根據(jù)定義的維度進(jìn)行并排定性評(píng)估,將相對(duì)性能分為三類:G(好)、S(相同)和B(差)。

如下圖7所示,Image-Reference和Video-Editing任務(wù)的聚合GSB指標(biāo)分布呈現(xiàn)了結(jié)果。本文將Kling-Omni與Veo 3.1在圖像參考任務(wù)上進(jìn)行比較,并與Runway-Aleph在視頻編輯任務(wù)上進(jìn)行比較。結(jié)果表明,Kling-Omni在所有評(píng)估維度上都不同程度地優(yōu)于競(jìng)爭(zhēng)對(duì)手,驗(yàn)證了其在復(fù)雜生成和編輯場(chǎng)景中的魯棒性和可靠性。

通過Kling-Omni釋放想象力

本節(jié)展示了Kling-Omni的功能。如下表1所示,列出了代表性功能,包括但不限于基于引用的生成、指令驅(qū)動(dòng)的編輯、視頻引用、幀條件生成、組合生成、視覺提示理解、通過智能推理實(shí)現(xiàn)的生成等。

多模態(tài)和多維度精確引用Kling-Omni通過多模態(tài)和多維度引用實(shí)現(xiàn)精細(xì)可靠的控制,如上表1所示。該模型支持基于多種輸入形式(圖像、視頻和文本)的靈活條件設(shè)置,并允許用戶指定多個(gè)維度(包括但不限于身份、狀態(tài)、風(fēng)格、鏡頭構(gòu)圖和動(dòng)作)的引用信息。

時(shí)間敘事

此功能使模型能夠解釋一組相關(guān)圖像(無論是描繪連續(xù)的單一鏡頭還是復(fù)雜的多鏡頭序列),并生成全面的視頻演示,如下圖15和下圖16所示。通過智能地彌合幀之間的視覺間隙,模型構(gòu)建了一個(gè)連貫、按時(shí)間順序流動(dòng)的敘事,將靜態(tài)故事板轉(zhuǎn)換為動(dòng)態(tài)視頻體驗(yàn)。

高自由度交互式編輯

除了傳統(tǒng)的編輯操作(如內(nèi)容的添加、刪除和替換),Kling-Omni還支持不受時(shí)間和空間限制的無約束交互式操作,允許用戶沿任意維度(包括元素、風(fēng)格、場(chǎng)景和鏡頭)控制視頻內(nèi)容,如下圖17至下圖23所示。

靈活的任務(wù)組合

如圖24和圖25所示,該模型能夠在一個(gè)生成過程中處理組合的復(fù)雜指令,而無需順序任務(wù)執(zhí)行或手動(dòng)分解。這種統(tǒng)一的方法不僅簡(jiǎn)化了工作流程,還避免了順序編輯中通常出現(xiàn)的錯(cuò)誤累積,確保了更一致和準(zhǔn)確的結(jié)果,同時(shí)提高了整體生成效率。

Kling-Omni的更廣泛潛力

本文對(duì)智能推理增強(qiáng)型生成進(jìn)行了探索性研究,集成了一個(gè)更強(qiáng)大的視覺-語言推理引擎,以彌合抽象用戶提示與具體視覺執(zhí)行之間的差距。如下圖27所示,該系統(tǒng)利用世界知識(shí),例如解釋GPS坐標(biāo)或推斷時(shí)間動(dòng)態(tài),將用戶指令置于真實(shí)世界語境中。例如,它可以解碼原始地理坐標(biāo)以檢索相關(guān)的地標(biāo)知識(shí)(例如埃菲爾鐵塔),從而實(shí)現(xiàn)上下文感知的場(chǎng)景合成。此外,如下圖28所示,該系統(tǒng)展示了推理能力,包括用于排序任務(wù)的幾何和關(guān)系推理,以及用于完成視覺謎題的語義結(jié)構(gòu)推理。

結(jié)論 

Kling-Omni,一個(gè)通用生成模型,它彌合了視頻生成、編輯和多模態(tài)推理之間的傳統(tǒng)界限。通過利用與視覺-語言模型對(duì)齊的擴(kuò)散Transformer,Kling-Omni建立了一個(gè)共享嵌入空間,實(shí)現(xiàn)了深度的跨模態(tài)交互。Kling-Omni有效地用一個(gè)單一的整體系統(tǒng)取代了碎片化的專家模型,該系統(tǒng)能夠處理多模態(tài)視覺語言(MVL)輸入,以生成高保真、物理上可信的視頻內(nèi)容。本文的貢獻(xiàn)不僅限于模型架構(gòu),還包括強(qiáng)大的訓(xùn)練和數(shù)據(jù)基礎(chǔ)設(shè)施。本文構(gòu)建了一個(gè)全面的數(shù)據(jù)工程管道,確保了時(shí)間穩(wěn)定性和語義對(duì)齊,并實(shí)施了高度優(yōu)化的基礎(chǔ)設(shè)施,以確?蓴U(kuò)展性和效率。廣泛的評(píng)估表明,Kling-Omni在復(fù)雜任務(wù)中取得了最先進(jìn)的性能。展望未來,Kling-Omni代表著構(gòu)建能夠感知、推理、生成并與動(dòng)態(tài)復(fù)雜世界交互的多模態(tài)世界模擬器的基礎(chǔ)性一步。

參考文獻(xiàn)

[1] Kling-Omni Technical Report

       原文標(biāo)題 : 超越Veo和Runway!可靈開源Kling-Omni:一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)