訂閱
糾錯(cuò)
加入自媒體

WPS為AI裝上“智能解析大腦”

文|唐辰  圖源:WPS官網(wǎng)

WPS派來的猴子,讓復(fù)雜文檔解析有救了!

人工智能進(jìn)入大模型時(shí)代后,哪一個(gè)方向是最炙手可熱、競爭最為激烈的賽道?

答案可能不唯一,但利用多模態(tài)大模型進(jìn)行文檔智能解析絕對算一個(gè)。

自2025年6月以來,僅僅半年時(shí)間,各大科技公司、初創(chuàng)企業(yè)或研究機(jī)構(gòu)紛紛下場,發(fā)布了一系列突破性模型,掀起了一場“解析革命”。

包括MinerU、PaddleOCR、DeepSeek-OCR、Chandra等在內(nèi)的十余款新型文檔解析模型相繼問世,覆蓋了OCR、結(jié)構(gòu)化提取、版面分析等多個(gè)維度。

圖注:2025年6月起,十余款多模態(tài)文檔解析模型先后發(fā)布

這些模型不再局限于傳統(tǒng)的字符識(shí)別,而是深度融合視覺與語言的多模態(tài)能力,實(shí)現(xiàn)了對復(fù)雜文檔,如PDF、掃描件、表格、發(fā)票的語義級(jí)理解與結(jié)構(gòu)化輸出。

其中,金山辦公聯(lián)合華中科技大學(xué)在近期發(fā)布的MonkeyOCR v1.5,成為這一領(lǐng)域的最新技術(shù)進(jìn)展。

這是一個(gè)全新的統(tǒng)一視覺語言文檔解析框架。從其英文名字看,它稱得上是金山辦公為解決復(fù)雜文檔智能解析難題派出的“猴子救兵”。

在全球權(quán)威文檔解析評測榜單OmniDocBench v1.5中,它拿下93.01分的成績,獲得綜合性能全球第一,成為多模態(tài)文檔解析領(lǐng)域的新標(biāo)桿。

多模態(tài)時(shí)代的“復(fù)雜文檔智能感知系統(tǒng)”

OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù)是最早讓機(jī)器理解文字、看懂文字的技術(shù)之一。它的核心任務(wù)是將圖像中的文字,轉(zhuǎn)化為可編輯、可檢索的文本。

比如在掃描文檔、票據(jù)識(shí)別錄入、街景招牌識(shí)別,以及Google翻譯的實(shí)時(shí)攝像頭翻譯功能為代表的翻譯與語言輔助系統(tǒng)等場景的應(yīng)用。

OCR技術(shù)極大簡便了機(jī)器識(shí)別文字、處理文檔的工作,大家只需要拍個(gè)照片,或者直接掃描文檔,就能把文字、表格、網(wǎng)頁等信息提取出來。這也推動(dòng)了信息數(shù)字化的浪潮,成為“無紙化辦公”和“自動(dòng)化文檔處理”的基石。

從OCR技術(shù)的發(fā)展歷程看,可以拆分為OCR1.0和OCR2.0階段。

OCR 1.0 主要基于CNN(卷積神經(jīng)網(wǎng)絡(luò))與LSTM(長短期記憶網(wǎng)絡(luò))結(jié)合的深度學(xué)習(xí)模型,例如CRNN、CTC等經(jīng)典架構(gòu)。其系統(tǒng)通常由文字檢測和文字識(shí)別獨(dú)立模塊構(gòu)成,前者定位圖像中的文本區(qū)域,后者將文本區(qū)域轉(zhuǎn)換為具體文本內(nèi)容。

這一階段的OCR技術(shù)解決了“機(jī)器識(shí)字”的基本問題。但它有一個(gè)根本性的局限:能識(shí)別字符寫的是什么,無法理解圖像中的語義關(guān)系。比如,它分不清楚一段文字是標(biāo)題、表格數(shù)據(jù),還是公式的一部分。

隨著辦公場景日益復(fù)雜,傳統(tǒng)OCR僅能檢測和識(shí)別文字已無法滿足需求,F(xiàn)代文檔處理需要模型能夠理解文檔的布局結(jié)構(gòu),準(zhǔn)確表達(dá)各元素間的邏輯關(guān)系,并能高精度提取文本、公式及表格等結(jié)構(gòu)化信息。

為此,新一代OCR技術(shù)應(yīng)運(yùn)而生。以MinerU2.5、PaddleOCR-VL、Dots.OCR為代表的多模態(tài)模型和解析方案,實(shí)現(xiàn)了從“文本識(shí)別”到“文檔理解”的跨越。這些技術(shù)不再僅僅返回文本,而是能夠輸出Markdown、JSON、HTML等結(jié)構(gòu)化格式,讓我們從“看文字”升級(jí)為“讀文檔”。

其中,2023年大模型爆發(fā)是一個(gè)新的轉(zhuǎn)折點(diǎn),徹底改變了深度學(xué)習(xí)的格局。以GPT-4V、Gemini、Qwen-VL、InternVL 為代表的視覺語言模型(Vision-Language Model,VLM),讓人工智能真正具備了“同時(shí)理解文字與圖像”的能力。

這意味著,OCR2.0模型既能“看圖識(shí)字”,又能“看圖明意”。它能讀懂論文PDF、解析圖表,甚至能夠理解圖表。

如果說LLM (大語言模型)是“大腦”,那么OCR就是“視覺皮層”,或者說是智能感知系統(tǒng)。它決定了 AI 能“看到”什么,進(jìn)而“理解”什么。

OCR階段,模型或者產(chǎn)品的識(shí)別與理解能力不足,也會(huì)動(dòng)搖多模態(tài)RAG(檢索增強(qiáng)生成)系統(tǒng)的“知識(shí)理解”的根基。

可以理解為,OCR是辦公環(huán)境中數(shù)據(jù)孤島之間的鏈接器,只有高效、準(zhǔn)確的打通數(shù)據(jù)轉(zhuǎn)化壁壘,才能真正把數(shù)據(jù)變成AI能夠理解的企業(yè)知識(shí),進(jìn)而為多模態(tài)RAG(檢索增強(qiáng)生成)技術(shù)提供高質(zhì)量的“數(shù)據(jù)燃料”。

圖注:MonkeyOCR v1.5突破多模態(tài)文檔解析性能上限(點(diǎn)擊看大圖)

換句話說,在OCR 1.0時(shí)代,模型主要實(shí)現(xiàn)的是“文字掃描”:它能看到PDF中的文字,但僅限于識(shí)別“這些字是什么”。而進(jìn)入OCR 2.0階段,模型已能實(shí)現(xiàn)語義級(jí)解析、結(jié)構(gòu)級(jí)還原、視覺語義融合與深層內(nèi)容理解。

其角色也發(fā)生了根本性躍遷:從單純的“輸入預(yù)處理工具”,升級(jí)為“知識(shí)理解的起點(diǎn)”,成為一個(gè)真正的“文檔理解器”。

需要補(bǔ)充的是,當(dāng)前主流的視覺語言模型(VLM),如Qwen-VL、InternVL、Gemma等,雖然參數(shù)量大、通用性強(qiáng),但在結(jié)構(gòu)化多模態(tài)信息提取、高精度大尺寸文檔解析、輕量化部署等專業(yè)場景中,往往難以直接勝任。

而經(jīng)過文檔理解任務(wù)專門優(yōu)化的OCR 2.0模型(如DeepSeek-OCR、PaddleOCR-VL),在文檔圖像實(shí)體檢測、版面分析、信息結(jié)構(gòu)化輸出及PDF-MarkDown轉(zhuǎn)換等核心任務(wù)上表現(xiàn)更為優(yōu)異,實(shí)現(xiàn)了效率與精度的更優(yōu)平衡。

例如,新版PaddleOCR 已明確將“通用文字識(shí)別”(OCR 1.0)與“通用文檔解析”(OCR 2.0)劃分為兩個(gè)獨(dú)立模塊。

MonkeyOCR v1.5,正是這一演進(jìn)路徑上的新代表作。它在全能多模態(tài)文檔解析基準(zhǔn)OmniDocBench v1.5,OCRFlux-bench上,全面超越MinerU 2.5、PPOCR-VL、DeepSeek-OCR等此前最優(yōu)方法,尤其在復(fù)雜表格場景中,相較于此前表現(xiàn)最好的MinerU2.5,效果提升近2.5%

可以說,MonkeyOCR v1.5是多模態(tài)時(shí)代的“復(fù)雜文檔智能感知系統(tǒng)”。它不是傳統(tǒng) OCR 的升級(jí)版,而是邁向“文檔理解”的關(guān)鍵一步。

甚至可以說,MonkeyOCR v1.5開啟了OCR2.0+時(shí)代,將OCR推進(jìn)到多模態(tài)智能系統(tǒng)的核心感知入口的高度,成為連接物理文檔與數(shù)字智能的關(guān)鍵橋梁,完成從工具到智能信息平臺(tái)乃至智能解析大腦的蛻變。

“猴子的救兵”有哪些本領(lǐng)

相比傳統(tǒng)OCR技術(shù)只能識(shí)別文字,無法理解上下文關(guān)系,無法把一份復(fù)雜的學(xué)術(shù)PDF轉(zhuǎn)化為層次清晰的結(jié)構(gòu)化信息。MonkeyOCR能準(zhǔn)確理解復(fù)雜布局文檔中各元素的邏輯位置和符合人類閱讀偏好的閱讀順序。

同時(shí)可以精準(zhǔn)識(shí)別文本、公式、表格等關(guān)鍵元素的信息,甚至能無損還原內(nèi)嵌圖片的表格,以及跨越多頁或者多欄的表格。

在實(shí)際應(yīng)用中,高?蒲腥藛T借助其批量解析論文,將20篇文獻(xiàn)的數(shù)據(jù)整理時(shí)間從2天壓縮至5分鐘;商業(yè)場景里,將一份跨越多頁、含有產(chǎn)品插圖的商品目錄表格,無損地還原為一個(gè)完整的結(jié)構(gòu)化數(shù)據(jù)等;

而自動(dòng)化業(yè)務(wù)流程里,企業(yè)內(nèi)部文檔處理,如合同、報(bào)表、發(fā)票等,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)提取和結(jié)構(gòu)化,提高效率,減少人工干預(yù)。

MonkeyOCR v1.5具備這樣的智能解析能力,源于其核心設(shè)計(jì)理念:將全局的結(jié)構(gòu)理解與細(xì)粒度的內(nèi)容識(shí)別高效解耦,并在最關(guān)鍵、最復(fù)雜的環(huán)節(jié)引入創(chuàng)新性的智能算法。

為此,它創(chuàng)新地將解析流程簡化為兩個(gè)清晰、輕量的階段:

第一階段:給AI 戴上“全局掃描鏡”。MonkeyOCR v1.5模型先預(yù)測文檔布局和閱讀順序,像文本、表格、公式位置等,確保AI 不會(huì)像盲人摸象般碎片化閱讀,而是從全局掌握信息脈絡(luò),也從源頭上減少錯(cuò)誤。

第二階段:局部“精加工”。根據(jù)一階段檢測結(jié)果并行地裁剪,由同一個(gè)VLM識(shí)別對應(yīng)區(qū)域塊內(nèi)容,再根據(jù)一階段的閱讀順序重新組合,最終還原出完整結(jié)構(gòu)。

其運(yùn)作邏輯是,系統(tǒng)將檢測到的區(qū)域塊(patch)剪裁出來,針對文本、公式、表格進(jìn)行并行識(shí)別,這種“先定位、再細(xì)看”的策略兼顧了效率與精度,既看得準(zhǔn),也認(rèn)得對。

MonkeyOCR v1.5針對復(fù)雜文檔解析還有一大殺手锏:圖像解耦技術(shù)。面對表格中嵌入圖片的干擾,模型會(huì)像戴上一副“偏光鏡”,先遮住干擾圖像并用占位符替代,讓 AI 專注于解析純文本表格骨架,最后再將圖片精準(zhǔn)貼回 。

這種創(chuàng)新的兩階段架構(gòu)以及針對嵌入圖像、跨頁表格的專用模塊,完美解決了復(fù)雜文檔中的噪聲干擾,避免表格還原時(shí)誤將圖片內(nèi)容作為單元格內(nèi)容識(shí)別,同時(shí)內(nèi)嵌圖像模型和表格識(shí)別模型可分離,實(shí)現(xiàn)任務(wù)上的解耦。

這樣來看,MonkeyOCR v1.5 不是“又一個(gè)OCR”,它就像是給模型戴上了一副“偏光鏡”,自動(dòng)濾掉干擾表格結(jié)構(gòu)的圖片噪聲,只看骨架,從而能夠成為針對高價(jià)值復(fù)雜文檔打造的垂類智能解析引擎。

MonkeyOCR v1.5的范式意義

如果說圖片生成是AI 的“創(chuàng)作之筆”,那么對復(fù)雜文檔的解析則是 AI 的“深度閱讀之眼”。這正是WPS「原生+智能體」思路的落地。背后是金山辦公基于自身場景優(yōu)勢,聚焦打磨更適于應(yīng)用落地的AI模型的理念。

這是因?yàn)椋谖磥淼腁I時(shí)代,真正能大規(guī)模落地、產(chǎn)生實(shí)際價(jià)值的,未必是參數(shù)龐大、算力需求高的通用大模型,那些輕量、快速、垂直、適合本地或移動(dòng)端部署的專用模型,即垂直AI模型,同樣可以在其擅長的領(lǐng)域發(fā)揮巨大效能。

正如不少評測以及用戶反饋所評價(jià),MonkeyOCR v1.5是復(fù)雜文檔智能解析領(lǐng)域的一個(gè)重要里程碑。它不僅在技術(shù)上實(shí)現(xiàn)了多項(xiàng)創(chuàng)新,打開OCR2.0+的新局面。

更關(guān)鍵是的是,它提供了一個(gè)新的OCR技術(shù)思路:通過創(chuàng)新的輕量級(jí)、本地化兩階段VLM設(shè)計(jì)、視覺一致性強(qiáng)化學(xué)習(xí)以及針對性的模塊化決方案,可以在復(fù)雜文檔智能解析上,實(shí)現(xiàn)準(zhǔn)確性、效率和實(shí)用性的最佳平衡。

在辦公這一高頻、高價(jià)值場景打磨世界級(jí)模型,并使其成為AI時(shí)代新協(xié)同辦公范式。

但MonkeyOCR v1.5并不是一個(gè)炫技的垂直AI模型。盡管我們身處AI大模型時(shí)代,但大量的關(guān)鍵信息仍以PDF、掃描件、紙質(zhì)檔案形式存在,比如科研論文、法律合同、醫(yī)療記錄、工程圖紙、政府公文等等。

如果我們無法高效、精準(zhǔn)地將其轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),無法理解復(fù)雜表格、圖片信息,AI 就如同“睜眼瞎”。OCR技術(shù)的發(fā)展,除了對文檔“識(shí)別得更準(zhǔn)”,其也在改變?nèi)、機(jī)器與文檔的交互方式。

對金山辦公而言,MonkeyOCR v1.5 的意義遠(yuǎn)不只是一個(gè)更強(qiáng)的插件。正如金山辦公CEO 章慶元所言,AI 時(shí)代的辦公軟件要成為“能力的提供方”和“數(shù)字員工的載體” 。

而有了MonkeyOCR v1.5 這套“智能解析大腦”,用戶上傳的 PDF、圖片即可無縫轉(zhuǎn)化為可編輯、可計(jì)算的智能文檔 。這不僅是“解析即用”的體驗(yàn)升級(jí),更是金山辦公在打造成熟 AI 應(yīng)用落地“樣板間” 。

大家也能看到,一只“聰明的猴子”,正在通過重塑人與文檔的交互方式,大鬧 AGI 的“天宮” 。

參考資料,賦范空間,《OCR2.0時(shí)代:從字符識(shí)別到多模態(tài)智能理解的技術(shù)革命》量子位,《金山與華科發(fā)布多模態(tài)模型MonkeyOCR v1.5》

       原文標(biāo)題 : WPS為AI裝上“智能解析大腦”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)