訂閱
糾錯(cuò)
加入自媒體

大模型下半場:誰在掘金數(shù)據(jù)標(biāo)注?

2025-09-02 16:51
新眸
關(guān)注

AI訓(xùn)練下半場,數(shù)據(jù)成為關(guān)鍵詞。

新眸原創(chuàng)·作者 | 簡瑜

兩個(gè)月前,Meta豪擲約150億美元(約合人民幣1078億元)入股Scale AI,一舉拿下49%股份。交易完成后,Scale估值被推高至290億美元。

作為硅谷AI賽道近幾年最猛的黑馬,Scale AI從成立到估值飆升至138億美元,僅用了5年時(shí)間,幾乎創(chuàng)造了一個(gè)行業(yè)的神話。

這家公司的主業(yè),是數(shù)據(jù)標(biāo)注。低成本的員工門檻和海量的人工參與,這個(gè)看似枯燥且“苦力活”的領(lǐng)域,長期以來被視為是AI產(chǎn)業(yè)鏈里最不性感、最缺乏想象力的一環(huán)。

然而,正是憑借這門“臟活累活”,Scale在大模型時(shí)代迅速完成了從幕后到臺前的躍遷,成為硅谷最炙手可熱的明星公司。Meta的出手,則進(jìn)一步將數(shù)據(jù)標(biāo)注這個(gè)原本處于產(chǎn)業(yè)底層的環(huán)節(jié),推向了聚光燈下。

更耐人尋味的是,這場收購并不僅僅是資本層面的“下注”。

作為交易的一部分,Scale創(chuàng)始人兼CEO汪滔將卸任,帶領(lǐng)部分核心員工加入Meta,組建所謂的「超級智能小組」,同時(shí)保留Scale董事會席位。換句話說,Meta買的不只是數(shù)據(jù),更是汪滔本人的戰(zhàn)略眼光和執(zhí)行能力。

這場來勢洶洶的收購背后,折射出的是Meta的數(shù)據(jù)焦慮。

2024年,Meta推出的Llama4Behemoth,曾因訓(xùn)練數(shù)據(jù)質(zhì)量問題飽受詬病,原因在于Llama4Behemoth約30%的語料源自低質(zhì)量社交媒體內(nèi)容,導(dǎo)致模型在多模態(tài)理解、長文本推理等核心指標(biāo)上,仍落后GPT-4.5約12%。對Meta而言,缺乏高質(zhì)量數(shù)據(jù)成為了限制其模型追趕的最大短板。

某種程度上,在AI模型訓(xùn)練對數(shù)據(jù)依賴日益加深的當(dāng)下,數(shù)據(jù)標(biāo)注作為模型訓(xùn)練的第一道防線,其戰(zhàn)略地位正在被重新估值。

從苦力活到智能化 數(shù)據(jù)標(biāo)注進(jìn)化之路

什么是數(shù)據(jù)標(biāo)注?

一句話概括,就是給原始數(shù)據(jù)打上標(biāo)簽,把“人類能理解的信息”轉(zhuǎn)化為“AI能識別的訓(xùn)練樣本”。比如在自動駕駛場景中,采集車上傳的只是道路影像,但AI無法直接看懂。只有當(dāng)人類標(biāo)注員把車道線、路牌、行人等元素逐一框選、標(biāo)記,這些影像才真正具備訓(xùn)練價(jià)值。

在這個(gè)行業(yè)里,大致存在三類玩家:

第一類是純?nèi)肆π凸。依靠大量低成本勞動力完成?biāo)注,適合做圖像分類、語音轉(zhuǎn)寫等標(biāo)準(zhǔn)化任務(wù)。技術(shù)門檻不高,客戶往往需要自帶工具和平臺,符合大眾對“數(shù)據(jù)標(biāo)注就是體力活”的固有印象。

第二類是互聯(lián)網(wǎng)大廠的眾包平臺。典型代表如京東眾智、百度眾測,主要用于滿足公司自身業(yè)務(wù)場景需求,再通過眾包機(jī)制把任務(wù)拆解、分發(fā)給外部勞動力池。

第三類則是智能型服務(wù)商。這類公司具備自主研發(fā)平臺和算法能力,能提供自動化標(biāo)注工具、質(zhì)量控制體系以及高度定制化的解決方案,尤其擅長3D點(diǎn)云、多模態(tài)等復(fù)雜任務(wù),往往在效率和準(zhǔn)確性上顯著領(lǐng)先同行。

長期以來,前兩類公司本質(zhì)上都是“人力堆砌型”企業(yè),規(guī)模和利潤空間有限,天花板非常明顯。尤其是第一類,更多時(shí)候只是第三類智能公司的外包池子。事實(shí)上,今天大多數(shù)頭部智能型企業(yè),幾乎都是從這種人力公司一步步進(jìn)化而來。

以行業(yè)龍頭Scale AI為例,它的前身其實(shí)叫“ScaleAPI”。最初,它并不是一家數(shù)據(jù)平臺公司,而是提供一個(gè)“人力API”:開發(fā)者只需寫一行代碼,就能調(diào)度一支遠(yuǎn)程勞動力團(tuán)隊(duì),幫忙完成內(nèi)容審核、數(shù)據(jù)提取、預(yù)約安排等瑣碎任務(wù)。

這種以人工驅(qū)動的輕量模式,既幫Scale拿下了豐田、本田等早期大客戶,也積累了大量高價(jià)值數(shù)據(jù)。

有了基礎(chǔ)數(shù)據(jù)的積累,再加上AI能力的升級,自2018年起,Scale就開始逐步用模型替代掉部分重復(fù)性、套路化的人力工作,構(gòu)建起一套“機(jī)器預(yù)標(biāo)注+人工復(fù)核”的混合工作流。先由算法完成預(yù)標(biāo)注,再由人工專家審核和修正。

這種AI代替的模式,為公司的效率和質(zhì)量帶來了雙重提升。根據(jù)OpenAI的測算,ChatGPT的平均標(biāo)注成本低于0.003美元,比傳統(tǒng)眾包平臺便宜20倍。而在準(zhǔn)確率上,GPT-4完成的標(biāo)注結(jié)果可達(dá)到88.4%,甚至超過了人類標(biāo)注員的86.2%。

全球數(shù)據(jù)標(biāo)注版圖:美國為何能占四成?

根據(jù)DMR(DimensionMarketResearch)在2024年7月發(fā)布的預(yù)測報(bào)告,全球數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模約為20億美元,其中美國市場規(guī)模為8.38億美元,占據(jù)約40%的份額。這也是目前能查到的最新數(shù)據(jù)。

為什么美國能長期占據(jù)全球數(shù)據(jù)標(biāo)注的主導(dǎo)地位?

一方面,數(shù)據(jù)標(biāo)注本質(zhì)上是人力密集型產(chǎn)業(yè)。標(biāo)注員的工作門檻低、流動性大,導(dǎo)致人力幾乎成為成本控制的核心競爭力。

為了減輕組織壓力,企業(yè)通常會選擇外包或眾包的方式來派發(fā)項(xiàng)目。在這一點(diǎn)上,美國公司憑借全球化分工的優(yōu)勢,將基礎(chǔ)標(biāo)注任務(wù)外包給低成本國家,實(shí)現(xiàn)了極致的成本壓縮。

典型的例子,Scale AI通過旗下眾包平臺Remotasks,它將最基礎(chǔ)的框選標(biāo)注任務(wù)分發(fā)給菲律賓、肯尼亞等低成本地區(qū)。除官網(wǎng)披露的900名正式員工外,其平臺上注冊工人超過24萬人,遍布全球。

其次,在技術(shù)水平和自動化程度上,國內(nèi)外廠商存在明顯差距。目前國內(nèi)最大的標(biāo)注公司云測數(shù)據(jù),早在2021年就嘗試引入自動標(biāo)注功能,但應(yīng)用范圍仍主要集中在智能駕駛領(lǐng)域;另一家專注語音的海天瑞聲,也在研發(fā)自動語音切割等工具,但整體智能化水平有限,仍高度依賴人工。

相比之下,Scale AI在2018年就布局自動化標(biāo)注,雖然同樣是自動駕駛起家,但業(yè)務(wù)已經(jīng)擴(kuò)展到語言、金融、醫(yī)療甚至軍事等領(lǐng)域。

更重要的是,Scale AI不只是一家單純的數(shù)據(jù)標(biāo)注商公司,此次 Meta重金挖走的汪滔,被稱為華裔“天才少年”,19歲那年從美國麻省理工學(xué)院輟學(xué),創(chuàng)立Scale AI,在最近的一段采訪中,他提到,不僅是數(shù)據(jù)標(biāo)注,在招聘流程、質(zhì)控流程、數(shù)據(jù)分析、銷售報(bào)告等環(huán)節(jié),Scale AI都已經(jīng)實(shí)現(xiàn)了自動化管理。

某種程度上來說,作為一個(gè)因大模型訓(xùn)練需求而誕生的行業(yè),國內(nèi)企業(yè)布局的短板,很大程度上是由市場需求的缺失所決定的。

數(shù)據(jù)標(biāo)注最大的兩個(gè)服務(wù)場景分別是大模型和自動駕駛,而這兩個(gè)產(chǎn)業(yè)的絕對主力軍大多分布美國。出于數(shù)據(jù)天然涉及隱私和安全考量,企業(yè)更傾向于選擇本國標(biāo)注商合作。

正因此,美國既孕育出了Scale這樣的全能型選手,還有surgeAI、Turing這樣面向微調(diào)服務(wù),以及Lionbridge這樣面向文本、語音的數(shù)據(jù)公司。

相比之下,國內(nèi)由于本身勞動力較為密集,互聯(lián)網(wǎng)大廠通常會采用眾包模式而非專門標(biāo)注公司,且在部分模型采用蒸餾的前提下,國內(nèi)市場需求要遠(yuǎn)少于國外。

大模型下半場,數(shù)據(jù)標(biāo)注地位正在反轉(zhuǎn)

隨著AI技術(shù)的快速迭代,業(yè)界曾一度流傳一種觀點(diǎn):AI標(biāo)注與合成數(shù)據(jù)將徹底取代人工標(biāo)注。但就目前的技術(shù)現(xiàn)實(shí)而言,這種可能性依然遙遠(yuǎn)。

AI標(biāo)注的前提,是數(shù)據(jù)結(jié)構(gòu)和規(guī)則高度明確,并且有充足的歷史樣本支撐。因此,它的應(yīng)用范圍天然受限,目前仍只能覆蓋交通圖像、人臉識別等較為標(biāo)準(zhǔn)化的任務(wù)。

在工作流上,AI主要替代的是標(biāo)注的中游環(huán)節(jié),而規(guī)則制定、質(zhì)量把關(guān)等關(guān)鍵節(jié)點(diǎn),仍然需要人工介入。

與此同時(shí),隨著大模型逐漸強(qiáng)調(diào)垂直化場景,訓(xùn)練重心也從預(yù)訓(xùn)練轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)。不同于預(yù)訓(xùn)練對數(shù)據(jù)質(zhì)量要求相對寬松,強(qiáng)化學(xué)習(xí)更依賴高精細(xì)度和專業(yè)化數(shù)據(jù),常常涉及醫(yī)療影像、法律文本、情感語言等高門檻領(lǐng)域。

這種變化使得標(biāo)注員的角色愈發(fā)復(fù)雜。

他們不僅要具備專業(yè)知識,還需要抽象思維與跨學(xué)科能力。正如一位業(yè)內(nèi)人士所說,如今的任務(wù)往往牽涉推理鏈條、多模態(tài)對齊等新場景,“早已不是簡單的框選和分類能夠解決的”。

Surge AI就是這一趨勢的典型代表。該公司自2020年創(chuàng)立起,就將核心放在高質(zhì)量數(shù)據(jù)的生成上,例如為編程模型提供優(yōu)質(zhì)代碼數(shù)據(jù),以提升模型性能。憑借這種定位,SurgeAI在2024年的營收已達(dá)到10億美元,甚至超越了行業(yè)老大Scale AI的8.7億美元。

另一條被寄予厚望的替代路徑是合成數(shù)據(jù)。理論上,它能夠在數(shù)據(jù)不足時(shí)填補(bǔ)空缺,但現(xiàn)實(shí)問題不容忽視:合成數(shù)據(jù)畢竟是在既有條件下生成的,當(dāng)現(xiàn)實(shí)場景發(fā)生變化,它難以保持有效性;同時(shí),數(shù)據(jù)安全風(fēng)險(xiǎn)也限制了其大規(guī)模泛化的可能。

從這個(gè)角度來看,數(shù)據(jù)標(biāo)注并不會消失,而是會向更高質(zhì)量、更強(qiáng)專業(yè)化方向演進(jìn)。

回顧過去,數(shù)據(jù)標(biāo)注長期被視為“三駕馬車”里最弱的一環(huán):算法有OpenAI,算力有英偉達(dá),而在數(shù)據(jù)標(biāo)注領(lǐng)域,即便是行業(yè)龍頭Scale AI,其市值也不到OpenAI的十分之一。

究其原因,很大程度上源于行業(yè)門檻低、收入上限有限。但當(dāng)AI模型訓(xùn)練進(jìn)入下半場,數(shù)據(jù)標(biāo)注的技術(shù)壁壘被不斷拔高,Meta對Scale AI的收購,只是一個(gè)開始,在不遠(yuǎn)的將來,數(shù)據(jù)資源正在被推向產(chǎn)業(yè)競爭的核心。

       原文標(biāo)題 : 大模型下半場:誰在掘金數(shù)據(jù)標(biāo)注?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號