訂閱
糾錯
加入自媒體

春節(jié)AI紅包,本質(zhì)是一場大規(guī)模微數(shù)據(jù)收割行動

長期以來,我們默認生活與網(wǎng)絡(luò)之間存在一道物理隔離的防火墻。

不過,近幾年來,互聯(lián)網(wǎng)似乎開始不那么“安全”了。

信息安全領(lǐng)域中,有一個叫做“實際隱晦性(Practical Obscurity)”的概念。

這在生活中并不罕見:如果有人能翻遍你在貼吧的所有發(fā)帖、對比你在微博和小紅書的發(fā)言習慣,就有很大的可能性認出你是誰。

盡管如此,大部分人是沒有這個閑情逸致并搭上時間成本來做這件事的。

但如今互聯(lián)網(wǎng)步入了AI時代,情況就變得有所不同。

大語言模型(LLMs)的出現(xiàn),一下子讓馬甲后那堵防火墻化為齏粉。

還記得上周Anthropic指控國產(chǎn)AI企業(yè)惡意蒸餾,卻被用戶反問“你們是在炫耀能用元數(shù)據(jù)讓用戶無法匿名”的事嗎?

就在幾天之后,Anthropic又向全球廣播了一個駭人聽聞的事實:不用元數(shù)據(jù),只要你能用大模型,就可以讓匿名無效!

01 

去匿名化的手段:結(jié)構(gòu)化匹配

Anthropic的安全研究團隊又有了新發(fā)現(xiàn)。

他們和蘇黎世聯(lián)邦理工學院共同發(fā)布了一篇在互聯(lián)網(wǎng)上極具破壞性的論文:《Large-scale online deanonymization with LLMs》。

稱之為“破壞性”其實一點都不過分,因為這篇論文表達的核心觀點是:

在互聯(lián)網(wǎng)上,對于大規(guī)模的非結(jié)構(gòu)化文本,通過調(diào)用現(xiàn)有的API和公開模型,大語言模型只需用最多4美元的低廉成本,就可以用極高的準確率將人們的匿名賬號與真實身份完全關(guān)聯(lián)。

事實上,去匿名化對于計算機行業(yè)來說已經(jīng)不是一個新的課題。

在2006年,當時的流媒體巨頭Netflix主營業(yè)務(wù)還是郵寄租賃DVD。

為了向用戶更精準地推薦電影,Netflix決定舉辦一場算法競賽,誰能將現(xiàn)有的電影推薦系統(tǒng)的預測準確率提升10%,誰就能拿走高達100萬美元的獎金。

設(shè)計算法就需要數(shù)據(jù),雖然當時還沒有大數(shù)據(jù)技術(shù),但Netflix仍然為此公開了一份龐大的數(shù)據(jù)集,包含約50萬名真實用戶的觀影數(shù)據(jù)和1億條電影評分記錄。

毫無疑問,公開這種隱私數(shù)據(jù)必須先進行脫敏。Netflix刪除了所有的個人身份信息,如真實姓名、郵箱、地址、信用卡號等,只留下和電影相關(guān)的一些信息。

Netflix也信誓旦旦地向全世界保證:公開的數(shù)據(jù)中不會包含任何可能識別出個人身份的數(shù)據(jù)。

在不看電影的人們看來,公開的數(shù)據(jù)和垃圾并無兩樣,但最后的結(jié)果卻超出人們的想象:

兩名安全研究人員Narayanan和Shmatikov在既不攻擊Netflix服務(wù)器、也不使用任何黑客技術(shù)的情況下攻破了Netflix的防御。

這兩位研究員使用了一種叫做鏈接攻擊(Linkage Attack)的方法,并引入互聯(lián)網(wǎng)電影數(shù)據(jù)庫(IMDb)作為輔助數(shù)據(jù)集。

他們敏銳地注意到,很多人在Netflix匿名打分的同時,還喜歡在IMDb上公開寫影評。因此,他們使用爬蟲獲取了大量公開用戶主頁,直接拿到了用戶的真實姓名、網(wǎng)名、常住地等敏感信息,以及對電影的公開評價和日期。

接下來的步驟就很簡單了,拿著這些電影相關(guān)的信息,去Netflix公開的1億條數(shù)據(jù)中玩“連連看”。

雖然看熱門電影的人很多,但每個人看電影的組合和時間軌跡卻極其獨特,幾乎獨一無二。

就像是人的指紋一樣,憑借著IMDb上的公開主頁,兩位研究員成功實現(xiàn)了匿名評論與用戶真實身份的綁定。

也正是在這個時候,災難降臨了。

一旦賬號被確定關(guān)聯(lián),用戶的完整觀影歷史也就徹底暴露,各種隱私信息被迫公開導致Netflix被提出集體訴訟,盡管高額的代價實現(xiàn)了庭外和解,但原先設(shè)計的第二屆競賽也被永久取消。

這就是最早期的“去匿名化”攻擊,看似簡單,卻奠定了現(xiàn)代信息安全的一個核心概念:

微數(shù)據(jù)(Micro-data)本身就是一種身份標識,這與Anthropic防御蒸餾使用的元數(shù)據(jù)非常類似。

不過,18年前的這次攻擊也存在一個致命的弱點:必須使用結(jié)構(gòu)化數(shù)據(jù)。

簡單地說,攻擊者從IMDb的公開主頁中得到用戶觀看的確切電影名、打分、時間戳等信息,并將之打包成一個數(shù)據(jù)包,格式高度標準化,多一條少一條都不行。

只有拿著這種數(shù)據(jù)包,才能去數(shù)據(jù)庫里“連連看”。因此,面對如今我們在社交平臺上隨意發(fā)布的評論,這種手段是沒有作用的。

但令人沒想到的是,18年后的AI時代,大語言模型帶來了技術(shù)拐點。

02 

去匿名化的工業(yè)級流水線:ESRC框架

Anthropic的研究人員發(fā)現(xiàn),現(xiàn)有的大語言模型正好能充當一個永動機般的偵探來玩這局“連連看”。

全球范圍內(nèi),每個用戶和AI的聊天,組成了海量且雜亂的非結(jié)構(gòu)化數(shù)據(jù)集,而大語言模型非常善于從這些不經(jīng)意的閑談中提取用戶的微數(shù)據(jù):

點外賣會讓它知道你住在哪里,查菜譜會讓它知道你愛吃什么,甚至改代碼也會讓它發(fā)現(xiàn)你有用拼音命名變量的壞習慣。

生活中常用AI的朋友肯定心知肚明,我們告訴AI的信息遠不止這些,而如此豐富的信息足以讓AI將之轉(zhuǎn)化為結(jié)構(gòu)化特征并進行全網(wǎng)匹配。

為了證明大語言模型這種獨有的攻擊手段能夠在百萬級別的用戶數(shù)據(jù)庫中自動運行,研究團隊沒有像日常對話一樣依賴簡單的提示詞進行驗證,而是專門設(shè)計了一套模塊化流水線,名為ESRC框架。

這個框架的命名由四個階段的首字母組成:提。‥xtract)、搜索(Search)、推理(Reason)、校準(Calibrate)。

Step 1:提。‥xtract)

日常生活中人們匿名在網(wǎng)絡(luò)上發(fā)表的內(nèi)容十分隨意,語義模糊、無實際意義的文字隨處可見,這些都屬于非結(jié)構(gòu)化的文本。有的時候,人們看到這些東西自己都不知道自己在說些什么,更別提讓模型去理解。

因此,研究人員首先使用了輕量級的大模型對這些文本進行過濾,剔除掉“經(jīng)驗+3”這種無意義的回復以及純鏈接等垃圾信息。

隨后,過濾后的文本將被發(fā)送給高端模型,要求其輸出一個用逗號分隔的核心細節(jié)列表。

如此一來,一段匿名發(fā)送的看起來沒什么具體含義的文字就可能變?yōu)橐欢斡袃r值的信息序列,比如[“24歲”, ”學生”, “現(xiàn)居北京”, “養(yǎng)了一只名叫coco的小狗”],類似于Python中的列表。

Step 2:搜索(Search)

有效的匿名信息有了,再加上包含真實身份的數(shù)據(jù)庫,這局“連連看”也就可以開始了。

不過,面對每天上億個tokens和百萬用戶,如果直接讓大語言模型兩兩比對,時間復雜度就會是O(N²),給AI廠商支付的API成本肯定是無法承受的。

因此,Anthropic的研究團隊引入向量檢索技術(shù),并調(diào)用了OpenAI的text-embedding-3-large模型作為翻譯官。

前面提取出的核心細節(jié)列表會被翻譯成一個高維度的向量,里面包含成千上萬個數(shù)字,被稱為密集向量。

我們不經(jīng)意之間告訴AI的那些信息,就儲存在密集向量中。越是興趣愛好相似的人,其密集向量在向量空間中就越接近。

而這個時候,F(xiàn)acebook開發(fā)的一個開源工具“FAISS庫”又能派上用場:它負責計算余弦相似度來尋找那些與匿名信息最匹配的真實身份。

通過這種方式,模型就不必在超大規(guī)模的用戶池中大海撈針,只需比對與匿名信息最匹配的那一群人即可。

Step 3:推理(Reason)

需要注意的是,傳統(tǒng)的嵌入向量檢索技術(shù)靠計算余弦相似度只能做到縮小范圍,但無法直接實現(xiàn)高精度的匹配,因為依靠向量計算出來的概率進行關(guān)聯(lián)匹配是不可靠的。

相比傳統(tǒng)的計算機算法,大語言模型最大的優(yōu)勢就在于能夠主動進行“推理”這個過程。

因此,研究人員把與匿名信息最匹配的前100個候選真實身份交給頂尖的大語言模型,由它們通過高強度的推理得出結(jié)論。

大語言模型既可以尋找相似之處,也可以尋找矛盾之處。

假設(shè)有一個候選人與核心信息列表中的絕大部分特征都吻合,例如“24歲”、“學生”、“養(yǎng)狗”等等,但他的IP卻顯示在美國,目標賬號活躍時間往往是在凌晨。

Refer to caption

在向量空間中,其匿名發(fā)布的信息可能與其真實身份極其接近,但事實截然相反。大語言模型此時就可以像人類一樣,利用這些明顯的矛盾排除高相似度的錯誤選項。

Step 4:校準(Calibrate)

對于真實世界的安全攻擊來說,必須遵循一條規(guī)律:寧可漏報,絕不誤報。因此,校準環(huán)節(jié)必須解答一個問題:大語言模型已經(jīng)找到了人,但這個結(jié)果是否值得相信?

套用到實際的應(yīng)用場景中很容易理解:出于好奇心,從一個人匿名發(fā)布的內(nèi)容推測這個人是誰,一旦判斷錯了不僅前功盡棄,還容易引起不必要的尷尬。

因此,讓大語言模型匹配匿名信息與真實身份,要么結(jié)果正確,要么沒有結(jié)果,絕不允許出現(xiàn)錯誤的匹配。

在大語言模型推理完成后,攻擊者就會得到許多匹配結(jié)果,一個匿名賬號對應(yīng)一個真實身份,暫且把它記作一對。成千上萬對匹配結(jié)果中,必然有錯有對。

為了解決向量相似度不靠譜和模型推理可能遺漏細微矛盾點等問題,研究團隊特意添加了一輪校準機制:

他們又設(shè)置了一個價格稍低的模型充當裁判,并讓匹配結(jié)果中的每一對進行1v1的PK。作為裁判的模型要回答其中哪一對看起來更像是同一個人。

每一輪PK后,系統(tǒng)根據(jù)結(jié)果更新每一對匹配結(jié)果的評分。在經(jīng)過幾千次的比較后,最終得到一個極其可靠的置信度排名。

結(jié)果顯示,這種方法能夠極大程度上提高在99%以上精確率下的系統(tǒng)召回率,讓匹配關(guān)系更加可靠。

03 

去匿名化的實驗結(jié)果:全面擊潰

為了評估ESRC框架是否有效,Anthropic的研究團隊設(shè)計了三個模擬真實世界的場景,結(jié)果令人有些害怕。

首先是來自自主Agent的降維打擊。

研究團隊首先構(gòu)建了一個具備網(wǎng)絡(luò)搜索功能的大語言模型Agent,并試圖讓它將脫敏后的極客論壇賬號與真實LinkedIn職場身份進行關(guān)聯(lián)。

這個實驗與人肉搜索的過程幾乎完全一致,攻擊者只需要提供脫敏后的極客論壇檔案,該Agent就能自主生成搜索詞、調(diào)用搜索引擎并交叉比對從網(wǎng)頁中獲得的證據(jù)。

研究團隊設(shè)計的準確率要求是90%,在此基礎(chǔ)下該Agent竟然成功還原了67%的用戶身份,耗時只有短短幾分鐘。

更可怕的是,平均下來每位用戶的搜索成本只有1-4美元!

這就意味著,大規(guī)模、高定制化的“人肉搜索”在經(jīng)濟上已經(jīng)具備可行性。

接下來有人可能會想,真實的職場身份容易被發(fā)現(xiàn),那如果是不同平臺的兩個匿名小號呢?

大模型給出的回復是:沒有區(qū)別。

為了模擬同一用戶在不同平臺的兩個匿名小號,研究團隊將Reddit用戶發(fā)布的帖子分為兩類:一類是綜合電影板塊,一類是小眾電影板塊。

但結(jié)果仍然令人驚訝:即便是沒有年齡、職業(yè)等容易形成強關(guān)聯(lián)的隱私數(shù)據(jù),只有主觀的電影評價和審美偏好,ERSC框架也能將兩個小號精準關(guān)聯(lián)。

冰冷的數(shù)據(jù)顯示,同一個用戶只要在兩個匿名小號中共同提到過10部電影,被精準關(guān)聯(lián)的概率就已經(jīng)達到48.1%。

還有人會說,人的愛好和討論熱點是會變的,過去的賬號和現(xiàn)在的新賬號壓根不相關(guān)。

很可惜,模型終究還是成功跨越了時間長河。

研究團隊將1萬名用戶的評論以1年為期進行劃分,一年前的言論作為查詢集,一年后的言論作為候選池。

實驗證明,即便是完全不同時期的社會新聞和話題,大語言模型還是能見微知著,從寫作風格、興趣甚至是人口統(tǒng)計特征,從包含數(shù)千名干擾者的候選池中準確找到用戶“過去的自己”。

04 

去匿名化的現(xiàn)狀:無法防御

無論是2008年的Netflix事件,還是Anthropic研究團隊的模擬實驗,我們會發(fā)現(xiàn)數(shù)據(jù)規(guī)模其實并不大。

一個最直觀且正確的想法是:通過精準匹配實現(xiàn)去匿名化的難度取決于候選池的大小。

若是將候選的真實身份擴充到百萬、千萬級,采用ERSC框架的攻擊手段是否還能生效?

傳統(tǒng)統(tǒng)計算法顯然不行,哪怕是幾百人的情況下都會崩潰,召回率直接歸零;

但基于大語言模型的ERSC攻擊不一樣,它展現(xiàn)出了恐怖的對數(shù)線性衰減特性,即便是百萬人,大語言模型仍然能在90%精確度的水平下保持35%的召回率。

更可怕的是,這種攻擊手段,用戶無法防御,平臺也無法防御。

對于用戶來說,傳統(tǒng)的隱私保護手段大多是為了結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的。

我們可以把年齡模糊成年齡段,可以把定位服務(wù)關(guān)掉避免位置信息被獲取。

但生活和網(wǎng)絡(luò)中,一個人總得說話。哪怕是用最高級的文本凈化技術(shù)來脫敏,大語言模型仍然能從這些非結(jié)構(gòu)化文本和上下文語境中推斷出些許特征。

對于平臺來說,無法從API層面上封殺這種攻擊手段。

平臺看到黑客針對漏洞進行攻擊,可以用防火墻攔截;但如果平臺看到用戶的請求是“幫我看看這兩段電影評價哪個寫的更好”呢?

攻擊手段恰恰就包含在這些看起來完全正常的用戶請求之中,模型提供商根本無法判斷調(diào)用者是在進行去匿名化攻擊還是在正常工作。

至此,網(wǎng)絡(luò)安全領(lǐng)域的防御成本和攻擊成本的非對稱性已經(jīng)被徹底逆轉(zhuǎn)。

05 

結(jié)語

以前,我們面對互聯(lián)網(wǎng)總是會想:我不過是個普通人,誰會閑的沒事扒我的馬甲?

隱藏在商業(yè)世界中的變現(xiàn)邏輯恐怕不會這么想。

如果我們把目光拉回到剛剛過去的春節(jié),國內(nèi)幾家頭部大模型平臺無一例外地推出了AI助手的激勵政策。

無論是元寶派的現(xiàn)金紅包,還是千問的免費奶茶,幾家平臺砸下數(shù)十億現(xiàn)金的猛烈營銷使得其產(chǎn)品在春節(jié)期間的日活數(shù)據(jù)飆升,但假期一過,留存率卻相當慘淡。

按照過往的互聯(lián)網(wǎng)運營思維來看,這當然談不上是什么成功的拉新活動。各家的錢都沒少燒,ROI卻不見起色,用戶薅完羊毛心滿意足地轉(zhuǎn)身離去,產(chǎn)品還是沒多少人主動用。

但是,看完這篇論文,我卻感到細思極恐。

或許,這不是一次失敗的拉新營銷,而是一場披著春節(jié)外衣的大規(guī)模微數(shù)據(jù)收割行動。

回想一下春節(jié)假期里人們都用AI做了什么?

了解拜年話術(shù)、查詢年夜飯菜譜、制定旅行規(guī)劃、訂購外賣奶茶、甚至是編寫復工請假理由。

這些非結(jié)構(gòu)化的自然語言,在用戶看來只是閑聊,在傳統(tǒng)算法面前只是幾句廢話。

但在普遍擁有ESRC能力的AI公司看來,這些信息就意味著價值,而大語言模型正是發(fā)現(xiàn)價值的顯微鏡。

AI公司并不需要用戶高度留存,相反,只要用戶點開對話框,哪怕只用了幾分鐘聊了幾句,大語言模型就能從簡短而模糊的需求中精確提取出年齡、常住地、職業(yè)、家庭結(jié)構(gòu)、消費能力甚至性格等高價值信息。

在AI公司手里,ESRC框架的攻擊手段正是精準描繪用戶畫像的最強武器。

過去,字節(jié)可能需要分析過去一個月用戶看過的抖音短視頻、騰訊可能要分析用戶在微信看過的一千篇歷史文章、阿里可能要分析用戶在淘寶購買的上百個產(chǎn)品,才能模模糊糊拼湊出用戶大概是個什么樣的人。

而如今,憑借著大語言模型已經(jīng)溢出的語義理解和推理能力,僅靠幾次不經(jīng)意之間的對話碎片,AI就可以輕松在海量數(shù)據(jù)中完成精準的“去匿名化”定位。

這些被提取出來的高質(zhì)量用戶標簽,正是實現(xiàn)精準的廣告投流、跨平臺數(shù)據(jù)變現(xiàn)以及未來模型的訓練最寶貴的資產(chǎn)。

而我們,沒有反抗的余地。

總之,無論如何我們都只能接受一個事實:長期以來,支撐互聯(lián)網(wǎng)自由表達的匿名機制,在LLM面前已經(jīng)失去了意義。

       原文標題 : 春節(jié)AI紅包,本質(zhì)是一場大規(guī)模微數(shù)據(jù)收割行動

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號