2020 年 10 篇必讀的 NLP 突破論文 LIST
4、為長(zhǎng)文檔而生的 Longformer
Self-Attention 機(jī)制是成功實(shí)現(xiàn) Transformer 體系結(jié)構(gòu)的關(guān)鍵因素之一。但是,它也使得基于 Transformer 的模型很難應(yīng)用于長(zhǎng)文檔。
現(xiàn)有技術(shù)通常將長(zhǎng)輸入分成多個(gè)塊,然后再使用復(fù)雜的結(jié)構(gòu)在這些塊中組合信息。艾倫人工智能研究所的研究團(tuán)隊(duì),則為這個(gè)問(wèn)題介紹了一種更為優(yōu)雅的解決方案。
他們提出的 Longformer 采用了一種新的注意力模式,即將局部自注意力和全局自注意力相結(jié)合,在提高效率的同時(shí)又不失效果。這種關(guān)注機(jī)制與序列長(zhǎng)度成線性比例,并可以處理具有數(shù)千個(gè) tokens 的文檔。由于 sliding window 注意力模式的實(shí)現(xiàn)需要帶狀矩陣乘法的形式,而現(xiàn)有的深度學(xué)習(xí)庫(kù)(如 PyTorch 和 Tensorflow)不支持這種形式,因此作者還引入了自定義 CUDA 內(nèi)核來(lái)實(shí)現(xiàn)這些注意力操作。
實(shí)驗(yàn)表明,Longformer 在字符級(jí)語(yǔ)言建模任務(wù)上取得了最先進(jìn)的結(jié)果,并且在經(jīng)過(guò)預(yù)培訓(xùn)后,在長(zhǎng)文檔任務(wù)上始終優(yōu)于 RoBERTa。
一句話總結(jié)現(xiàn)實(shí)影響:對(duì)于經(jīng)常需要處理長(zhǎng)文檔的下游 NLP 任務(wù),Longformer 體系結(jié)構(gòu)可能會(huì)有更明顯的優(yōu)勢(shì),這些任務(wù)包括文件分類、問(wèn)答、共指解析、總結(jié)、語(yǔ)義搜索等。
5、GAN 的巧妙運(yùn)用之 ELECTRA
諸如 BERT 和 XLNet 這類頗受歡迎的語(yǔ)言模型,在預(yù)訓(xùn)練任務(wù)中會(huì)屏蔽一小部分未標(biāo)記的輸入,然后訓(xùn)練網(wǎng)絡(luò)以恢復(fù)此原始輸入。
盡管這種名叫 MLM(Masked language modeling)的訓(xùn)練方式效果很好,但是由于它只能從一小部分 tokens(通常約 15%)中學(xué)習(xí),因此其數(shù)據(jù)效率并不是特別高。這種方式遷移到下游 NLP 任務(wù)時(shí)能夠得到較好的結(jié)果,但往往需要大量的算力。
作為替代方案,斯坦福大學(xué)和谷歌大腦的研究人員基于 BERT 的模型,與 GAN 的想法相融合,提出一種新的預(yù)訓(xùn)練方法 ——RTD ,replaced token detection。RTD 不會(huì)對(duì)輸入進(jìn)行遮蔽,而是從生成器中采樣得到可信的 tokens,再替換掉原始輸入上的 tokens。
結(jié)果顯示,該方法可顯著加快下游 NLP 任務(wù)的訓(xùn)練速度并提高準(zhǔn)確性:ELECTRA-Small 的 GLUE 得分為 79.9,優(yōu)于同類的 BERT 模型(得分為 75.1)和更大的 GPT 模型(得分為 78.8);可與 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,僅使用其預(yù)訓(xùn)練計(jì)算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基準(zhǔn)測(cè)試中優(yōu)于其他最新模型,同時(shí)仍需要較少的預(yù)訓(xùn)練計(jì)算。
一句話總結(jié)現(xiàn)實(shí)影響:由于其計(jì)算效率高,ELECTRA 方法可使從業(yè)者更容易使用預(yù)訓(xùn)練的文本編碼器。
6、GPT-3 的誕生
如果每一個(gè)新的語(yǔ)言任務(wù)都需要一個(gè)與之對(duì)應(yīng)的、標(biāo)簽化了的數(shù)據(jù)集,那這絕對(duì)會(huì)限制語(yǔ)言模型的適用性。
考慮到語(yǔ)言任務(wù)的范圍很廣,而且通常很難收集到大量帶標(biāo)注、可用于訓(xùn)練的數(shù)據(jù)集,OpenAI 的研究人員提出了另一種解決方案,即擴(kuò)大語(yǔ)言模型的規(guī)模,訓(xùn)練出含 175 B 參數(shù)的 GPT-3。
該團(tuán)隊(duì)希望 GPT-3 能夠成為更通用化的 NLP 模型,解決當(dāng)前 BERT 等模型的兩個(gè)不足之處:對(duì)領(lǐng)域內(nèi)有標(biāo)記數(shù)據(jù)的過(guò)分依賴,以及對(duì)于領(lǐng)域數(shù)據(jù)分布的過(guò)擬合。
他們?cè)谌N不同的設(shè)置中評(píng)估了 GPT-3 :
?Few-shot learning,在推理時(shí)給模型一些任務(wù)演示(通常是 10 到 100),但不允許權(quán)重更新。
?One-shot learning,僅允許一次演示,以及對(duì)任務(wù)的自然語(yǔ)言描述。
?Zero-shot,不允許進(jìn)行演示且模型只能訪問(wèn)任務(wù)的自然語(yǔ)言描述時(shí)。
這三種評(píng)估表明,只訓(xùn)練了一個(gè)語(yǔ)言模型、沒(méi)有針對(duì)任何任務(wù)進(jìn)行 Fine-tuning 的 GPT-3,可以完成多項(xiàng) NLP 任務(wù),并且每一項(xiàng)任務(wù)都可以得到很好的效果。
也就是說(shuō),當(dāng)將這樣的語(yǔ)言模型擴(kuò)展到前所未有的參數(shù)數(shù)量時(shí),該語(yǔ)言模型本身可以用作少樣本學(xué)習(xí)的工具,無(wú)需任何額外的訓(xùn)練就可以在許多任務(wù)上取得非常有競(jìng)爭(zhēng)力的表現(xiàn)。
一句話總結(jié)現(xiàn)實(shí)影響:一個(gè)帶有 175B 參數(shù)的模型,其資源消耗也是不符合現(xiàn)實(shí)考慮的,但是如果研究人員設(shè)法將此模型精簡(jiǎn)為可行的大小,則可以將其應(yīng)用于各種語(yǔ)言任務(wù),包括問(wèn)答和廣告文案生成。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無(wú)線掌控——283FC智能自檢萬(wàn)用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!