123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語言處理 > 正文

ECCV 2020 | 基于對抗路徑采樣的反事實視覺語言導(dǎo)航

2020-08-06 10:29

將門創(chuàng)投

本文將分享加州大學(xué)助理教授王鑫和王威廉等人在ECCV spotlight的工作。為了實現(xiàn)VLN智能體，不僅需要學(xué)習(xí)理解語言語義和視覺環(huán)境，同時還要適應(yīng)視覺語言交互情況下的動態(tài)變化，研究人員提出了一種對抗驅(qū)動的反事實思考方法。模型通過學(xué)習(xí)評價有效的反事實條件來代替采樣充分但信息不足的數(shù)據(jù)，最終形成了一種比隨機(jī)采樣路徑方法更為有有效的對抗策略。

視覺語言導(dǎo)航（Vision－and－language navigation， VLN）是機(jī)器人基于自然語言指令在3D環(huán)境中進(jìn)行移動以到達(dá)目標(biāo)的任務(wù)。它不僅需要理解自然語言信息，同時還需要將周圍環(huán)境的視覺信息進(jìn)行編碼，在語言指令的引導(dǎo)下利用場景的關(guān)鍵特征來向目標(biāo)位置移動。

為了實現(xiàn)VLN智能體，不僅需要學(xué)習(xí)理解語言語義和視覺環(huán)境，同時還要適應(yīng)視覺語言交互情況下的動態(tài)變化。這一復(fù)雜的任務(wù)所面臨的最大困難在于訓(xùn)練數(shù)據(jù)的稀缺性。例如在Room－to－Room（R2R）數(shù)據(jù)集中包含了超過二十萬條可能的路徑，但數(shù)據(jù)集中卻只有大約一萬四千條采樣路徑。如此稀缺的數(shù)據(jù)使得智能體在交換環(huán)境中學(xué)習(xí)語言和視覺任務(wù)的優(yōu)化匹配問題變得十分困難。

而對于人類來說，通常缺乏結(jié)合視覺感知和語言指令來對不熟悉的環(huán)境進(jìn)行探索的能力，然而人類的思維還是可以利用反事實推理來完善缺失的信息。例如，如果人類按照“右轉(zhuǎn)”的指令但看到了門擋在前面，人們就會自然而然的思考要是左轉(zhuǎn)會遇到什么情況；如果我們停在餐桌前而不是徑直走過，那么指令應(yīng)該是什么樣的呢？我們可以看到反事實推理可以通過探索并考量可能的行為方式（并沒有實際發(fā)生，類似于設(shè)想）來改進(jìn)VLN任務(wù)的表現(xiàn)。這可以使得主體在數(shù)據(jù)缺乏的場景下通過環(huán)境的引導(dǎo)熟悉（bootstrapping familiarity）和指令與多個行為策略選項中的聯(lián)系來進(jìn)行有效操作。

反事實思考已經(jīng)被用于多種任務(wù)來增強(qiáng)模型的魯棒性，但還沒有顯式的反事實模型被針對性地用于VLN任務(wù)中。雖然有像Speaker－Follower這樣的方法對訓(xùn)練樣本進(jìn)行了增強(qiáng)，但隨機(jī)采樣方法太任意了。下圖展示了基于隨機(jī)采樣增強(qiáng)數(shù)據(jù)訓(xùn)練的模型性能隨增強(qiáng)比例的變化，可以看到在60％以后性能幾乎就不再增加。這是由于這些路徑都是隨機(jī)采樣的，限制了反事實思考對于數(shù)據(jù)增強(qiáng)的所帶來的提升。

隨機(jī)采樣和APS采樣的對比，可以看到隨機(jī)手段對性能的提升會遇到瓶頸。

在這篇論文中，研究人員提出了一種對抗驅(qū)動的反事實思考方法，模型通過學(xué)習(xí)評價有效的反事實條件來代替采樣充分但信息不足的數(shù)據(jù)。研究人員首先引入了模型未知的對抗路徑采樣器（adversarial path sampler， APS）來生成富有挑戰(zhàn)并有效的增強(qiáng)路徑，作為目標(biāo)導(dǎo)航模型的訓(xùn)練樣本。在對抗訓(xùn)練過程中，導(dǎo)航器嘗試著去完成APS生成的路徑并更好地優(yōu)化導(dǎo)航策略，而APS的目標(biāo)則在于不斷生成更具挑戰(zhàn)性的路徑。這種對抗策略比隨機(jī)采樣路徑方法更為有有效。

此外在APS的增強(qiáng)下，模型對于陌生場景和未知場景具有更好地適應(yīng)性，實現(xiàn)基于環(huán)境的預(yù)探索機(jī)制。這樣在進(jìn)入新環(huán)境后，機(jī)器人可以首先對其進(jìn)行預(yù)探索并熟悉環(huán)境，隨后在自然語言的引導(dǎo)下完成任務(wù)。在R2R數(shù)據(jù)集上的結(jié)果表明APS可以被集成到多種VLN模型中，大幅提升已知和未知環(huán)境中的性能。

1 2 3 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

12月9日
立即報名>> 恩智浦創(chuàng)新技術(shù)峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

欧洲精品卡1区2卡三卡四卡被黑人调教性奴俱乐部久久这里只有精品6 久久久综合视频一本