谷歌DADS算法助力智能體實(shí)現(xiàn)多樣化行為發(fā)現(xiàn)
利用模型動力學(xué)實(shí)現(xiàn)基于模型的控制
DADS不僅可以發(fā)現(xiàn)可預(yù)測的潛在有用模型,同時(shí)允許高效地將學(xué)習(xí)到的技能應(yīng)用于下游任務(wù)中去。DADS可以利用學(xué)習(xí)到的技能動力學(xué)來預(yù)測每個(gè)技能的狀態(tài)轉(zhuǎn)移,預(yù)測的狀態(tài)轉(zhuǎn)移可以被銜接起來模擬任意技能的完整狀態(tài)軌跡,而無需在環(huán)境中執(zhí)行。因此我們可以模擬不同技能的軌跡,并為給定的任務(wù)選擇最高獎(jiǎng)勵(lì)的技能;谀P偷囊(guī)劃方法具有很高的樣本效率并無需額外的訓(xùn)練。相較于先前的方法是一個(gè)重要的進(jìn)步,無需針對學(xué)習(xí)到的技能在環(huán)境中進(jìn)行額外的訓(xùn)練。
利用智能體發(fā)現(xiàn)的技能,就可以在無需額外實(shí)驗(yàn)的情況下遍歷任意檢查點(diǎn)。上圖顯示了主體在檢查點(diǎn)間的遍歷情況。
真實(shí)實(shí)驗(yàn)
為了驗(yàn)證算法的有效性,研究人員針對這一算法提出了簡化版本off-DADS,通過離線學(xué)習(xí)對算法和系統(tǒng)上的改進(jìn),使得模型可以利用從不同策略下收集的數(shù)據(jù)來改進(jìn)當(dāng)前策略。特別是對于先前數(shù)據(jù)的復(fù)用將顯著提升強(qiáng)化學(xué)習(xí)算法的樣本效率。在改進(jìn)的離線策略基礎(chǔ)上,研究人員從隨機(jī)初始化策略開始訓(xùn)練了小四足機(jī)器人,在沒有任何環(huán)境獎(jiǎng)勵(lì)和手工探索策略的情況下,通過DADS定義的內(nèi)部獎(jiǎng)勵(lì)實(shí)現(xiàn)了多種步態(tài)和方向性運(yùn)動。
這種新穎的非監(jiān)督學(xué)習(xí)技能發(fā)現(xiàn)方法可以在將來被用于更為廣泛的真實(shí)世界任務(wù)中,在最小化人類工作的情況下適應(yīng)廣泛場景和任務(wù)需求。未來研究人員們將在狀態(tài)表示和技能發(fā)現(xiàn)間進(jìn)行更為深入的研究,并探索將高級的運(yùn)動規(guī)劃和底層的控制進(jìn)行分離的技能探索策略。如果想要了解詳細(xì)信息,

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報(bào)名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬億刺激”計(jì)劃來了
- 6 2025年8月人工智能投融資觀察
- 7 8 a16z最新AI百強(qiáng)榜:硅谷頂級VC帶你讀懂全球生成式AI賽道最新趨勢
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬套HSD上車