人工智能之強(qiáng)化學(xué)習(xí)(RL)
當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類:1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-supervised Learning),4)深度學(xué)習(xí)(Deep Learning),5)強(qiáng)化學(xué)習(xí)(Reinforcement Learning),6)遷移學(xué)習(xí)(Transfer Learning),7)其他(Others)。
今天我們重點(diǎn)探討一下強(qiáng)化學(xué)習(xí)(RL)。
強(qiáng)化學(xué)習(xí)(RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。
那么什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進(jìn)行學(xué)習(xí)。通過這種方式,RLS在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改動(dòng)方案以適應(yīng)環(huán)境。
通俗的講,就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷茫或困惑時(shí),如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎(jiǎng)勵(lì)或鼓勵(lì));否則就給他(她)負(fù)反饋(教訓(xùn)或懲罰),激勵(lì)小孩的潛能,強(qiáng)化他(她)自我學(xué)習(xí)能力,依靠自身的力量來主動(dòng)學(xué)習(xí)和不斷探索,最終讓他(她)找到正確的方法或思路,以適應(yīng)外部多變的環(huán)境。
強(qiáng)化學(xué)習(xí)有別于傳統(tǒng)的機(jī)器學(xué)習(xí),不能立即得到標(biāo)記,而只能得到一個(gè)反饋(獎(jiǎng)或罰),可以說強(qiáng)化學(xué)習(xí)是一種標(biāo)記延遲的監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來的。
強(qiáng)化學(xué)習(xí)原理:
如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。
強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程,Agent選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給Agent,Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。
若已知R/A梯度信息,則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)R與Agent產(chǎn)生的動(dòng)作A沒有明確的函數(shù)形式描述,所以梯度信息R/A無法得到。因此,在強(qiáng)化學(xué)習(xí)系統(tǒng)中,需要某種隨機(jī)單元,使用這種隨機(jī)單元,Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。
強(qiáng)化學(xué)習(xí)模型
強(qiáng)化學(xué)習(xí)模型包括下面幾個(gè)要素:
1) 規(guī)則(policy):規(guī)則定義了Agent在特定的時(shí)間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來表示。可以分為兩類:
確定性的policy(Deterministic policy): a=π(s)
隨機(jī)性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]
其中,t是時(shí)間點(diǎn),t=0,1,2,3,……
St∈S,S是環(huán)境狀態(tài)的集合,St代表時(shí)刻t的狀態(tài),s代表其中某個(gè)特定的狀態(tài);
At∈A(St),A(St)是在狀態(tài)St下的actions的集合,At代表時(shí)刻t的行為,a代表其中某個(gè)特定的行為。
2) 獎(jiǎng)勵(lì)信號(hào)(areward signal):Reward是一個(gè)標(biāo)量值,是每個(gè)time step中環(huán)境根據(jù)agent的行為返回給agent的信號(hào),reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。
3) 值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長(zhǎng)期的收益,它可以看作是累計(jì)的reward,常用v來表示。
4) 環(huán)境模型(a modelof the environment):整個(gè)Agent和Environment交互的過程可以用下圖來表示:
Agent作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境Environment的當(dāng)前狀態(tài)信息St,對(duì)環(huán)境采取試探行為At,并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動(dòng)作At導(dǎo)致環(huán)境Environment的正獎(jiǎng)賞(立即報(bào)酬),那么Agent以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,Agent產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在強(qiáng)化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)的方式不斷修改從狀態(tài)到動(dòng)作的映射策略,達(dá)到優(yōu)化系統(tǒng)性能目的。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬億刺激”計(jì)劃來了
- 6 2025年8月人工智能投融資觀察
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 a16z最新AI百強(qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 10 Manus跑路,大廠掉線,只能靠DeepSeek了