人工智能之AdaBoost算法
前言:人工智能機(jī)器學(xué)習(xí)有關(guān)算法內(nèi)容,人工智能之機(jī)器學(xué)習(xí)主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點(diǎn)探討一下ID3算法。
Hunt、Marin、和 Stone于1966年研制了一個(gè)概念學(xué)習(xí)系統(tǒng)CLS, 可以學(xué)習(xí)單個(gè)概念,并用此學(xué)到的概念分類新的實(shí)例。John Ross Quinlan(悉尼大學(xué))于1983年研制了ID3算法。
ID3算法是決策樹的一種,它是基于奧卡姆剃刀原理的,即用盡量用較少的東西做更多的事。
ID3算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類。
ID3算法概念:
ID3(Iterative Dichotomiser 3),即迭代二叉樹3代,該算法是一種貪心算法,用來(lái)構(gòu)造決策樹【請(qǐng)參加人工智能(23)】。ID3算法起源于概念學(xué)習(xí)系統(tǒng)(CLS),以信息熵的下降速度為選取測(cè)試屬性的標(biāo)準(zhǔn),即在每個(gè)節(jié)點(diǎn)選取還尚未被用來(lái)劃分的具有最高信息增益的屬性作為劃分標(biāo)準(zhǔn),然后繼續(xù)這個(gè)過(guò)程,直到生成的決策樹能完美分類訓(xùn)練樣例。
ID3算法核心:
ID3算法核心是“信息熵”。ID3算法通過(guò)計(jì)算每個(gè)屬性的信息增益,認(rèn)為信息增益高的是好屬性,每次劃分選取信息增益最高的屬性為劃分標(biāo)準(zhǔn),重復(fù)這個(gè)過(guò)程,直至生成一個(gè)能完美分類訓(xùn)練樣例的決策樹。
ID3算法本質(zhì):
在信息論中,期望信息越小,那么信息增益就越大,從而純度就越高。ID3算法本質(zhì)是以信息增益來(lái)度量屬性的選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。該算法采用自頂向下的貪婪搜索遍歷可能的決策空間。
在決策樹的每一個(gè)非葉子結(jié)點(diǎn)劃分之前,先計(jì)算每一個(gè)屬性所帶來(lái)的信息增益,選擇最大信息增益的屬性來(lái)劃分,因?yàn)?strong>信息增益越大,區(qū)分樣本的能力就越強(qiáng),越具有代表性,很顯然這是一種自頂向下的貪心策略。
ID3算法步驟:
計(jì)算各屬性的信息增益,找出最大者為根節(jié)點(diǎn)
1)先驗(yàn)熵:沒有接收到其他屬性時(shí)的平均不確定性;
2)后驗(yàn)熵:接收到輸出符號(hào)Vj時(shí)關(guān)于信源的不確定性 ;
3)條件熵:對(duì)后驗(yàn)熵在輸出符號(hào)集V中求期望,接收到全部符號(hào)后對(duì)信源的不確定性 ;
4)信息增益:先驗(yàn)熵與條件熵的差,是信宿端所獲得信息量;
5)對(duì)剩余屬性重復(fù)上述步驟。
ID3算法計(jì)算每個(gè)屬性的信息增益,并選取具有最高增益的屬性作為給定集合的測(cè)試屬性。對(duì)被選取的測(cè)試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并以該節(jié)點(diǎn)的屬性標(biāo)記,對(duì)該屬性的每個(gè)值創(chuàng)建一個(gè)分支據(jù)此劃分樣本。
具體算法流程如下:
ID3優(yōu)點(diǎn):
1) 算法結(jié)構(gòu)簡(jiǎn)單;
2) 算法清晰易懂;
3) 非常靈活方便;
4) 不存在無(wú)解的危險(xiǎn);
5) 可以利用全部訓(xùn)練例的統(tǒng)計(jì)性質(zhì)進(jìn)行決策,從而抵抗噪音。
ID3缺點(diǎn):
1) 處理大型數(shù)據(jù)速度較慢,經(jīng)常出現(xiàn)內(nèi)存不足;
2) 不能處理連續(xù)型數(shù)據(jù),只能通過(guò)離散化將連續(xù)性數(shù)據(jù)轉(zhuǎn)化為離散型數(shù)據(jù);
3) 不可以并行,不可以處理數(shù)值型數(shù)據(jù);
4) 只適用于非增量數(shù)據(jù)集,不適用于增量數(shù)據(jù)集,可能會(huì)收斂到局部最優(yōu)解而非全局最優(yōu)解,最佳分離屬性容易選擇屬性值多一些的屬性;
5) 沒有對(duì)決策樹進(jìn)行剪枝處理,很可能會(huì)出現(xiàn)過(guò)擬合的問(wèn)題。
注: ID3(并行)和ID3(number)解決了缺點(diǎn)3)的2個(gè)問(wèn)題。
ID3應(yīng)用場(chǎng)景:
決策樹ID3算法是一個(gè)很有實(shí)用價(jià)值的示例學(xué)習(xí)算法,它的基礎(chǔ)理論清晰,算法比較簡(jiǎn)單,學(xué)習(xí)能力較強(qiáng),適于處理大規(guī)模的學(xué)習(xí)問(wèn)題,是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域中的一個(gè)很好的范例,為后來(lái)各學(xué)者提出優(yōu)化算法奠定了理論基礎(chǔ)。ID3算法特別在機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘等領(lǐng)域得到了極大發(fā)展。
結(jié)語(yǔ):
ID3算法是基本的決策樹構(gòu)建算法,作為決策樹經(jīng)典的構(gòu)建算法,具有算法結(jié)構(gòu)簡(jiǎn)單、理論清晰易懂、學(xué)習(xí)能力較強(qiáng)和靈活方便的特點(diǎn)。但也存在著不能處理連續(xù)型數(shù)據(jù),不適用于增量數(shù)據(jù)集,處理大型數(shù)據(jù)速度較慢,可能會(huì)出現(xiàn)過(guò)擬合等缺點(diǎn)。ID3算法在世界上廣為流傳,得到極大的關(guān)注。ID3算法特別在機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘等領(lǐng)域得到了極大發(fā)展。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 10 Manus跑路,大廠掉線,只能靠DeepSeek了