123,123,123

當前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

Python數(shù)據(jù)科學：決策樹

2019-04-15 11:58

Python進階學習交流

決策樹呈樹形結構，是一種基本的回歸和分類方法。

決策樹模型的優(yōu)點在于可讀性強、分類速度快。

下面通過從「譯學館」搬運的兩個視頻，來簡單了解下決策樹。

最后來實戰(zhàn)一波，建立一個簡單的決策樹模型。

／ 01 ／決策樹算法

本次主要涉及兩類決策樹，Quinlan系列決策樹和CART決策樹。

前者涉及的算法包括ID3算法、C4．5算法及C5．0算法，后者則是CART算法。

前者一系列算法的步驟總體可以概括為建樹和剪樹。

在建樹步驟中，首先選擇最有解釋力度的變量，接著對每個變量選擇最優(yōu)的分割點進行剪樹。

剪樹，去掉決策樹中噪音或異常數(shù)據(jù)，在損失一定預測精度的情況下，能夠控制決策樹的復雜度，提高其泛化能力。

在剪樹步驟中，分為前剪枝和后剪枝。

前剪枝用于控制樹的生成規(guī)模，常用方法有控制決策樹最大深度、控制樹中父結點和子結點的最少樣本量或比例。

后剪枝用于刪除沒有意義的分組，常用方法有計算結點中目標變量預測精度或誤差、綜合考慮誤差與復雜度進行剪樹。

此外在ID3算法中，使用信息增益挑選最有解釋力度的變量。

其中信息增益為信息熵減去條件熵得到，增益越大，則變量的影響越大。

C4．5算法則是使用信息增益率作為變量篩選的指標。

CART算法可用于分類或數(shù)值預測，使用基尼系數(shù)（gini）作為選擇最優(yōu)分割變量的指標。

／ 02／ Python實現(xiàn)

慣例，繼續(xù)使用書中提供的數(shù)據(jù)。

一份汽車違約貸款數(shù)據(jù)集。

讀取數(shù)據(jù)，并對數(shù)據(jù)進行清洗處理。

import os

import pydotplus

import numpy as np

import pandas as pd

import sklearn．tree as tree

import matplotlib．pyplot as plt

from IPython．display import Image

import sklearn．metrics as metrics

from sklearn．tree import DecisionTreeClassifier

from sklearn．model＿selection import train＿test＿split， ParameterGrid， GridSearchCV

＃消除pandas輸出省略號情況

pd．set＿option（＇display．max＿columns＇， None）

＃設置顯示寬度為1000，這樣就不會在IDE中換行了

pd．set＿option（＇display．width＇， 1000）

＃讀取數(shù)據(jù)，skipinitialspace：忽略分隔符后的空白

accepts ＝ pd．read＿csv（＇accepts．csv＇， skipinitialspace＝True）

＃ dropna：對缺失的數(shù)據(jù)進行刪除

accepts ＝ accepts．dropna（axis＝0， how＝＇any＇）

＃因變量，是否違約

target ＝ accepts［＇bad＿ind＇］

＃自變量

data ＝ accepts．ix［：，＇bankruptcy＿ind＇：＇used＿ind＇］

＃業(yè)務處理，loan＿amt：貸款金額，tot＿income：月均收入

data［＇lti＿temp＇］＝ data［＇loan＿amt＇］／ data［＇tot＿income＇］

data［＇lti＿temp＇］＝ data［＇lti＿temp＇］．map（lambda x： 10 if x ＞＝ 10 else x）

＃刪除貸款金額列

del data［＇loan＿amt＇］

＃替換曾經(jīng)破產(chǎn)標識列

data［＇bankruptcy＿ind＇］＝ data［＇bankruptcy＿ind＇］．replace（｛＇N＇： 0，＇Y＇： 1｝）

接下來使用scikit－learn將數(shù)據(jù)集劃分為訓練集和測試集。

＃使用scikit－learn將數(shù)據(jù)集劃分為訓練集和測試集

train＿data， test＿data， train＿target， test＿target ＝ train＿test＿split（data， target， test＿size＝0．2， train＿size＝0．8， random＿state＝1234）

初始化一個決策樹模型，使用訓練集進行訓練。

采用基尼系數(shù)作為樹的生長依據(jù)，樹的最大深度為3，每一類標簽的權重一樣。

＃初始化一個決策樹模型

clf ＝ DecisionTreeClassifier（criterion＝＇gini＇， max＿depth＝3， class＿weight＝None， random＿state＝1234）

＃輸出決策樹模型信息

print（clf．fit（train＿data， train＿target））

輸出的模型信息如下。

對生成的決策樹模型進行評估。

＃輸出決策樹模型的決策類評估指標

print（metrics．classification＿report（test＿target， clf．predict（test＿data）））

＃對不同的因變量進行權重設置

clf．set＿params（＊＊｛＇class＿weight＇：｛0： 1， 1： 3｝｝）

clf．fit（train＿data， train＿target）

＃輸出決策樹模型的決策類評估指標

print（metrics．classification＿report（test＿target， clf．predict（test＿data）））

＃輸出決策樹模型的變量重要性排序

print（list（zip（data．columns， clf．feature＿importances＿）））

輸出如下。

可以看出對因變量標簽進行權重設置后，模型對違約用戶的f1－score（精確率和召回率的調和平均數(shù)）提高了，為0．46。

違約用戶被識別的靈敏度也從0．24提高到了0．46。

此外決策樹模型的變量重要性排序為「FICO打分」、「信用卡授權額度」、「貸款金額／建議售價＊100」。

1 2 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

999精品视频在这里

精品日韩国产无码一区二区国产一级毛片午夜福亚洲av永久无无码精品一区二区国产男女猛烈无遮掩免费视频