分類(lei),就(jiu)是確定(ding)某個對象屬于哪(na)個預定(ding)義的目標類(lei)的過(guo)程。
在機(ji)器(qi)學習中,分類(lei)法(fa)有很多(duo)種,比如(ru)決策樹分類(lei)法(fa)、基于規則的(de)分類(lei)法(fa)、神經網絡、支持(chi)向量機(ji)和樸(pu)素貝葉斯分類(lei)法(fa),等(deng)等(deng)。
而決策樹(shu)是最常見(jian)的(de)一種簡單(dan)卻廣泛使用的(de)分(fen)類技術。
決策樹(shu),是一種(zhong)樹(shu)形結(jie)構(gou),其(qi)中(zhong)每(mei)個(ge)(ge)(ge)節(jie)點表示一個(ge)(ge)(ge)屬(shu)(shu)性,每(mei)個(ge)(ge)(ge)分支代(dai)表屬(shu)(shu)性的(de)取值,每(mei)個(ge)(ge)(ge)葉節(jie)點代(dai)表一種(zhong)類別。
第(di)一步:選擇一個(ge)屬性,構造根節點(dian)
比如選擇“月(yue)收入(ru)”構造根節點(dian)(dian),其(qi)中“月(yue)收入(ru)”有(you)三個(ge)取舍{低、中、高},因此根節點(dian)(dian)有(you)三個(ge)分支,這樣,形成3個(ge)子結點(dian)(dian)(也就是有(you)3個(ge)子類別)。
如(ru)下圖(tu)所示,根(gen)節點中的數據(ju)表示,總共(gong)(gong)有14個人(ren),其中違約用(yong)戶(hu)5個,按照“月收入”進行分類,可以分成3個子類別,其中“收入低”的類別共(gong)(gong)有5個人(ren),其中違約用(yong)戶(hu)3個;“收入中”的用(yong)戶(hu)共(gong)(gong)有4人(ren),沒有人(ren)違約。
第(di)二步:對于不純的子節點,選擇一個(ge)屬性繼續生(sheng)長
對于“收入中(zhong)”子節(jie)(jie)點,只(zhi)有(you)一(yi)種用(yong)戶(hu)(非違約用(yong)戶(hu)),因此子節(jie)(jie)點是純的節(jie)(jie)點,不需要(yao)繼續生長了。
對(dui)于“收入(ru)低”子節(jie)點,違(wei)約用(yong)戶和非違(wei)約用(yong)戶都有,屬(shu)于不(bu)純節(jie)點,因此還(huan)需(xu)要(yao)繼續生長。
在“收(shou)入低(di)”子節點(dian)中,選擇一個(ge)(ge)屬性(xing)“性(xing)別(bie) ”繼續生(sheng)長(chang),性(xing)別(bie)有(you)2個(ge)(ge)取值{男(nan)、女},因此子結點(dian)可以(yi)分解為2個(ge)(ge)子節點(dian)。“收(shou)入低(di)、男(nan)性(xing)”子節點(dian)中共有(you)3個(ge)(ge)人(ren),全部是違約(yue)用戶(hu);“收(shou)入低(di)、女性(xing)”子節點(dian)共有(you)2個(ge)(ge)人(ren),全部都(dou)不(bu)是違約(yue)用戶(hu)。
類似(si)地,對于“收入高“的子(zi)(zi)節點,選擇“行業(ye)”屬性進行生長,也得到2個子(zi)(zi)節點。
決(jue)策樹:構(gou)造(zao)決(jue)策樹,實現分(fen)類預(yu)測
第三步:停止(zhi)決策樹的(de)生(sheng)長
如上圖所(suo)示,當所(suo)有的子結點都滿足了停(ting)止生長的條件(比如所(suo)有子結點都是(shi)純(chun)的),決策(ce)樹(shu)就算完(wan)成了。
此時,所(suo)有(you)的葉結點就是決策樹的分類類別。
第四步:評估分類(lei)質量
決策(ce)樹構(gou)造好(hao)之(zhi)后,需要(yao)評估(gu)模型的好(hao)壞(質量)。
一般采用查準率和查全率來衡(heng)量(liang)模型(xing)的好壞,如(ru)上例所示(shi)。
查準率(lv):總共有14個(ge)人,模(mo)型(xing)分類正確的有14個(ge)人,即查準率(lv)為(wei)100%。
查(cha)(cha)(cha)全(quan)率:總(zong)共有5個(ge)人違約,模型查(cha)(cha)(cha)出(chu)來的也是5個(ge)人,即查(cha)(cha)(cha)全(quan)率為100%。
查準率和查全率都比較(jiao)高,說明(ming)模型比較(jiao)好,可用。
第(di)五步:提(ti)取“違約用(yong)戶(hu)”的特征
我們將有違約用(yong)戶的葉結(jie)點用(yong)背景色(se)標識(shi)出來,可以(yi)發現那些違約用(yong)戶的特征(zheng):
1) 月收(shou)入(ru)低,且性別為男;
2) 月收入高,且在(zai)皮具行業(ye)工(gong)作。
第六步:預測(ce)新用(yong)戶預測(ce)
當決策(ce)樹模型構造(zao)好以后,就可以用來進行預測(ce)。
當一個新(xin)的(de)申請貨款(kuan)的(de)用戶來貨款(kuan)時,可(ke)以根據決策(ce)樹模型,來評估用戶最有可(ke)能屬于哪一個節點(dian)(dian),如果新(xin)用戶所屬葉節點(dian)(dian)的(de)違(wei)約風險極高,則應該拒絕給新(xin)用戶貨款(kuan);否則可(ke)以進行(xing)放貨。
決策(ce)樹的構(gou)造(zao),理解起(qi)來是很簡單的。而(er)且,容易生成(cheng)或提取可(ke)識(shi)別的類別特征。
當然,其背后的(de)(de)實現算法(fa)還有很多需要思考(kao)的(de)(de),比(bi)如(ru)應該選(xuan)擇哪個屬性來進行生長?屬性的(de)(de)分支(zhi)取值如(ru)何確定?決(jue)策樹生長的(de)(de)停(ting)止條件如(ru)何確定?這些內容對于開發者(zhe)和算法(fa)設計(ji)者(zhe)很重要,請關注(zhu)我(wo)后續的(de)(de)文章。
轉載://citymember.cn/zixun_detail/111850.html