資料科學家第二週
分類問題與決策樹
- 當目標變數為離散型時則使用回歸分析
- 當目標變數為連續型時則使用分類決策
編號 | 貸款 | 婚姻狀況 | 應稅收入 | 違約 |
---|---|---|---|---|
屬性集(x1) | 屬性集(x2) | 屬性集(x3) | 類別(y) | |
1 | 是 | 單身 | 125K | 否 |
2 | 否 | 已婚 | 100K | 否 |
3 | 否 | 單身 | 70K | 否 |
4 | 是 | 已婚 | 120K | 否 |
5 | 否 | 離異 | 95K | 是 |
6 | 否 | 已婚 | 60K | 否 |
7 | 是 | 離異 | 220K | 否 |
8 | 否 | 單身 | 85K | 是 |
9 | 否 | 已婚 | 75K | 否 |
10 | 否 | 單身 | 90K | 是 |
分類問題的input output
分類問題最主要目標為,利用這些輸入的屬性集x,透過分類的模型 ( 決策樹 or K最近鄰法 or SVM or 類神經網路 .etc) 來幫助顧客或分析師預測出這筆資料最後的類別y,即 F(X) → Y
分類三步驟
- 取得資料完整的訓練資料集
- 建立分類模型 ( 分類技術 )
- 分類樹/決策樹 ( Classification Tree / Decision Tree )
- K最近鄰近點分類法 ( K-Nearest Neighbor )
- 類神經網路
- 原始貝氏模型與貝氏網路
- 支援向量機
- 使用測試資料集去驗證分類模型的正確率
決策樹的建構
- 使用 Hunt's 演算法 來建構二元樹or多元樹
- 如果D{t}為空集合,則t為標記預設Y{d}的葉節點
- 如果D{t}包含了相同的類別,則t為標記Y{t}的葉節點
- 如果D{t}包含超過一種類別,將會再使用其他變數切分為更小的子集合,重複此動作,直到D{t}裡只有一種類別
- 決策樹的特性
- 使用不同的變數順序,會導致不同結構的樹
- 不同結構的樹,會有不同的效益
- 正確率不同
- 速度不同
- 決策樹的分析規則、解釋不同
- 所以要在建構樹之前找到好的變數順序
- 變數順序必須完全排列組合完畢才能找到最佳解 ( 三種變數,則有 3! 種排列組合 )
- 使用指標 ( 亂度 )
- 吉尼係數 ( Gini Index )
此項係數愈大,表示所得分配不均等的程度愈高,反之,係數愈小,表示不均等的程度愈低
- 吉尼係數的分割 ( Split Gini index )
追求同類別資料個數較大較純的分割,各自算完各自的節點亂度,然後乘上數量權重,就是最後的亂度
依照屬性集內之變數以特定的順序,一個一個套入Hunt's演算法,並建構出決策樹,變數的先後排序將影響到整體決策樹之效益,故使用指標來判定變數之順序 1. 選擇變數 2. 計算指標 3. 建構決策樹
補充
順序尺度
資料本身為有序性資料 順序尺度內的離散型變數: - 我醜醜 < 我普普 < 我好帥 - 好酸 < 略酸 < 普通 < 微甜 < 好甜 非順序尺度內的離散型變數: - 豪華型車、家庭型車、運動型車 - 圓形、方形、三角形、橢圓形、多邊形 * 順序尺度內的連續型變數: - 1 < 2 < 3 < 4 - 90K < 100K < 120K < 125K < 220K