資料科學家第二週

分類問題與決策樹

編號 貸款 婚姻狀況 應稅收入 違約
屬性集(x1) 屬性集(x2) 屬性集(x3) 類別(y)
1 單身 125K
2 已婚 100K
3 單身 70K
4 已婚 120K
5 離異 95K
6 已婚 60K
7 離異 220K
8 單身 85K
9 已婚 75K
10 單身 90K

分類問題的input output

分類問題最主要目標為,利用這些輸入的屬性集x,透過分類的模型 ( 決策樹 or K最近鄰法 or SVM or 類神經網路 .etc) 來幫助顧客或分析師預測出這筆資料最後的類別y,即 F(X) → Y

分類三步驟

  1. 取得資料完整的訓練資料集
  2. 建立分類模型 ( 分類技術 )
  3. 分類樹/決策樹 ( Classification Tree / Decision Tree )
  4. K最近鄰近點分類法 ( K-Nearest Neighbor )
  5. 類神經網路
  6. 原始貝氏模型與貝氏網路
  7. 支援向量機
  8. 使用測試資料集去驗證分類模型的正確率

決策樹的建構

  1. 使用 Hunt's 演算法 來建構二元樹or多元樹
  2. 如果D{t}為空集合,則t為標記預設Y{d}的葉節點
  3. 如果D{t}包含了相同的類別,則t為標記Y{t}的葉節點
  4. 如果D{t}包含超過一種類別,將會再使用其他變數切分為更小的子集合,重複此動作,直到D{t}裡只有一種類別
  5. 決策樹的特性
  6. 使用不同的變數順序,會導致不同結構的樹
  7. 不同結構的樹,會有不同的效益
    • 正確率不同
    • 速度不同
    • 決策樹的分析規則、解釋不同
  8. 所以要在建構樹之前找到好的變數順序
  9. 變數順序必須完全排列組合完畢才能找到最佳解 ( 三種變數,則有 3! 種排列組合 )
  10. 使用指標 ( 亂度 )
  11. 吉尼係數 ( Gini Index )

    此項係數愈大,表示所得分配不均等的程度愈高,反之,係數愈小,表示不均等的程度愈低

  12. 吉尼係數的分割 ( Split Gini index )

    追求同類別資料個數較大較純的分割,各自算完各自的節點亂度,然後乘上數量權重,就是最後的亂度

依照屬性集內之變數以特定的順序,一個一個套入Hunt's演算法,並建構出決策樹,變數的先後排序將影響到整體決策樹之效益,故使用指標來判定變數之順序 1. 選擇變數 2. 計算指標 3. 建構決策樹

補充

順序尺度

資料本身為有序性資料 順序尺度內的離散型變數: - 我醜醜 < 我普普 < 我好帥 - 好酸 < 略酸 < 普通 < 微甜 < 好甜 非順序尺度內的離散型變數: - 豪華型車、家庭型車、運動型車 - 圓形、方形、三角形、橢圓形、多邊形 * 順序尺度內的連續型變數: - 1 < 2 < 3 < 4 - 90K < 100K < 120K < 125K < 220K

計算吉尼係數(名目變數) 計算吉尼係數2(名目變數) 介武的學習筆記簿