資料科學家第四週

「尺度」的回顧複習與定義加深

注意! ID : 定義資料的唯一編號:此為名目尺度

資料的身分證

決策樹常見的三大演算法

CART (Classification And Regression Tree)

ID3 (Iterative Dichotomiser 3)

C4.5

決策樹演算法在 WEKA 上的實作

Test Options

極端案例 Leave one out

Cross Validation

Classifier output

項目 說明
Scheme 使用的演算法
Relation 使用的資料集
Instances 資料集內的資料筆數
Attributes 資料集內的變數總數、清單列表
Test mode 使用的測試選項 (Test option)
項目 說明
tree 文字模式下的樹狀圖 (略)
Number of Leaves 葉子數量 (無子葉的終結點)
Size of the tree 所有節點數量 (包含root、all parent、all child)
Time taken to build model 使用訓練資料集的建模耗費時間(秒)
項目 說明
Time taken to test model on training split 使用測試資料集的驗證耗費時間(秒)
項目 說明
Correctly Classified Instances 分類正確數量、分類正確率
Incorrectly Classified Instances 分類錯誤數量、分類錯誤率
Kappa statistic
Mean absolute error
Root mean squared error
Relative absolute error
Root relative squared error
Total Number of Instances
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
? ? ? ? ? ? ? ? 是 True
? ? ? ? ? ? ? ? 否 False
Weighted Avg. ? ? ? ? ? ? ? ?
a b <-- classified as
245 29 a
17 309 b
> * 決策樹認為是 a 類別而資料確實是 a 類別的數量有 245 筆
* 決策樹認為是 b 類別而資料實際是 a 類別的數量有 29 筆
* 決策樹認為是 a 類別而資料實際是 b 類別的數量有 17 筆
* 決策樹認為是 b 類別而資料確實是 b 類別的數量有 309 筆
> > 取 Confusion Matrix 計算絕對值,值越大表示樹越好,值越小表示樹越差

Result list (right-click for options)

時間 建模技術 演算法
範例1 17:33:24 tree J48
解讀1 下午五點半 使用分類樹 C4.5用JAVA語言所寫的第八個版本
項目 說明
View in main window
View in separate window
Save result buffer
Delete result buffer
--- ---
Load model 讀取建立好的模型
Save model 儲存建立好的模型
Re-evaluate model on current test set 用現在現有的這個模型,重新的去評估跟測試新的測試資料集
Re-apply this model's configuration
--- ---
Visualize classsifier errors
Visualize tree
Visualize margin curve
Visualizethreshold curve
CosstBenefit analysis
Visualize cost curve

補充與注意事項