資料科學家第一週
資料分類
- 訓練資料集 - 用以分析出決策樹、模型
- 測試資料集 - 用以驗證決策樹與模型的準確性
編號 | 貸款 | 婚姻狀況 | 應稅收入 | 違約 |
---|---|---|---|---|
類別型變數 | 類別型變數 | 連續型變數 | 目標變數 | |
1 | 是 | 單身 | 125K | 否 |
2 | 否 | 已婚 | 100K | 否 |
3 | 否 | 單身 | 70K | 否 |
4 | 是 | 已婚 | 120K | 否 |
5 | 否 | 離異 | 95K | 是 |
6 | 否 | 已婚 | 60K | 否 |
7 | 是 | 離異 | 220K | 否 |
8 | 否 | 單身 | 85K | 是 |
9 | 否 | 已婚 | 75K | 否 |
10 | 否 | 單身 | 90K | 是 |
- 類別型尺度 = 名目尺度 = 離散型尺度
- 連續型尺度
- 目標變數 ( 可為類別型,也可為連續型,第二週有說明 )
資料分群
找出資料點之間的關聯,資料點之間相近、相似的一群資料,會有群特性,如以下舉例
洗面乳+毛巾
牙刷+洗面乳->牙膏
演算法原則: 群內距離最小化 群間距離最大化
WEKA 中文 UTF-8 說明
報告老師,問題搞定了 我注意到其實 runweka.ini 內的註解就有寫道以下,並照著做更改即可
The file encoding; use "utf-8" instead of "Cp1252" to display UTF-8 characters in the GUI, e.g., the Explorer fileEncoding=utf-8
做完以上設定後,WEKA 將以 utf-8 的格式來讀取檔案,即可正確讀取中文檔如下圖
然而我們在製作 .arff 檔的時候要注意也要記得在儲存時也必須以 utf-8 的格式做儲存 我使用的編輯器 notepad++ 預設就是使用 utf-8 做編碼儲存檔案 但若是使用 windows 內建的筆記本,就要在儲存檔案時手動更改編碼方式 將預設的 ANSI 改成 UTF-8,如下圖所示
結論
- 我們製作的資料檔案,存檔時要用 utf-8 存檔
- 使用 weka 讀取檔案時,要設定用 utf-8 來讀檔
優點:使用 utf-8 後,萬國碼可暢行無阻,例如日文