資料科學家第一週

資料分類

編號 貸款 婚姻狀況 應稅收入 違約
類別型變數 類別型變數 連續型變數 目標變數
1 單身 125K
2 已婚 100K
3 單身 70K
4 已婚 120K
5 離異 95K
6 已婚 60K
7 離異 220K
8 單身 85K
9 已婚 75K
10 單身 90K

資料分群

找出資料點之間的關聯,資料點之間相近、相似的一群資料,會有群特性,如以下舉例

洗面乳+毛巾

牙刷+洗面乳->牙膏

演算法原則: 群內距離最小化 群間距離最大化

WEKA 中文 UTF-8 說明

報告老師,問題搞定了 我注意到其實 runweka.ini 內的註解就有寫道以下,並照著做更改即可

The file encoding; use "utf-8" instead of "Cp1252" to display UTF-8 characters in the GUI, e.g., the Explorer fileEncoding=utf-8

做完以上設定後,WEKA 將以 utf-8 的格式來讀取檔案,即可正確讀取中文檔如下圖

notepad儲存

然而我們在製作 .arff 檔的時候要注意也要記得在儲存時也必須以 utf-8 的格式做儲存 我使用的編輯器 notepad++ 預設就是使用 utf-8 做編碼儲存檔案 但若是使用 windows 內建的筆記本,就要在儲存檔案時手動更改編碼方式 將預設的 ANSI 改成 UTF-8,如下圖所示

筆記本儲存

結論

  1. 我們製作的資料檔案,存檔時要用 utf-8 存檔
  2. 使用 weka 讀取檔案時,要設定用 utf-8 來讀檔

優點:使用 utf-8 後,萬國碼可暢行無阻,例如日文

筆記本儲存