資料科學家第一週

資料分類

找出資料點之間的關聯，資料點之間相近、相似的一群資料，會有群特性，如以下舉例

洗面乳+毛巾

牙刷+洗面乳->牙膏

演算法原則：群內距離最小化 群間距離最大化

報告老師，問題搞定了我注意到其實 runweka.ini 內的註解就有寫道以下，並照著做更改即可

The file encoding; use "utf-8" instead of "Cp1252" to display UTF-8 characters in the GUI, e.g., the Explorer fileEncoding=utf-8

做完以上設定後，WEKA 將以 utf-8 的格式來讀取檔案，即可正確讀取中文檔如下圖

notepad儲存

然而我們在製作 .arff 檔的時候要注意也要記得在儲存時也必須以 utf-8 的格式做儲存我使用的編輯器 notepad++ 預設就是使用 utf-8 做編碼儲存檔案但若是使用 windows 內建的筆記本，就要在儲存檔案時手動更改編碼方式將預設的 ANSI 改成 UTF-8，如下圖所示

筆記本儲存

優點：使用 utf-8 後，萬國碼可暢行無阻，例如日文

筆記本儲存