12.下列哪一種類型資料,適合使用資料增益(Information Gain, IG)進行特
徵選取(Feature Selection)?
(A) 擁有大量不同數值的資料特徵
(B) 名目(Nominal)的資料特徵
(C) 非離散化的數值特徵
(D) 連續型的數值
答案:登入後查看
統計: A(9), B(37), C(4), D(3), E(0) #3103437
統計: A(9), B(37), C(4), D(3), E(0) #3103437
詳解 (共 1 筆)
#6324662
(B) 名目(Nominal)的資料特徵
解析:
資料增益 (Information Gain, IG) 是一種常用的特徵選取 (Feature Selection) 方法,主要基於熵 (Entropy) 來衡量某個特徵對於分類結果的重要性。
IG 最適用於 離散型類別資料 (Categorical Data),例如名目 (Nominal) 資料。
選項分析
❌ (A) 擁有大量不同數值的資料特徵 ❌不適合
- 若特徵值是連續數值,且不同值數量過多,IG 可能會傾向選擇那些擁有最多唯一值的特徵,但這不代表它是最有價值的特徵。
- 此時應該考慮使用卡方檢定 (Chi-square Test) 或 F 值 (ANOVA F-score) 來進行特徵選取。
✅ (B) 名目(Nominal)的資料特徵 ✅適合
- IG 主要用於處理類別型 (Categorical) 資料,如名目數據,例如:
- 「天氣」特徵:{晴天、雨天、陰天}
- 「顧客類別」:{VIP, 普通, 新客}
- 名目數據是離散型數據,因此適合 IG 作為特徵選取方法。
❌ (C) 非離散化的數值特徵 ❌不適合
- IG 主要用於離散數據,對於未離散化的數值特徵 (如年齡、收入),IG 不適用。
- 若要處理連續數值特徵,通常需要先進行離散化 (Discretization),或者使用其他方法,如 Gini 指數 (Gini Index) 或 F-score。
❌ (D) 連續型的數值特徵 ❌不適合
- IG 不適合直接處理連續數據,因為它是基於離散化的熵計算,必須先將連續數據轉換為離散區間 (Binning/Discretization),才可使用 IG 進行特徵選取。
- 如果數據是連續型,可以使用 Mutual Information (互信息) 或 ANOVA F-score 來選取特徵。
結論
✔ 最適合使用資料增益 (Information Gain) 進行特徵選取的選項是 (B) 名目(Nominal)的資料特徵,因為 IG 主要用於離散型類別數據的特徵選取。
0
0