15.關於特徵(屬性)萃取(Feature Extraction)與轉換(Transformation),下
列敘述哪一項正確?
(A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction)
(B) 屬性越多,表示後續建模有越多參數要調校,過度配適(Overfitting)的
風險越低
(C) 各屬性的量綱均一化屬於屬性萃取(Extraction)的工作
(D) 主成分分析(Principal Component Analysis, PCA)是分佈偏斜屬性常用的
轉換方法
答案:登入後查看
統計: A(32), B(7), C(4), D(7), E(0) #3103440
統計: A(32), B(7), C(4), D(7), E(0) #3103440
詳解 (共 1 筆)
#6324667
(A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction) ✅ 正確
解析:
特徵(屬性)萃取(Feature Extraction)與轉換(Feature Transformation) 是資料預處理 (Data Preprocessing) 的重要步驟,幫助減少維度、提高建模效率並降低過擬合風險。
特徵工程 (Feature Engineering) 包括:
-
屬性挑選 (Feature Selection):從原始數據中選擇最有影響力的特徵,不改變特徵的原始形式。例如:
- 資料增益 (Information Gain)
- 卡方檢定 (Chi-Square Test)
- L1 正則化 (LASSO Regression)
-
屬性萃取 (Feature Extraction):將原始數據轉換為新的特徵,通常降低維度。例如:
- 主成分分析 (PCA)
- 獨立成分分析 (ICA)
- 線性判別分析 (LDA)
選項分析
✅ (A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction) ✅ 正確
- 資料縮減 (Dimensionality Reduction) 確實包含特徵挑選 (Selection) 和特徵萃取 (Extraction)。
- 特徵挑選 (Feature Selection) 是選擇最重要的特徵,不改變原始特徵。
- 特徵萃取 (Feature Extraction) 是用數學方法轉換數據,例如 PCA、ICA、LDA。
❌ (B) 屬性越多,表示後續建模有越多參數要調校,過度配適(Overfitting)的風險越低 ❌錯誤
- 事實上,屬性越多,參數越多,過度配適 (Overfitting) 的風險越高。
- 因為模型可能會過度擬合訓練數據,而無法泛化到測試數據。
- 高維度問題 (Curse of Dimensionality) 會導致訓練難度增加,數據稀疏化,導致模型表現下降。
❌ (C) 各屬性的量綱均一化屬於屬性萃取(Extraction)的工作 ❌錯誤
- 量綱均一化 (Normalization / Standardization) 屬於特徵轉換 (Feature Transformation),而不是特徵萃取 (Feature Extraction)。
- 標準化 (Standardization):將數據轉換為均值為 0、標準差為 1 的分佈 (Z-score Normalization)。
- 正規化 (Normalization):將數據縮放到特定範圍 (如 [0,1])。
❌ (D) 主成分分析(PCA)是分佈偏斜屬性常用的轉換方法 ❌錯誤
- PCA 是用來降維的,不是專門用來處理偏斜分佈 (Skewed Distribution) 的方法。
- 處理偏斜分佈的方法:
- 對數轉換 (Log Transformation)
- Box-Cox 轉換
- Yeo-Johnson 轉換
- Z-score 標準化
結論
✔ 正確答案是 (A),因為資料縮減 (Dimensionality Reduction) 包括屬性挑選 (Selection) 和屬性萃取 (Extraction)。
ㅤㅤ
0
0