15.關於特徵(屬性)萃取(Feature Extraction)與轉換(Transformation),下 列敘述哪一項正確?
(A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction)
(B) 屬性越多,表示後續建模有越多參數要調校,過度配適(Overfitting)的 風險越低
(C) 各屬性的量綱均一化屬於屬性萃取(Extraction)的工作
(D) 主成分分析(Principal Component Analysis, PCA)是分佈偏斜屬性常用的 轉換方法

答案:登入後查看
統計: A(32), B(7), C(4), D(7), E(0) #3103440

詳解 (共 1 筆)

#6324667

(A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction) ✅ 正確

解析:

特徵(屬性)萃取(Feature Extraction)與轉換(Feature Transformation)資料預處理 (Data Preprocessing) 的重要步驟,幫助減少維度、提高建模效率並降低過擬合風險。

特徵工程 (Feature Engineering) 包括:

  1. 屬性挑選 (Feature Selection):從原始數據中選擇最有影響力的特徵,不改變特徵的原始形式。例如:

    • 資料增益 (Information Gain)
    • 卡方檢定 (Chi-Square Test)
    • L1 正則化 (LASSO Regression)
  2. 屬性萃取 (Feature Extraction):將原始數據轉換為新的特徵,通常降低維度。例如:

    • 主成分分析 (PCA)
    • 獨立成分分析 (ICA)
    • 線性判別分析 (LDA)

選項分析

(A) 資料縮減泛指屬性挑選(Selection)與萃取(Extraction) ✅ 正確

  • 資料縮減 (Dimensionality Reduction) 確實包含特徵挑選 (Selection) 和特徵萃取 (Extraction)
  • 特徵挑選 (Feature Selection) 是選擇最重要的特徵,不改變原始特徵。
  • 特徵萃取 (Feature Extraction) 是用數學方法轉換數據,例如 PCA、ICA、LDA。

(B) 屬性越多,表示後續建模有越多參數要調校,過度配適(Overfitting)的風險越低 ❌錯誤

  • 事實上,屬性越多,參數越多,過度配適 (Overfitting) 的風險越高
  • 因為模型可能會過度擬合訓練數據,而無法泛化到測試數據。
  • 高維度問題 (Curse of Dimensionality) 會導致訓練難度增加,數據稀疏化,導致模型表現下降。

(C) 各屬性的量綱均一化屬於屬性萃取(Extraction)的工作 ❌錯誤

  • 量綱均一化 (Normalization / Standardization) 屬於特徵轉換 (Feature Transformation),而不是特徵萃取 (Feature Extraction)
  • 標準化 (Standardization):將數據轉換為均值為 0、標準差為 1 的分佈 (Z-score Normalization)。
  • 正規化 (Normalization):將數據縮放到特定範圍 (如 [0,1])。

(D) 主成分分析(PCA)是分佈偏斜屬性常用的轉換方法 ❌錯誤

  • PCA 是用來降維的,不是專門用來處理偏斜分佈 (Skewed Distribution) 的方法
  • 處理偏斜分佈的方法
    • 對數轉換 (Log Transformation)
    • Box-Cox 轉換
    • Yeo-Johnson 轉換
    • Z-score 標準化

結論

正確答案是 (A),因為資料縮減 (Dimensionality Reduction) 包括屬性挑選 (Selection) 和屬性萃取 (Extraction)。

ㅤㅤ
0
0