40. 特徵萃取(Feature Extraction)是指將原始資料的屬性進行結合,以產生新的代理變數(Surrogate Variables)。下列常用的降維方法中,何者 屬於特徵萃取的方式?
(A) 低變異過濾(Low Variance Filter)
(B) 多維尺度分析(Multidimensional Scaling)
(C) 隨機森林(Random Forests)
(D) 高相關過濾(High Correlation Filter)

答案:登入後查看
統計: A(0), B(9), C(2), D(0), E(0) #3219174

詳解 (共 1 筆)

#6332658

解析各選項,找出屬於「特徵萃取(Feature Extraction)」的方法:

特徵挑選(Feature Selection) vs. 特徵萃取(Feature Extraction)

  • 特徵挑選(Feature Selection)

    • 目標:從原始變數中「挑選」最具代表性的變數,移除冗餘或無效變數,不改變變數的結構
    • 例如:高相關過濾(High Correlation Filter)、低變異過濾(Low Variance Filter)、LASSO。
  • 特徵萃取(Feature Extraction)

    • 目標:將原始變數轉換成新的變數,這些新變數(代理變數, Surrogate Variables)可能無法直接對應到原始變數,但可以保留數據的關鍵資訊。
    • 例如:主成分分析(PCA)、多維尺度分析(MDS)、非負矩陣分解(NMF)

選項分析

(A) 低變異過濾(Low Variance Filter)

  • 錯誤(屬於特徵挑選)
  • 低變異過濾 用於篩選出變異數極小的變數(例如標準差接近 0 的變數),因為這些變數對分類或回歸問題貢獻較小。
  • 這是屬於 Feature Selection(特徵挑選),而非 Feature Extraction(特徵萃取)

(B) 多維尺度分析(Multidimensional Scaling, MDS)

  • 正確(屬於特徵萃取)
  • 多維尺度分析(MDS)是一種特徵萃取方法,會將高維度的資料嵌入低維空間,例如:
    • 將資料從 10 維降到 2 維,以利於視覺化。
    • 根據資料點間的距離或相似性來計算新變數。
  • 這是一種典型的降維技術,屬於特徵萃取(Feature Extraction)

(C) 隨機森林(Random Forests)

  • 錯誤(不屬於降維方法)
  • 隨機森林(Random Forests)是監督式學習模型,主要用於分類與迴歸,並非降維技術。
  • 雖然隨機森林可透過「特徵重要性(Feature Importance)」來選擇變數,但這屬於特徵挑選(Feature Selection),而非特徵萃取(Feature Extraction)。
  • 因此不符合本題要求。

(D) 高相關過濾(High Correlation Filter)

  • 錯誤(屬於特徵挑選)
  • 高相關過濾(High Correlation Filter) 會計算變數之間的相關性,並移除那些高度相關的變數,以減少冗餘資訊。
  • 這是 Feature Selection,而非 Feature Extraction,因為它只是刪除變數,而不會創造新的代理變數。

結論

正確答案(屬於特徵萃取):
(B) 多維尺度分析(Multidimensional Scaling, MDS)

錯誤選項(屬於特徵挑選或非降維技術):

  • (A) 低變異過濾(Feature Selection)
  • (C) 隨機森林(非降維技術)
  • (D) 高相關過濾(Feature Selection)

? 本題正確答案:「(B)」

0
0