38. 屬性轉換(feature transformation)與資料縮減(data reduction)屬於資料前處理(data preprocessing)的重要工作,下列敘述何者正確?
(A) 樹狀模型、最小絕對值縮減和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO )、 多變量適應 性雲形迴歸 (Multivariate Adaptive Regression Splines, MARS)等算法內嵌有 變數選擇機制的方法,對於預測變數中的雜訊,或是無訊息力的 變數等較不敏感
(B) 偏最小平方法(Partial Least Squares, PLS)是非監督式的屬性萃取 (feature extraction)
(C) 最有效的變數編碼取決於數學技巧,無關於領域知識
(D) 資料前處理的需求都一樣,與後續建模所選用的模型種類無關

答案:登入後查看
統計: A(6), B(7), C(0), D(0), E(0) #3219422

詳解 (共 1 筆)

#6332789

解析各選項,找出「正確」的敘述

屬性轉換(Feature Transformation)與資料縮減(Data Reduction) 是機器學習中**資料前處理(Data Preprocessing)**的重要步驟,目標是:

  • 屬性轉換(Feature Transformation):對數據進行數學變換,如標準化(Standardization)、歸一化(Normalization)、對數變換(Log Transformation) 等,使其更適合模型訓練。
  • 資料縮減(Data Reduction):降維與變數選擇,如 PCA、LASSO、PLS、特徵選擇(Feature Selection),減少計算成本並提升模型效能。

選項分析

(A) 樹狀模型、最小絕對值縮減和選擇算子(LASSO)、多變量適應性雲形迴歸(MARS)等算法內嵌有變數選擇機制的方法,對於預測變數中的雜訊,或是無訊息力的變數等較不敏感

正確(本題答案)

  • LASSO(Least Absolute Shrinkage and Selection Operator)
    • 透過 L1 正則化(L1 Regularization),將不重要的變數係數縮為零,進行變數選擇。
  • 決策樹(Tree-based Models,如隨機森林、梯度提升機)
    • 會自動選擇最具影響力的變數,而不依賴數據縮放(Scaling)。
  • MARS(Multivariate Adaptive Regression Splines)
    • 自動選擇適合的特徵和交互項,並對無訊息的變數影響較小
  • 此選項描述的是內建變數選擇機制的演算法,能自動忽略無訊息的變數,確保模型更具穩健性,因此是正確答案。

(B) 偏最小平方法(Partial Least Squares, PLS)是非監督式的屬性萃取(Feature Extraction)

錯誤

  • PLS(Partial Least Squares)屬於監督式學習方法(Supervised Learning),並非非監督式學習(Unsupervised Learning)
    • PLS 透過回歸方法來尋找最能解釋 X(輸入變數)與 Y(目標變數) 之間關係的潛在因子。
    • 不同於 PCA(主成分分析,非監督式),PLS 在降維時會考慮目標變數 Y,因此是監督式屬性萃取方法
  • 錯誤點:PLS 是監督式學習,而不是非監督式學習。

(C) 最有效的變數編碼取決於數學技巧,無關於領域知識

錯誤

  • 變數編碼(Feature Encoding) 應該考慮數學技巧與領域知識的結合:
    • 例如,類別變數(Categorical Variables) 的編碼方式取決於其性質:
      • 有序類別(Ordinal Data) → 可用標籤編碼(Label Encoding)。
      • 無序類別(Nominal Data) → 應用 One-Hot Encoding 或 Target Encoding。
    • 特徵工程(Feature Engineering) 需要依據領域知識來選擇適合的變數轉換方式,如:
      • 醫療數據:某些數據需對數變換(Log Transformation)。
      • 金融數據:可能需標準化(Standardization)。
  • 錯誤點:數學技巧雖然重要,但最有效的變數編碼仍需考慮領域知識,並非完全數學決定。

(D) 資料前處理的需求都一樣,與後續建模所選用的模型種類無關

錯誤

  • 不同模型對資料前處理的需求不同,例如:
    • 梯度下降法(如 Logistic Regression、神經網路)
      • 需要 特徵縮放(Feature Scaling),如標準化(Standardization)或歸一化(Normalization)。
    • 決策樹、隨機森林、XGBoost
      • 不需要特徵縮放,因為這些模型對數值範圍不敏感。
    • 類別變數處理
      • 線性回歸與 SVM 可能需要 One-Hot Encoding。
      • 決策樹類模型 可以直接處理類別變數,不需要 One-Hot Encoding。
  • 錯誤點:資料前處理方式取決於所選的模型,並非所有模型都需要相同的前處理方式。

結論

正確選項(答案):

  • (A) 樹狀模型、LASSO、MARS 內建變數選擇機制,較不受無訊息變數影響

錯誤選項:

  • (B) PLS 是監督式學習,而非非監督式學習
  • (C) 變數編碼需要考慮領域知識,不只是數學技巧
  • (D) 資料前處理需求取決於模型種類,不是所有模型都相同

? 本題正確答案:「(A)」

0
0