46. 下列何種統計機器學習方法,容許資料中存有遺缺值?
(A) 類神經網路(Artificial Neural Networks)
(B) 分類與迴歸樹(Classification and Regression Trees)
(C) K-近鄰法(K-Nearest Neighbors)
(D) 羅吉斯迴歸(Logistic Regression)

答案:登入後查看
統計: A(1), B(5), C(3), D(2), E(0) #3219180

詳解 (共 1 筆)

#6332668

解析各選項,找出容許資料中存有遺缺值(Missing Values)的機器學習方法:

在統計與機器學習方法中,多數演算法無法直接處理遺缺值(missing values),需要透過 刪除缺失資料補值(Imputation) 來解決。但部分演算法可以直接應對缺失值,例如決策樹類型的方法。

選項分析

(A) 類神經網路(Artificial Neural Networks, ANN)

  • 錯誤(不允許缺失值)
  • 神經網路演算法不允許直接輸入缺失值,因為:
    • 欠缺值會導致數值計算錯誤,如 梯度下降(Gradient Descent) 無法正常運作。
    • 必須先**使用補值方法(如均值填補、KNN 補值、插補)**來處理缺失值。
  • 因此,ANN 不適用於含有缺失值的原始數據。

(B) 分類與迴歸樹(Classification and Regression Trees, CART)

  • 正確(允許缺失值)
  • 決策樹(CART, Decision Trees)能夠直接處理缺失值,方法包括
    • 基於變數分裂機制,忽略遺缺值的變數,並選擇替代變數進行分類。
    • 使用代理變數(Surrogate Splitting),如果主要變數缺失,則使用相關變數代替。
  • 因此,決策樹能夠容忍缺失值,這是正確答案。

(C) K-近鄰法(K-Nearest Neighbors, KNN)

  • 錯誤(不允許缺失值,需補值)
  • KNN 依賴距離計算(如歐幾里得距離、曼哈頓距離),若數據有缺失值,則無法計算距離。
  • 在應用 KNN 時,通常需要:
    • 用均值、眾數、中位數補值
    • 使用 KNN 自身補值方法(KNN Imputation)
  • 因此,KNN 不允許直接處理缺失值。

(D) 羅吉斯迴歸(Logistic Regression)

  • 錯誤(不允許缺失值)
  • 羅吉斯迴歸是一種基於數學公式的線性模型,無法處理遺缺值
    • 缺失值會導致無法計算對數機率(log-odds),影響模型收斂。
    • 需要補值(Imputation) 來填補遺缺值,否則無法訓練模型。
  • 因此,羅吉斯迴歸不允許直接處理缺失值。

結論

正確答案(允許缺失值)
(B) 分類與迴歸樹(Classification and Regression Trees, CART)

錯誤選項(不允許缺失值):

  • (A) 類神經網路(需要補值)
  • (C) K-近鄰法(需要補值)
  • (D) 羅吉斯迴歸(需要補值)

? 本題正確答案:「(B)」

0
0