15. 當您在處理一批大型房地產交易資料時,發現某些數值型特 徵如房屋面積和房價等各樣本數值分佈偏斜不對稱。為了提升模型的效能及預測的精準度,您打算對這些特徵進行轉換。針對這類數據分佈偏斜的問題,下列哪一種調整方法最為適合?
(A) 獨熱編碼(One-Hot Encoding),將數值型特徵轉換 為類別型特徵後進行編碼
(B) 正規化(Normalization),將所有數據按比例縮放至 一定範圍,例如[0, 1]區間中
(C) 對數變換(Logarithmic Transformation),對數據進 行對數處理
(D) 主成份分析(Principal Components Analysis, PCA), 透過降維以簡化數據結構,並盡可能保留原數據的 變異性
(A) 獨熱編碼(One-Hot Encoding),將數值型特徵轉換 為類別型特徵後進行編碼
(B) 正規化(Normalization),將所有數據按比例縮放至 一定範圍,例如[0, 1]區間中
(C) 對數變換(Logarithmic Transformation),對數據進 行對數處理
(D) 主成份分析(Principal Components Analysis, PCA), 透過降維以簡化數據結構,並盡可能保留原數據的 變異性
答案:登入後查看
統計: A(0), B(7), C(13), D(1), E(0) #3323445
統計: A(0), B(7), C(13), D(1), E(0) #3323445
詳解 (共 1 筆)
#6329602
(C) 對數變換 (Logarithmic Transformation)
解析:
當數值型特徵如房屋面積和房價的分佈偏斜不對稱(通常是右偏分佈,skewed distribution),模型的效能可能會受到影響,因為大部分機器學習模型(如線性回歸)假設輸入數據為接近正態分佈。此時,常見的解決方法是對數變換 (Log Transform),因為它可以:
- 減少數據的偏斜程度,使其更接近正態分佈
- 降低極端值(outliers)的影響
- 讓數據在對數尺度下表現得更線性,提高模型效果
為何其他選項不適合?
-
(A) 獨熱編碼 (One-Hot Encoding) ❌
- 適用於類別型特徵,但房價、面積等是連續數據,不應該用獨熱編碼。
-
(B) 正規化 (Normalization) ❌
- **Normalization(最小-最大縮放 Min-Max Scaling)**適合將數據壓縮到 [0, 1] 範圍,但不能解決數據偏斜的問題。例如,極端值仍然會影響數據的分佈。
-
(D) 主成份分析 (PCA) ❌
- PCA 主要用於降維,在特徵數量過多的情況下減少維度,而不是修正數據的偏斜性。
0
0