15. 當您在處理一批大型房地產交易資料時，發現某些數值型特徵如房屋面積和房價等各樣本數值分佈偏斜不對稱。為了提升模型的效能及預測的精準度，您打算對這些特徵進行轉換。針對這類數據分佈偏斜的問題，下列哪一種調整方法最為適合？
(A) 獨熱編碼(One-Hot Encoding)，將數值型特徵轉換為類別型特徵後進行編碼
(B) 正規化(Normalization)，將所有數據按比例縮放至一定範圍，例如[0, 1]區間中
(C) 對數變換(Logarithmic Transformation)，對數據進行對數處理
(D) 主成份分析(Principal Components Analysis, PCA)，透過降維以簡化數據結構，並盡可能保留原數據的變異性

答案：登入後查看
統計： A(0), B(7), C(13), D(1), E(0) #3323445

詳解 (共 1 筆)

hchungw

B1 · 2025/03/12

#6329602

(C) 對數變換 (Logarithmic Transformation)

解析：

當數值型特徵如房屋面積和房價的分佈偏斜不對稱（通常是右偏分佈，skewed distribution），模型的效能可能會受到影響，因為大部分機器學習模型（如線性回歸）假設輸入數據為接近正態分佈。此時，常見的解決方法是對數變換 (Log Transform)，因為它可以：

減少數據的偏斜程度，使其更接近正態分佈
降低極端值（outliers）的影響
讓數據在對數尺度下表現得更線性，提高模型效果

為何其他選項不適合？

(A) 獨熱編碼 (One-Hot Encoding) ❌
- 適用於類別型特徵，但房價、面積等是連續數據，不應該用獨熱編碼。
(B) 正規化 (Normalization) ❌
- **Normalization（最小-最大縮放 Min-Max Scaling）**適合將數據壓縮到 [0, 1] 範圍，但不能解決數據偏斜的問題。例如，極端值仍然會影響數據的分佈。
(D) 主成份分析 (PCA) ❌
- PCA 主要用於降維，在特徵數量過多的情況下減少維度，而不是修正數據的偏斜性。

詳解 (共 1 筆)

解析：

為何其他選項不適合？

相關試題

相關試卷