6. 在進行資料分析時,會遇到類別型(Categorical)與數值型 (Numerical) 資料格式。關於這兩種資料格式的處理,下列敘述何者不正確?
(A)One-Hot 編碼(One-Hot Encoding)會將類別變數轉換為多維二元向量,適用於無序(Nominal)類別資料,但在高基數(High Cardinality)特徵下可能造成維度爆炸問題;
(B)標籤編碼(Label Encoding)會以整數表示不同類別,若應用於無序 (Nominal)資料,可能導致模型誤將編碼值解讀為具數值大小關係的特徵;
(C)標準化(Standardization)透過將資料平移與縮放,使其平均值為0、標準差為 1,可在多數距離型演算法中改善收斂速度,並同時將數值範圍壓縮至 0 至 1 之間;
(D)對連續變數進行分箱(Binning)可提升模型可解釋性,但若分段方式 未依據資料分佈特性設計,可能導致資訊損失或邊界偏誤
答案:登入後查看
統計: A(0), B(1), C(1), D(0), E(0) #3773809
統計: A(0), B(1), C(1), D(0), E(0) #3773809