2. 在資料分析之前,需要花費很多力氣去整理資料,其中處理遺失值
(Missing Value)便是一種,下列何者不是處理遺失值的手段?
(A) 移除有遺失值的資料
(B) 使用平均數或第一四分位數來填補
(C) 將前一筆資料的值填入
(D) 使用 K-近鄰法(K-Nearest Neighbours)搭配中位數進行填補
答案:登入後查看
統計: A(6), B(3), C(35), D(1), E(0) #3156371
統計: A(6), B(3), C(35), D(1), E(0) #3156371
詳解 (共 1 筆)
#6330641
在資料分析的前置處理過程中,處理遺失值(Missing Values)是非常重要的一環,常見的處理方式包括刪除含有遺失值的資料、使用統計方法填補缺失值,或者運用機器學習方法來推測遺失值。
解析選項:
(A) 移除有遺失值的資料 ✅
→ 這是最簡單但有風險的方式,特別是當遺失值較少時,直接刪除影響不大;但如果遺失值占比高,可能會導致資訊流失。
(B) 使用平均數或第一四分位數來填補 ✅
→ 這是最常見的統計填補方法,通常用來處理數值型資料,例如以「平均數」填補連續變數,以「第一四分位數」或「中位數」避免極端值影響。
(C) 將前一筆資料的值填入 ✅
→ 這種方法稱為前向填補(Forward Fill, ffill),在時間序列分析中很常見,即用上一筆的數據來填補當前遺失的值。
(D) 使用 K-近鄰法(K-Nearest Neighbours)搭配中位數進行填補 ❌
→ K-近鄰(KNN)法是一種基於鄰近數據的填補方法,但它通常是根據相似數據點的加權平均值或歐式距離最近的 K 個鄰居的均值/中位數來填補,而不直接搭配中位數。因此,這個選項的表達方式不夠嚴謹,屬於較少見的方式。
正確答案:
(D) 使用 K-近鄰法(K-Nearest Neighbours)搭配中位數進行填補
0
0