14.在資料準備時,下列敘述哪一項錯誤?
(A) 資料準備時,經過資料整合、清理、轉換、減少等步驟架構良好的資料
(B) 資料整合包括蒐集資料、選擇資料、整合資料
(C) 資料清理不包括減少變數數目、消除不一致、平衡偏斜資料
(D) 資料轉換包括正規化資料、分散/整合資料、建構新屬性
答案:登入後查看
統計: A(1), B(4), C(44), D(4), E(0) #3103439
統計: A(1), B(4), C(44), D(4), E(0) #3103439
詳解 (共 1 筆)
#6324666
(C) 資料清理不包括減少變數數目、消除不一致、平衡偏斜資料 ❌錯誤
解析:
在資料準備 (Data Preparation) 過程中,會經歷 資料整合 (Data Integration)、資料清理 (Data Cleaning)、資料轉換 (Data Transformation)、資料減少 (Data Reduction) 等步驟,以確保數據能夠適合建模。
選項分析
✅ (A) 資料準備時,經過資料整合、清理、轉換、減少等步驟架構良好的資料 ✅正確
- 資料準備通常包括:
- 資料整合 (Data Integration):合併來自不同來源的數據。
- 資料清理 (Data Cleaning):處理缺失值、異常值、不一致數據。
- 資料轉換 (Data Transformation):正規化、特徵工程等。
- 資料減少 (Data Reduction):降維、特徵選取等。
✅ (B) 資料整合包括蒐集資料、選擇資料、整合資料 ✅正確
- 資料整合 (Data Integration) 指的是從不同來源蒐集、選擇並整合資料,確保資料的一致性。
- 例如:
- 合併不同資料庫中的客戶資料。
- 整合來自不同感測器的數據。
❌ (C) 資料清理不包括減少變數數目、消除不一致、平衡偏斜資料 ❌錯誤
- 資料清理 (Data Cleaning) 確實包括這些步驟,因此這個選項是錯誤的。
- 具體步驟:
- 減少變數數目 (Feature Selection):去除冗餘或不重要的變數,以提高模型效能。
- 消除不一致 (Handling Inconsistencies):確保數據格式和內容一致。
- 平衡偏斜資料 (Handling Imbalanced Data):如對分類問題使用過採樣 (Oversampling) 或欠採樣 (Undersampling) 來平衡類別比例。
✅ (D) 資料轉換包括正規化資料、分散/整合資料、建構新屬性 ✅正確
- 資料轉換 (Data Transformation) 包括:
- 正規化 (Normalization):將數據縮放到某個範圍內 (如 [0,1]),使數據更適合建模。
- 分散/整合 (Discretization & Aggregation):將連續數據離散化或合併數據類別。
- 建構新屬性 (Feature Construction):透過數學運算、新變數組合等方式創造新特徵。
結論
✔ 錯誤的選項是 (C),因為資料清理 (Data Cleaning) 確實包括減少變數數目、消除不一致、平衡偏斜資料。
0
0