50. 關於模型訓練與測試機制中的資料切分,下列敘述何者「不正確」?
(A) 實務上常用重抽樣法進行模型最佳化
(B) 決定最佳的模型複雜度或參數組合後,最後再以整個校驗集 (calibration set)建立最佳複雜度或最佳參數組合下的最終模型
(C) 雙重重抽樣法包含內外兩圈的重抽樣機制,分別負責模型最佳化 與績效估計的工作,如此內外圈反覆執行所需計算量應是負擔最 重的訓練與測試機制
(D) 生醫或化學計量學等領域常因所搜集到樣本通常較少,因而採行50%的訓練集(training set)用以建立模型,25%的驗證集(validation set)進行模型參數最佳化,以及 25%的測試集(test set)測試最終模型等三個子集的切分方式

答案:登入後查看
統計: A(1), B(2), C(2), D(5), E(0) #3219184

詳解 (共 1 筆)

#6332691

解析各選項,找出「不正確」的敘述

在機器學習的模型訓練與測試機制中,數據通常會被切分為 訓練集(Training Set)、驗證集(Validation Set)、測試集(Test Set),以便進行模型訓練、調參(超參數調整)、與最終評估

選項分析

(A) 實務上常用重抽樣法進行模型最佳化

  • 正確
  • 重抽樣方法(Resampling Methods) 在實務上廣泛應用於模型最佳化(Model Optimization),常見的方法包括:
    • 交叉驗證(Cross-Validation)
    • 拔靴法(Bootstrap)
  • 這些方法能幫助選擇最佳參數、減少過擬合(Overfitting),並提升模型在新數據上的泛化能力。
  • 因此此選項正確。

(B) 決定最佳的模型複雜度或參數組合後,最後再以整個校驗集 (calibration set)建立最佳複雜度或最佳參數組合下的最終模型

  • 正確
  • 模型選擇與最佳化流程如下:
    1. 先使用訓練集(Training Set)來訓練模型。
    2. 使用驗證集(Validation Set)來調整超參數(Hyperparameter Tuning),選擇最佳模型複雜度或參數組合。
    3. 最後,使用整個數據集(包含校驗集)來重新訓練最終模型,並在測試集上評估表現。
  • 這是標準的機器學習模型訓練與調整流程,因此此選項正確。

(C) 雙重重抽樣法包含內外兩圈的重抽樣機制,分別負責模型最佳化 與績效估計的工作,如此內外圈反覆執行所需計算量應是負擔最 重的訓練與測試機制

  • 正確
  • 雙重重抽樣法(Nested Cross-Validation)是一種最嚴謹但計算負擔最重的訓練與測試方法
    • 外圈(Outer Loop):用於評估模型的最終泛化能力(Generalization Performance)。
    • 內圈(Inner Loop):用於調整模型超參數(Hyperparameter Tuning)。
    • 這種方法確保模型選擇的公平性,防止資訊洩漏(Data Leakage),但確實需要較高的計算量。
  • 因此此選項正確。

(D) 生醫或化學計量學等領域常因所搜集到樣本通常較少,因而採行 50% 的訓練集(Training Set)用以建立模型,25% 的驗證集(Validation Set)進行模型參數最佳化,以及 25% 的測試集(Test Set)測試最終模型等三個子集的切分方式

  • 錯誤(本題答案)
  • 雖然生醫或化學計量學領域常採取三分法(Train/Validation/Test Split),但常見的比例並非固定為 50% / 25% / 25%
  • 一般而言,數據切分方式會依據樣本量大小調整,常見比例包括:
    • 70% 訓練集、15% 驗證集、15% 測試集(常見於一般機器學習任務)。
    • 80% 訓練集、10% 驗證集、10% 測試集(當樣本量較少時)。
    • 5-fold 交叉驗證(適用於樣本數極少時,確保所有數據都能參與訓練與測試)
  • 50% / 25% / 25% 不是標準比例,且在樣本數量較少的情況下,這種切分方式可能導致訓練數據不足,影響模型學習效果

結論

正確選項(A)、(B)、(C)
不正確選項(答案)(D)(50% / 25% / 25% 不是標準比例,應根據數據大小調整)

? 本題正確答案:「(D)」

0
0