50. 關於模型訓練與測試機制中的資料切分，下列敘述何者「不正確」？
(A) 實務上常用重抽樣法進行模型最佳化
(B) 決定最佳的模型複雜度或參數組合後，最後再以整個校驗集（calibration set）建立最佳複雜度或最佳參數組合下的最終模型
(C) 雙重重抽樣法包含內外兩圈的重抽樣機制，分別負責模型最佳化與績效估計的工作，如此內外圈反覆執行所需計算量應是負擔最重的訓練與測試機制
(D) 生醫或化學計量學等領域常因所搜集到樣本通常較少，因而採行50%的訓練集（training set）用以建立模型，25%的驗證集（validation set）進行模型參數最佳化，以及 25%的測試集（test set）測試最終模型等三個子集的切分方式

答案：登入後查看
統計： A(1), B(2), C(2), D(5), E(0) #3219184

hchungw

B1 · 2025/03/14

#6332691

在機器學習的模型訓練與測試機制中，數據通常會被切分為 訓練集（Training Set）、驗證集（Validation Set）、測試集（Test Set），以便進行模型訓練、調參（超參數調整）、與最終評估。

✅ 正確
重抽樣方法（Resampling Methods） 在實務上廣泛應用於模型最佳化（Model Optimization），常見的方法包括：
- 交叉驗證（Cross-Validation）
- 拔靴法（Bootstrap）
這些方法能幫助選擇最佳參數、減少過擬合（Overfitting），並提升模型在新數據上的泛化能力。
因此此選項正確。

✅ 正確
模型選擇與最佳化流程如下：
1. 先使用訓練集（Training Set）來訓練模型。
2. 使用驗證集（Validation Set）來調整超參數（Hyperparameter Tuning），選擇最佳模型複雜度或參數組合。
3. 最後，使用整個數據集（包含校驗集）來重新訓練最終模型，並在測試集上評估表現。
這是標準的機器學習模型訓練與調整流程，因此此選項正確。

✅ 正確
雙重重抽樣法（Nested Cross-Validation）是一種最嚴謹但計算負擔最重的訓練與測試方法：
- 外圈（Outer Loop）：用於評估模型的最終泛化能力（Generalization Performance）。
- 內圈（Inner Loop）：用於調整模型超參數（Hyperparameter Tuning）。
- 這種方法確保模型選擇的公平性，防止資訊洩漏（Data Leakage），但確實需要較高的計算量。
因此此選項正確。

❌ 錯誤（本題答案）
雖然生醫或化學計量學領域常採取三分法（Train/Validation/Test Split），但常見的比例並非固定為 50% / 25% / 25%。
一般而言，數據切分方式會依據樣本量大小調整，常見比例包括：
- 70% 訓練集、15% 驗證集、15% 測試集（常見於一般機器學習任務）。
- 80% 訓練集、10% 驗證集、10% 測試集（當樣本量較少時）。
- 5-fold 交叉驗證（適用於樣本數極少時，確保所有數據都能參與訓練與測試）。
50% / 25% / 25% 不是標準比例，且在樣本數量較少的情況下，這種切分方式可能導致訓練數據不足，影響模型學習效果。

✅ 正確選項：(A)、(B)、(C)
❌ 不正確選項（答案）：(D)（50% / 25% / 25% 不是標準比例，應根據數據大小調整）

? 本題正確答案：「(D)」