訓練資料集(Training Set):
訓練資料集是用來建立或訓練模型的資料。在機器學習中,這部分的資料用來讓演算法辨識和學習資料中的模式和關聯性。模型會試著在這些資料上進行學習,以便能夠準確地從輸入變量預測目標變量。訓練過程中,模型的參數會根據訓練資料進行調整,目的是最小化預測誤差或損失函數。
測試資料集(Test Set):
測試資料集是在模型訓練完畢後用來評估模型泛化能力的資料。它不會在訓練過程中被使用,因此模型未曾見過這些資料。通過在測試資料集上評估模型,我們可以得到模型對於未知數據的預測能力,這可以幫助我們評估模型的實際效能,並檢測是否存在過擬合(Overfitting)的問題。過擬合指的是模型對訓練資料學得太好,以至於失去了對新、未見過資料的預測能力。
總之,訓練集用於建立模型,而測試集用於評估模型的預測性能和泛化能力。這種區分確保了模型評估的公正性和客觀性,是避免模型過度擬合訓練數據的重要步驟。