13 某醫院研究特定心血管疾病的成因,收集了 50 名病患與 150 名正常人的年齡、血壓、血型等三項屬性變數。此研究適合使用下列哪一種機器學習模型來建立?
(A) 決策樹(Decision Tree)
(B) 線性廻歸(Linear Regression)
(C) 基於密度之含噪空間聚類法(Density-Based Spatial Clustering of Application with Noise, DBSCAN)
(D) K-means 聚類(K-means Clustering)
統計: A(524), B(185), C(55), D(333), E(0) #3472204
詳解 (共 3 筆)
這題的正確答案是 (A) 決策樹 (Decision Tree)。
1. 分析問題類型
首先,我們需要理解這個研究想做什麼。
-
目標:找出特定心血管疾病的「成因」,換句話說,就是想建立一個模型,能夠根據「年齡、血壓、血型」這些特徵來 預測 或 分類 一個人是否為病患。
-
資料特性:
-
標籤 (Label) 已知:研究人員已經明確區分了兩組人:「50 名病患」和「150 名正常人」。這意味著我們的資料是有答案的,我們知道每一筆資料(每個人)最終的結果(生病或正常)。
-
任務:預測一個離散的類別(生病 vs. 正常)。
-
具備「已知標籤」的資料,並用來進行「類別預測」的任務,在機器學習領域中被稱為 監督式學習 (Supervised Learning) 中的 分類 (Classification) 問題。
2. 分析選項
了解問題類型後,我們來檢視各個選項是否適合解決這個「監督式分類」問題。
(A) 決策樹 (Decision Tree)
-
類型:監督式學習模型。
-
用途:主要用於分類和迴歸。它透過一系列的「如果...那麼...」規則來建立一個樹狀結構的模型,非常適合用來判斷一個樣本屬於哪個類別。
-
適用性:非常適合。決策樹可以學習如何根據年齡、血壓、血型等變數來區分病患與正常人,並且模型的可解釋性高,有助於研究人員理解成因。
(B) 線性迴歸 (Linear Regression)
-
類型:監督式學習模型。
-
用途:主要用於迴歸 (Regression),也就是預測一個連續性的數值。例如,預測房價、預測明天的氣溫、預測血壓值。
-
適用性:不適合。我們的目標是預測「是否生病」(一個類別),而不是一個連續的數值。
(C) 基於密度之含噪空間聚類法 (DBSCAN)
-
類型:非監督式學習 (Unsupervised Learning) 模型。
-
用途:主要用於聚類 (Clustering)。它是在沒有標籤的資料中,自動找出資料的群聚結構。例如,將一群客戶自動分成不同的喜好群體。
-
適用性:不適合。我們已經有「病患」和「正常人」這兩個明確的標籤了,我們不需要機器來幫我們找群體,而是要機器學習如何「區分」這兩個已知的群體。
(D) K-means 聚類 (K-means Clustering)
-
類型:非監督式學習 (Unsupervised Learning) 模型。
-
用途:與 DBSCAN 類似,主要用於聚類。它也是在沒有標籤的資料中找出 K 個群體。
-
適用性:不適合。理由同 (C),這是一個監督式分類問題,而非非監督式聚類問題。
結論
綜合以上分析:
-
我們面對的是一個監督式分類問題。
-
決策樹是解決這類問題的經典模型。
-
線性迴歸是用於預測數值的迴歸模型,不適用於分類。
-
DBSCAN 和 K-means 是非監督式聚類模型,當資料沒有預先標記時才使用。
因此,最適合此研究的機器學習模型是 (A) 決策樹。