第三題: 在預測(分類)某人是否會辦理信用卡(視為變數 C)的問題中,會辦理信用卡者視為 類別 1,不會辦理信用卡者視為類別 0。評估預測方法好壞會利用到混淆矩陣(confusion matrix)。其中有四種情況,如下:
請分別回答下列問題:
在ROC(Receiver Operating Characteristic)曲線圖中,X軸代表假陽性率(False Positive Rate, FPR),Y軸代表真陽性率(True Positive Rate, TPR),也稱為召回率(Recall)。在預測是否會辦理信用卡的問題中,四個端點在ROC曲線上的意義如下:
X軸(假陽性率FPR):表示在所有實際未辦理信用卡的人中(類別0),被錯誤預測為會辦理信用卡(類別1)的比例。計算公式為FPR = FP / (FP + TN)。
Y軸(真陽性率TPR):表示在所有實際會辦理信用卡的人中(類別1),被正確預測為會辦理信用卡的比例。計算公式為TPR = TP / (TP + FN)。
左下端點:理想情況下,對應於(0,0)點,表示沒有假陽性(FPR=0),也就是沒有一個不會辦理信用卡的人被錯誤預測為會辦理,但同時也沒有真陽性,意味著沒有正確預測任何人會辦理信用卡。
右上端點:理想情況下,對應於(1,1)點,表示高假陽性和高真陽性,意味著所有的人都被預測為會辦理信用卡,無論他們實際上是否會辦理。
左上端點:理想情況下,對應於(0,1)點,表示沒有假陽性(FPR=0)且真陽性率為100%,這意味著所有實際會辦理信用卡的人都被正確預測,且沒有一個不會辦理信用卡的人被錯誤預測為會辦理。
右下端點:理想情況下,對應於(1,0)點,表示高假陽性率且真陽性
率為0,這意味著所有不會辦理信用卡的人都被錯誤地預測為會辦理,而所有實際會辦理信用卡的人都沒有被正確預測。
ROC曲線上的每一點代表一個特定的閾值設定下的TPR和FPR。當閾值改變時(例如預測某人會辦理信用卡的概率閾值),模型的TPR和FPR會相應改變,這樣就形成了ROC曲線。曲線下的面積(Area Under the Curve, AUC)可以用來衡量模型整體的分類性能,AUC越接近1表示模型的性能越好。