所屬科目:資料探勘技術
一、假設你在警檢調或司法機關,原來委外建置的關聯式資料庫有設計瑕 疵:有些表格候選鍵(Candidate Key)沒有被識別、有些表格沒有達成 第三正規化。請針對下列三個工作:「建立資料倉儲」、「操作 OLAP (線上分析處理)」 、「進行資料探勘」 ,分別至少舉 2 例來說明會造成什麼問題?你可自行假設資料庫的表格、欄位、設計瑕疵狀況。(20 分)
(一)判斷模型效力好壞有多個指標,請對下面五個指標,先列出公式,再 計算出數值至小數 2 位:準確率(Accuracy) 、精確率(Precision)、召 回率(Recall)、特異度(Specificity)、F1 分數。(15 分)
(二)請以上述五個指標綜合判定該模型的好壞,並說明理由。 (3 分)
(三)在警檢調、司法做資料探勘,不能只依賴「準確率」 、「精確率」 、 「召 回率」、 「特異度」中單一指標,否則可能因樣本分布、探勘門檻設定 等造成模型整體效力其實不佳的狀況。請假設四個情境來分別說明若 只看該單一指標的問題。(12 分)
三、若你是司法人員,想找出慣竊之人格特徵與行為模式。請規劃一個完整的資料探勘專案流程,說明你會收集那些資料、希望找出的各種規則、 對該規則使用那些技術,以及最後預期能達成什麼樣的施政幫助。 (25 分)
四、若您是司法人員,想委外資訊廠商,找出慣竊之人格特徵與行為模式, 請列出招標需求規範(RFP)應特別著重的核心規範要點。 (25 分)