三、「1999 市民熱線」是各縣市政府為民服務的第一線,每天湧入成千上萬通 的電話。假設你目前是某縣市政府「1999 話務中心」的資訊與系統管理 者。為了減輕話務人員的負擔並提供 24 小時不間斷的服務,市長下令要 在明年推出新一代的「1999 AI 語音/文字智慧客服系統」。
你手邊擁有過去 5 年來累積的龐大資料,包含:
●數百萬筆的雙向通話錄音檔(Audio Files)
●話務員在通話後隨手記錄的文字工單與摘要(Text Logs,通常充滿錯 字、縮寫與非標準用語)。
請撰寫一份「1999 歷史資料清洗與預處理(Data Cleaning & Preprocessing) 專案企劃書」。向長官說明,你將如何把這堆混亂的「資料泥沼」,提煉 成高品質、可以直接用來訓練或建置 AI 客服系統的「數據」。請至少針對下列 5 個關鍵步驟,具體說明如何執行:(25 分)
1.語音轉換與語者分離
2.個資抹除與去識別化
3.雜訊過濾與無效資料剔除
4.歷史糾錯與時效性清洗
5.資料結構化與 Q&A 知識萃取