5 「金管會」與「金融監督管理委員會」兩個資料意義上皆表示同一機構,而在電腦數據中卻會認為是兩筆資料,這是屬於下列何種數據清理的問題?
(A)資料遺缺問題
(B)重覆資料問題
(C)不一致性問題
(D)數值誤植及檢核錯誤問題
統計: A(111), B(1269), C(9115), D(531), E(0) #2524854
詳解 (共 8 筆)
數據清理
數據採集後,肯定會有許多意想不到的數據不完整或不適用情形,可能包括資料重覆、欄位值越界、遺漏、代碼不一致、辭彙的統一或是無用的資料,此時就需要通過對數據的清理,將這些數據從準確性、完整性、 一致性、唯一性、有效性等幾個方面來處理資料問題。在清理過程中導入的數據量龐大,通常會達到TB、甚 至 PB 等級資料時,資料清理的時間,及如何持續獲得資料更新將是這項工作最大的挑戰。
(1)資料遺缺問題
資料遺缺是最常遭遇到的問題,大多數情況下,遺缺值會影響數據分析統計的正確性,也會導致工具程式的執行造成異常,因此不可忽視。遺缺值的處理包括透過有經驗的人以手動方式填入、由既有來源資料中推導出(例如年齡可 由出生年月日推導出 )、可以利用遺缺值週遭相似位置以概率方式計算出來(例如平 均值或中位數 )。當然,若發現某些遺缺值的資料對整體分析評估沒有影響,也可以考慮將該筆資料直接刪除,也 是一種解決遺缺值的方法。
(2)重覆資料問題
收集的數據資料中所有欄位值相同的紀錄被認為是重複資料,通過程式判斷紀錄間的屬性值是否相等,可以來檢測資料是否重複、重複的資料則合併為一筆或刪除。
(3)不一致性的問題
數值不一致最常見的就是單位、西元與民國年、小數點位數、代碼對應等不一致的問題,這樣的問題處理多以訂定同樣的規格進行資料轉換即可,困難度不會太高。另外有時會因為文字用辭不一,導致統計分析上有誤差,最常見的以學校名為例,「台大」 與「臺灣大學」表示為同一所學校, 但若統計臺灣大學出現次數時,「台大」出現的部份就會被忽略而錯估數量。由於處理數字比處理文字方便,我們也會利用代碼轉換方式,將文字格式以數字代碼,方便統一,例如「台大」與「臺灣大學」都用01代表,降低文字比對的誤差。
(4)數值誤植及檢核錯誤問題
有時候因為人工的誤植,系統未檢驗,導致存在的數據出現不合理情形,例如生日出現1900年的人,或是2 月30日生日等不合理的數值。另外這些數值錯誤,也有可能因為新、舊系統規格未統一或跨系統資料欄位格式定義不同造成的錯誤,例如A系統將學歷定義成1小學、2國中、3高中、4大學,而B 系統將學歷定義為1幼兒園、2小學、3國中、4大學,當這兩個系統整合時,若未進一步了解每個代碼意義,僅將兩欄數值整合,就會造成數值錯誤情形,此部份在資料清理時需特別留意。
p70