5 「金管會」與「金融監督管理委員會」兩個資料意義上皆表示同一機構,而在電腦數據中卻會認為是兩筆資料,這是屬於下列何種數據清理的問題?
(A)資料遺缺問題
(B)重覆資料問題
(C)不一致性問題
(D)數值誤植及檢核錯誤問題

答案:登入後查看
統計: A(111), B(1269), C(9115), D(531), E(0) #2524854

詳解 (共 8 筆)

#5628670
參考金融科技力2021年版 
第70~71頁的數據清理-不一致性的問題
19
2
#4402526
不一致性問題  可能因文字用詞不一,導...
(共 71 字,隱藏中)
前往觀看
15
0
#4979979
79.下列何者不屬於大數據分析的資料清理...
(共 148 字,隱藏中)
前往觀看
14
3
#5982228
2024版 p.72
11
0
#5630149
(B) 重覆資料問題: 出現兩個相同的項...
(共 46 字,隱藏中)
前往觀看
11
0
#6375074

數據清理

數據採集後,肯定會有許多意想不到的數據不完整或不適用情形,可能包括資料重覆、欄位值越界、遺漏、代碼不一致、辭彙的統一或是無用的資料,此時就需要通過對數據的清理,將這些數據從準確性、完整性、 一致性、唯一性、有效性等幾個方面來處理資料問題。在清理過程中導入的數據量龐大,通常會達到TB、甚 PB 等級資料時,資料清理的時間,及如何持續獲得資料更新將是這項工作最大的挑戰。

臚列幾項數據問題及清理的方法:

 

(1)資料遺缺問題

資料遺缺是最常遭遇到的問題,大多數情況下,遺缺值會影響數據分析統計的正確性,也會導致工具程式的執行造成異常,因此不可忽視。遺缺值的處理包括透過有經驗的人以手動方式填入由既有來源資料中推導出(例如年齡可 由出生年月日推導出 )可以利用遺缺值週遭相似位置以概率方式計算出來(例如平 均值或中位數 )。當然,若發現某些遺缺值的資料對整體分析評估沒有影響,也可以考慮將該筆資料直接刪除,也 是一種解決遺缺值的方法。

 

(2)重覆資料問題

收集的數據資料中所有欄位值相同的紀錄被認為是重複資料,通過程式判斷紀錄間的屬性值是否相等,可以來檢測資料是否重複、重複的資料則合併為一筆或刪除。

 

(3)不一致性的問題

數值不一致最常見的就是單位、西元與民國年、小數點位數、代碼對應等不一致的問題,這樣的問題處理多以訂定同樣的規格進行資料轉換即可,困難度不會太高。另外有時會因為文字用辭不一,導致統計分析上有誤差,最常見的以學校名為例,「台大」 與「臺灣大學」表示為同一所學校, 但若統計臺灣大學出現次數時,「台大」出現的部份就會被忽略而錯估數量。由於處理數字比處理文字方便,我們也會利用代碼轉換方式,將文字格式以數字代碼,方便統一,例如「台大」與「臺灣大學」都用01代表,降低文字比對的誤差。

 

(4)數值誤植及檢核錯誤問題

有時候因為人工的誤植,系統未檢驗,導致存在的數據出現不合理情形,例如生日出現1900年的人,或是2 30日生日等不合理的數值。另外這些數值錯誤,也有可能因為新、舊系統規格未統一或跨系統資料欄位格式定義不同造成的錯誤,例如A系統將學歷定義成1小學、2國中、3高中、4大學,而B 系統將學歷定義為1幼兒園、2小學、3國中、4大學,當這兩個系統整合時,若未進一步了解每個代碼意義,僅將兩欄數值整合,就會造成數值錯誤情形,此部份在資料清理時需特別留意。

 

8
0
#4399964
兩者同一機構,但電腦認為不同(C)
(共 19 字,隱藏中)
前往觀看
1
2
#5985333

p70

0
1

私人筆記 (共 3 筆)

私人筆記#6595963
未解鎖


(共 0 字,隱藏中)
前往觀看
1
0
私人筆記#7849744
未解鎖
1.定義問題 數據分析首要任務,即對於...
(共 2453 字,隱藏中)
前往觀看
0
0
私人筆記#3092213
未解鎖
3.不一致的資料格式同樣輸入日期資訊,有...
(共 408 字,隱藏中)
前往觀看
0
1