43.在非結構化(Unstructured)的大數據分析中,下列敘述何者錯誤?
(A)非結構化資料中,資料本身格式相對不固定,資料型態也較為多元
(B)非結構化資料很容易以數位化直接處理及運用
(C)新聞資料通常屬於非結構化資料
(D)非結構化資料的表達及呈現較為直覺清楚,例如:影片、音樂
統計: A(300), B(7997), C(682), D(432), E(0) #3158096
詳解 (共 6 筆)
(B) 非結構化資料很容易以數位化直接處理及運用->難。
(A)非結構化資料指的是資料本身格式相對不固定,資料的型態也較為多元,但(B)資料的表達及呈現卻也是最直覺清楚,例如一篇文章、一段音樂、一支影片、一個網頁等,內容則具備有完整的意思表現。但是(D)非結構化資料通常較「難」以數位化直接處理及運用,例如我們無法快速從一堆小說中找有哪幾篇小說發生地點在台北市?或者從一堆影片中找到女主角的姓名?我們必須經過一些前置處理程序,將這些非結構化資料進行格式標準化,產生對這些非結構化資料的結構化描述資訊,作為未來更多加值的利用。例如若要從每日新聞中發現當天影響股票市場的訊息,從中判斷當日股市/個股可能的漲跌變化(前文中提及大數據資料的真實性待確認,此處不考慮新聞的真實性),(C)新聞資料屬於非結構化的資料,為了將每篇新聞中重要的訊息擷取出來,通常利用斷字斷詞技術,找出文章中名詞、動詞及形容詞,將這些斷詞結果,以結構化方式儲存,再透過語法、語意分析技術來判斷該文章對於股票市場或個股的評價,藉此預測可能的變化。
? 為什麼 (B) 是錯誤的?
這是大數據分析中最大的痛點:
-
錯誤點: 非結構化資料(如純文字、圖片、影音)非常難以直接處理。電腦看不懂影片內容,也無法直接計算一段新聞背後的意義。
-
處理門檻: 必須先經過複雜的預處理(例如:語音轉文字 NLP、影像辨識 CNN),將其轉換成電腦看得懂的「結構化數值」後,才能進行運算的分析。相較於資料庫裡一排排整齊的數字(結構化資料),非結構化的處理成本高出許多。
✅ 其他正確選項解析:
-
(A) 格式多元: 這是非結構化資料的定義。它不像 SQL 資料庫有固定的欄位,而是包含 PDF、Email、社交媒體貼文等各種雜亂的型態。
-
(C) 新聞資料: 新聞是由標題、內文、圖片組成,沒有固定的長度或格式,是典型的非結構化資料。
-
(D) 直覺清楚: 對「人類」來說,影片和音樂是非常直覺的溝通方式(我們一眼就能看出影片在拍什麼),但這也正是它們難以被「電腦」直接結構化的原因。
? 解題關鍵字
關於資料結構的對比,可以記這張簡單的對照表:
| 資料類型 | 舉例 | 處理難易度 (對電腦而言) |
| 結構化 | SQL 資料庫、Excel 表格 | 容易 (直接計算) |
| 半結構化 | XML, JSON, HTML | 中等 (有標籤可循) |
| 非結構化 | 影片、音訊、文字新聞 | 困難 (需先特徵萃取) |
金融科技力2024 版 p66