16. 關於 Hadoop 相關巨量資料處理技術,下列敘述何者「不正確」?
(A) HDFS 是分散式檔案處理架構
(B) HBase 是欄位導向資料模型處理架構
(C) MapReduce 是大量檔案資料處理引擎架構
(D) Hive 是類似 SQL 處理語法以擷取、轉換資料作業
答案:登入後查看
統計: A(0), B(6), C(0), D(4), E(0) #3219150
統計: A(0), B(6), C(0), D(4), E(0) #3219150
詳解 (共 1 筆)
#6332638
要回答本題,先逐一檢視四個選項是否與實際 Hadoop 生態系中的組件特性相符:
-
(A) HDFS 是分散式檔案處理架構
- 正確。HDFS(Hadoop Distributed File System)是 Hadoop 最核心的分散式檔案系統,提供大規模檔案的分散儲存與存取功能。
-
(C) MapReduce 是大量檔案資料處理引擎架構
- 正確。MapReduce 為 Hadoop 最早期的分散式大規模運算框架,擅長以「映射(Map)」與「歸納(Reduce)」的模式進行批次、分散式的資料處理。
-
(D) Hive 是類似 SQL 處理語法以擷取、轉換資料作業
- 正確。Hive 提供 HiveQL(類似 SQL 的查詢語言)讓使用者能用類 SQL 的方式,對 HDFS 中的大量資料進行查詢與轉換。
關鍵在 (B):HBase 是欄位導向資料模型處理架構?
-
HBase 是一種「寬欄式(Wide-Column Store)NoSQL 資料庫」,類似 Google BigTable。雖然它是「以欄族(Column Family)」來做資料的邏輯切分,但並不等於傳統數據倉儲中「真正的欄式資料庫(Column-Oriented Database)」,例如 Vertica、MonetDB、ClickHouse 等會將欄資料物理上集中存放,以利壓縮與欄向掃描。
-
HBase 實際上是以「RowKey + ColumnFamily + Qualifier + Timestamp」等屬性設計的一種NoSQL Key-Value 資料儲存。它常被歸類為**「寬欄式(Wide-Column Store)」**,並非嚴格上傳統意義的「欄式資料庫(Column-Oriented)」。
因此,(B) 所說的「欄位導向資料模型處理架構」如果被解讀為「真正的(純)欄式資料庫」,那就不太正確;HBase 更準確的描述應該是**「寬欄式(Wide-Column)Key-Value Store」**。
小結
- (A)、(C)、(D) 均為 Hadoop 生態系中常見且正確的描述;
- (B) 若將 HBase 說成「欄位導向資料庫」而忽略其實際是「寬欄式 NoSQL」的特性,則容易造成誤解或不夠精準,因而被視為「不正確」的敘述。
因此,本題答案:「(B) HBase 是欄位導向資料模型處理架構」為不正確。
0
0