16. 關於 Hadoop 相關巨量資料處理技術,下列敘述何者「不正確」?
(A) HDFS 是分散式檔案處理架構
(B) HBase 是欄位導向資料模型處理架構
(C) MapReduce 是大量檔案資料處理引擎架構
(D) Hive 是類似 SQL 處理語法以擷取、轉換資料作業

答案:登入後查看
統計: A(0), B(6), C(0), D(4), E(0) #3219150

詳解 (共 1 筆)

#6332638

要回答本題,先逐一檢視四個選項是否與實際 Hadoop 生態系中的組件特性相符:

  1. (A) HDFS 是分散式檔案處理架構

    • 正確。HDFS(Hadoop Distributed File System)是 Hadoop 最核心的分散式檔案系統,提供大規模檔案的分散儲存與存取功能。
  2. (C) MapReduce 是大量檔案資料處理引擎架構

    • 正確。MapReduce 為 Hadoop 最早期的分散式大規模運算框架,擅長以「映射(Map)」與「歸納(Reduce)」的模式進行批次、分散式的資料處理。
  3. (D) Hive 是類似 SQL 處理語法以擷取、轉換資料作業

    • 正確。Hive 提供 HiveQL(類似 SQL 的查詢語言)讓使用者能用類 SQL 的方式,對 HDFS 中的大量資料進行查詢與轉換。

關鍵在 (B):HBase 是欄位導向資料模型處理架構?

  • HBase 是一種「寬欄式(Wide-Column Store)NoSQL 資料庫」,類似 Google BigTable。雖然它是「以欄族(Column Family)」來做資料的邏輯切分,但並不等於傳統數據倉儲中「真正的欄式資料庫(Column-Oriented Database)」,例如 Vertica、MonetDB、ClickHouse 等會將欄資料物理上集中存放,以利壓縮與欄向掃描。

  • HBase 實際上是以「RowKey + ColumnFamily + Qualifier + Timestamp」等屬性設計的一種NoSQL Key-Value 資料儲存。它常被歸類為**「寬欄式(Wide-Column Store)」**,並非嚴格上傳統意義的「欄式資料庫(Column-Oriented)」。

因此,(B) 所說的「欄位導向資料模型處理架構」如果被解讀為「真正的(純)欄式資料庫」,那就不太正確;HBase 更準確的描述應該是**「寬欄式(Wide-Column)Key-Value Store」**。

小結

  • (A)、(C)、(D) 均為 Hadoop 生態系中常見且正確的描述;
  • (B) 若將 HBase 說成「欄位導向資料庫」而忽略其實際是「寬欄式 NoSQL」的特性,則容易造成誤解或不夠精準,因而被視為「不正確」的敘述。

因此,本題答案:「(B) HBase 是欄位導向資料模型處理架構」為不正確。

0
0