34. 關於 k 平均數(k-means)與噪訊偵測之空間密度集群算法 (Density-Based Spatial Clustering of Applications with Noise, DBSCAN),下列敘述何者「不正確」?
(A) 兩者都是集群分析
(B) k-means 基於距離的概念,而 DBSCAN 基於密度的概念
(C) 兩者都需要事先告知分群的數量
(D) k-means 集群結果易受離群值的影響

答案:登入後查看
統計: A(0), B(1), C(10), D(0), E(0) #3219418

詳解 (共 1 筆)

#6332826

解析各選項,找出「不正確」的敘述

k-meansDBSCAN 都是非監督式學習(Unsupervised Learning) 的集群(Clustering)演算法,但它們的核心概念和適用場景不同

  • k-means:基於距離(Distance-Based),適用於球形群集,但對於離群值(Outliers)和非球形群集表現較差。
  • DBSCAN:基於密度(Density-Based),適用於不規則形狀的群集,可自動發現群集數量,且對離群值較不敏感。

選項分析

(A) 兩者都是集群分析

正確

  • k-means 和 DBSCAN 都是用來分群(Clustering)的演算法,目的都是將數據點分成不同的群集。
  • 此選項正確,因為兩者確實都是集群分析方法。

(B) k-means 基於距離的概念,而 DBSCAN 基於密度的概念

正確

  • k-means 透過「距離」來計算群心(Centroid)與資料點的關係
    • 使用歐幾里得距離(Euclidean Distance)來計算數據點與中心的距離,並透過迭代方式調整群心位置。
  • DBSCAN 則是基於「密度」的概念來找出高密度區域
    • 透過設定「鄰近範圍(Epsilon, ε\varepsilonε)」與「最小點數(MinPts)」來決定一個區域是否足夠密集來形成群集。
  • 此選項正確,因為 k-means 依賴距離,而 DBSCAN 依賴密度。

(C) 兩者都需要事先告知分群的數量

錯誤(本題答案)

  • k-means 需要事先指定群集數量 k
    • 事先必須決定 k 值,否則無法執行。
    • 常用方法:Elbow Method(肘部法則)Silhouette Score(輪廓係數) 來估計適當的 kkk 值。
  • DBSCAN 不需要事先指定群集數量,而是透過密度參數來自動判定群集
    • 只需要設定 ε\varepsilonε(鄰近範圍半徑)MinPts(最小點數),就能自動識別群集數量。
  • 錯誤點
    • k-means 需要事先指定群數,但 DBSCAN 不需要,因此此選項是錯誤的。

(D) k-means 集群結果易受離群值的影響

正確

  • k-means 容易受離群值影響,因為離群值會影響群心(Centroid)的計算
    • 例如,若有一個遠離主要群集的數據點,k-means 可能會錯誤地將其視為一個新的群心,導致聚類結果不準確。
    • DBSCAN 則能有效處理離群值,因為離群值會被標記為「噪音(Noise)」而不會影響主要群集。
  • 此選項正確,因為 k-means 容易受離群值影響,而 DBSCAN 則較具抗離群值能力。

結論

正確選項

  • (A) 兩者都是集群分析
  • (B) k-means 基於距離,DBSCAN 基於密度
  • (D) k-means 易受離群值影響

不正確選項(答案)

  • (C) 兩者都需要事先告知分群的數量(錯誤,因為 DBSCAN 不需要)

? 本題正確答案:「(C)」

0
0