34. 關於 k 平均數(k-means)與噪訊偵測之空間密度集群算法
(Density-Based Spatial Clustering of Applications with Noise,
DBSCAN),下列敘述何者「不正確」?
(A) 兩者都是集群分析
(B) k-means 基於距離的概念,而 DBSCAN 基於密度的概念
(C) 兩者都需要事先告知分群的數量
(D) k-means 集群結果易受離群值的影響
答案:登入後查看
統計: A(0), B(1), C(10), D(0), E(0) #3219418
統計: A(0), B(1), C(10), D(0), E(0) #3219418
詳解 (共 1 筆)
#6332826
解析各選項,找出「不正確」的敘述
k-means 和 DBSCAN 都是非監督式學習(Unsupervised Learning) 的集群(Clustering)演算法,但它們的核心概念和適用場景不同:
- k-means:基於距離(Distance-Based),適用於球形群集,但對於離群值(Outliers)和非球形群集表現較差。
- DBSCAN:基於密度(Density-Based),適用於不規則形狀的群集,可自動發現群集數量,且對離群值較不敏感。
選項分析
(A) 兩者都是集群分析
✅ 正確
- k-means 和 DBSCAN 都是用來分群(Clustering)的演算法,目的都是將數據點分成不同的群集。
- 此選項正確,因為兩者確實都是集群分析方法。
(B) k-means 基於距離的概念,而 DBSCAN 基於密度的概念
✅ 正確
- k-means 透過「距離」來計算群心(Centroid)與資料點的關係:
- 使用歐幾里得距離(Euclidean Distance)來計算數據點與中心的距離,並透過迭代方式調整群心位置。
- DBSCAN 則是基於「密度」的概念來找出高密度區域:
- 透過設定「鄰近範圍(Epsilon, ε\varepsilonε)」與「最小點數(MinPts)」來決定一個區域是否足夠密集來形成群集。
- 此選項正確,因為 k-means 依賴距離,而 DBSCAN 依賴密度。
(C) 兩者都需要事先告知分群的數量
❌ 錯誤(本題答案)
- k-means 需要事先指定群集數量 k:
- 事先必須決定 k 值,否則無法執行。
- 常用方法:Elbow Method(肘部法則) 或 Silhouette Score(輪廓係數) 來估計適當的 kkk 值。
- DBSCAN 不需要事先指定群集數量,而是透過密度參數來自動判定群集:
- 只需要設定 ε\varepsilonε(鄰近範圍半徑) 和 MinPts(最小點數),就能自動識別群集數量。
- 錯誤點:
- k-means 需要事先指定群數,但 DBSCAN 不需要,因此此選項是錯誤的。
(D) k-means 集群結果易受離群值的影響
✅ 正確
- k-means 容易受離群值影響,因為離群值會影響群心(Centroid)的計算:
- 例如,若有一個遠離主要群集的數據點,k-means 可能會錯誤地將其視為一個新的群心,導致聚類結果不準確。
- DBSCAN 則能有效處理離群值,因為離群值會被標記為「噪音(Noise)」而不會影響主要群集。
- 此選項正確,因為 k-means 容易受離群值影響,而 DBSCAN 則較具抗離群值能力。
結論
✅ 正確選項:
- (A) 兩者都是集群分析
- (B) k-means 基於距離,DBSCAN 基於密度
- (D) k-means 易受離群值影響
❌ 不正確選項(答案):
- (C) 兩者都需要事先告知分群的數量(錯誤,因為 DBSCAN 不需要)
? 本題正確答案:「(C)」
0
0