37. 關於 k 平均數(k-means)集群分析,下列敘述何者正確?
(A) 適合解決非球形或數據密度變化大的集群問題
(B) 演算法算法只要收斂,保證可以獲得最佳的集群結果
(C) 事前不需要估算資料中有多少集群存在,即能執行算法
(D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好

答案:登入後查看
統計: A(0), B(0), C(1), D(10), E(0) #3219421

詳解 (共 1 筆)

#6332793

解析各選項,找出 k-means 集群分析的正確敘述

k-means(k-均值聚類) 是一種常見的非監督式學習方法,用於將數據點分配到 kkk 個群集(Clusters)中。該演算法透過最小化類內平方誤差(Within-Cluster Sum of Squares, WCSS) 來分群,並基於歐幾里得距離(Euclidean Distance) 來計算數據點與聚類中心的距離。

然而,k-means 也有其限制

  • 只能識別「球形(spherical)」的群集。
  • 對於不均勻密度(uneven density)或非球形(non-spherical)分佈的群集表現較差。
  • 必須事先指定 kkk 值(群集數目)

選項分析

(A) 適合解決非球形或數據密度變化大的集群問題

錯誤

  • k-means 只適用於球形(spherical)群集,不適合非球形(non-spherical)分佈的數據
    • 例如,若數據呈長條形(如月牙狀)或密度不同的群集,k-means 會有誤判問題
    • 密度變化較大的數據(如 DBSCAN 可處理的數據)對 k-means 來說會有誤分類的風險
  • 適合解決非球形或密度變化大的演算法
    • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
    • Mean-Shift
    • 階層式聚類(Hierarchical Clustering)
  • 因此,k-means 並不適用於這類問題,選項錯誤。

(B) 演算法只要收斂,保證可以獲得最佳的集群結果

錯誤

  • k-means 是基於隨機初始化的迭代優化演算法,可能會收斂到局部最小值(local minimum)
    • 初始中心點的選擇會影響結果,若起始點選擇不佳,可能會導致次優結果。
    • 常見的改進方法:k-means++ 初始化(確保初始中心點選擇更具代表性)。
  • 即使 k-means 收斂,它也不保證找到全域最佳解(Global Optimum),因此此選項錯誤。

(C) 事前不需要估算資料中有多少集群存在,即能執行算法

錯誤

  • k-means 需要事先指定 kkk(群集數目),否則無法執行
    • 無法自動決定適合的群集數目。
    • 需要使用肘部法則(Elbow Method)輪廓係數(Silhouette Score) 來估算最適 kkk 值。
  • 相比之下,DBSCAN、Mean-Shift 等方法可以在不指定群集數的情況下自動發現適當的群集。
  • 此選項錯誤,因為 k-means 無法自動決定群集數。

(D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好

正確(本題答案)

  • k-means 是一種簡單且計算成本較低的聚類方法,雖然不如其他方法精確,但在許多應用場景中表現良好。
  • 優勢
    • 計算速度快(線性時間複雜度 O(nk)O(nk)O(nk))。
    • 適用於大規模數據集(Big Data)。
    • 在數據分佈適當時(例如接近球形群集),效果良好。
  • 缺點
    • 需要事先指定 kkk 值。
    • 易受初始條件影響,可能陷入局部最小值。
    • 無法處理密度變化較大的群集。
  • 在許多實務應用(如客戶分類、市場分析)中,k-means 仍然是實用的聚類方法,因此此選項正確。

結論

正確選項(答案)

  • (D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好

錯誤選項

  • (A) k-means 不適合非球形或密度變化大的群集
  • (B) k-means 可能陷入局部最小值,無法保證最佳結果
  • (C) k-means 需要事先指定群集數 kkk,無法自動決定群集數

? 本題正確答案:「(D)」

0
0