37. 關於 k 平均數(k-means)集群分析,下列敘述何者正確?
(A) 適合解決非球形或數據密度變化大的集群問題
(B) 演算法算法只要收斂,保證可以獲得最佳的集群結果
(C) 事前不需要估算資料中有多少集群存在,即能執行算法
(D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好
答案:登入後查看
統計: A(0), B(0), C(1), D(10), E(0) #3219421
統計: A(0), B(0), C(1), D(10), E(0) #3219421
詳解 (共 1 筆)
#6332793
解析各選項,找出 k-means 集群分析的正確敘述
k-means(k-均值聚類) 是一種常見的非監督式學習方法,用於將數據點分配到 kkk 個群集(Clusters)中。該演算法透過最小化類內平方誤差(Within-Cluster Sum of Squares, WCSS) 來分群,並基於歐幾里得距離(Euclidean Distance) 來計算數據點與聚類中心的距離。
然而,k-means 也有其限制:
- 只能識別「球形(spherical)」的群集。
- 對於不均勻密度(uneven density)或非球形(non-spherical)分佈的群集表現較差。
- 必須事先指定 kkk 值(群集數目)。
選項分析
(A) 適合解決非球形或數據密度變化大的集群問題
❌ 錯誤
- k-means 只適用於球形(spherical)群集,不適合非球形(non-spherical)分佈的數據:
- 例如,若數據呈長條形(如月牙狀)或密度不同的群集,k-means 會有誤判問題。
- 密度變化較大的數據(如 DBSCAN 可處理的數據)對 k-means 來說會有誤分類的風險。
- 適合解決非球形或密度變化大的演算法:
- DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
- Mean-Shift
- 階層式聚類(Hierarchical Clustering)
- 因此,k-means 並不適用於這類問題,選項錯誤。
(B) 演算法只要收斂,保證可以獲得最佳的集群結果
❌ 錯誤
- k-means 是基於隨機初始化的迭代優化演算法,可能會收斂到局部最小值(local minimum):
- 初始中心點的選擇會影響結果,若起始點選擇不佳,可能會導致次優結果。
- 常見的改進方法:k-means++ 初始化(確保初始中心點選擇更具代表性)。
- 即使 k-means 收斂,它也不保證找到全域最佳解(Global Optimum),因此此選項錯誤。
(C) 事前不需要估算資料中有多少集群存在,即能執行算法
❌ 錯誤
- k-means 需要事先指定 kkk(群集數目),否則無法執行:
- 無法自動決定適合的群集數目。
- 需要使用肘部法則(Elbow Method) 或 輪廓係數(Silhouette Score) 來估算最適 kkk 值。
- 相比之下,DBSCAN、Mean-Shift 等方法可以在不指定群集數的情況下自動發現適當的群集。
- 此選項錯誤,因為 k-means 無法自動決定群集數。
(D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好
✅ 正確(本題答案)
- k-means 是一種簡單且計算成本較低的聚類方法,雖然不如其他方法精確,但在許多應用場景中表現良好。
- 優勢:
- 計算速度快(線性時間複雜度 O(nk)O(nk)O(nk))。
- 適用於大規模數據集(Big Data)。
- 在數據分佈適當時(例如接近球形群集),效果良好。
- 缺點:
- 需要事先指定 kkk 值。
- 易受初始條件影響,可能陷入局部最小值。
- 無法處理密度變化較大的群集。
- 在許多實務應用(如客戶分類、市場分析)中,k-means 仍然是實用的聚類方法,因此此選項正確。
結論
✅ 正確選項(答案):
- (D) 不如其它集群演算法精細縝密,但在許多真實的情境下,能將集群的任務處理得足夠好
❌ 錯誤選項:
- (A) k-means 不適合非球形或密度變化大的群集
- (B) k-means 可能陷入局部最小值,無法保證最佳結果
- (C) k-means 需要事先指定群集數 kkk,無法自動決定群集數
? 本題正確答案:「(D)」
0
0