28.關於關聯法則的敘述,下列哪一項錯誤?
(A) 為找出所有頻繁項目集與找出頻繁項目集中具有強關聯規則的規則
(B) 從數量低的集合開始,當發現該集合不是頻繁的,則它的母集反而需要考 慮
(C) FP-growth 算法比 Apriori 算法更有效率
(D) 當資料集很大時,Apriori 算法需要不斷掃描資料集造成運行效率很低

答案:登入後查看
統計: A(5), B(30), C(12), D(5), E(0) #3103453

詳解 (共 1 筆)

#6324681

解析

關聯法則 (Association Rule) 主要用來找出資料中項目間的關聯性,例如市場籃分析 (Market Basket Analysis),常見算法包括:

  • Apriori Algorithm
  • FP-Growth Algorithm (Frequent Pattern Growth)

關聯規則主要有兩個階段:

  1. 找出所有頻繁項目集 (Frequent Itemsets)
  2. 找出強關聯規則 (Strong Association Rules)

選項分析

(A) 為找出所有頻繁項目集與找出頻繁項目集中具有強關聯規則的規則 ✅ 正確

  • 關聯規則挖掘分成兩個步驟
    1. 找出頻繁項目集 (Frequent Itemsets)。
    2. 產生關聯規則 (Association Rules)。
  • 這符合關聯法則的基本概念。

(B) 從數量低的集合開始,當發現該集合不是頻繁的,則它的母集反而需要考慮 ❌錯誤

  • Apriori 性質 (Apriori Property)如果某個項目集不是頻繁的,那它的超集 (母集) 一定也不是頻繁的
  • 正確的做法是「剪枝」:當某個集合不是頻繁的,就不需要考慮它的母集,而不是反過來考慮母集。
  • 錯誤點:「該集合不是頻繁的,則它的母集反而需要考慮」這句話是錯的,應該是「不需要考慮」。

(C) FP-growth 算法比 Apriori 算法更有效率 ✅ 正確

  • FP-Growth (Frequent Pattern Growth) 是 Apriori 的改進版本
    • 它使用樹狀結構 (FP-Tree) 來儲存頻繁模式,減少了多次掃描數據集的需求
    • 比 Apriori 快,特別適用於大數據集

(D) 當資料集很大時,Apriori 算法需要不斷掃描資料集造成運行效率很低 ✅ 正確

  • Apriori 需要多次掃描整個數據集 (iterative candidate generation & testing),這在大型數據集中會導致效能低下。
  • 這是 FP-Growth 被設計來改進 Apriori 的主要原因。

結論

錯誤的選項是 (B),因為如果某個集合不是頻繁的,那它的母集 (超集) 也不可能是頻繁的,所以應該直接剪枝,而不是繼續考慮母集。

0
0