試卷名稱:115年 - 115-1 中國工業工程學會_工業工程師等相關證照考試:人工智慧#136739
年份:115年
科目:CIIE◆智慧製造
45. Q 學習 (Q-learning) 為 off-policy 方法,其實務風險之一是?
(A) 行為策略與目標策略不一致,易導致估計偏差與訓練不穩 (Policy Mismatch)
(B) 演算法設計本質使模型在任何情境下皆完全無法使用離線資料 (Offline Data)
(C) 模型訓練過程高度依賴具有專家標籤的成對監督式資料集 (Paired Data Only)
(D) 在處理連續動作空間時會因探索機制限制而絕對無法收斂 (Non-convergence)