45. Q 學習 (Q-learning) 為 off-policy 方法，其實務風險之一是？ (A) 行為策略與目標策略不一致，易導致估計偏差與訓練不穩 (Policy Mismatch) (B) 演算法設計本質使模型在任何情境下皆完全無法使用離線資料 (Offline Data) (C) 模型訓練過程高度依賴具有專家標籤的成對監督式資料集 (Paired Data Only) (D) 在處理連續動作空間時會因探索機制限制而絕對無法收斂 (Non-convergence)