47. 在深度 Q 網路 (DQN) 中引入目標網路 (Target Network) 的主要目的為?
(A) 降低目標值與被更新網路的耦合以穩定學習過程 (Decoupling and Stability)
(B) 讓行為策略的探索率固定在特定常數範圍內 (Fixed Exploration Rate)
(C) 確保智慧體在單一回合內獲得累積獎勵最大化 (Maximize Reward)
(D) 增加神經網路層數以提升模型的學習容量 (Model Capacity)

答案:登入後查看
統計: 尚無統計資料