48. 機器學習中的「強化學習(Reinforcement Learning)」強調Agent透過與環境互動獲得的獎勵或懲罰(Reward/Penalty)來修正行為策
略,以追求長期利益最大化。這種「後果決定行為頻率」的運算邏輯,最符合下列哪一項心理學機制?

(A)Pavlov的信號替代:強調刺激與刺激間的預測關係

(B)Thorndike的效果律:強調反應後的滿意效果能加強刺激與反應間聯結

(C)Tolman的潛在學習:強調在無顯著強化下建立的認知地圖

(D)Bandura的替代強化:強調觀察他人行為結果後的模仿意願

答案:登入後查看
統計: A(0), B(2), C(0), D(0), E(0) #3910409