48. 機器學習中的「強化學習(Reinforcement Learning)」強調Agent透過與環境互動獲得的獎勵或懲罰(Reward/Penalty)來修正行為策 略,以追求長期利益最大化。這種「後果決定行為頻率」的運算邏輯,最符合下列哪一項心理學機制?
(A)Pavlov的信號替代:強調刺激與刺激間的預測關係
(B)Thorndike的效果律:強調反應後的滿意效果能加強刺激與反應間聯結
(C)Tolman的潛在學習:強調在無顯著強化下建立的認知地圖
(D)Bandura的替代強化:強調觀察他人行為結果後的模仿意願

答案:登入後查看
統計: A(41), B(420), C(8), D(34), E(0) #3910409

詳解 (共 2 筆)

#7394687
題目關鍵字分析: 機器學習中的「強...
(共 807 字,隱藏中)
前往觀看
6
0
#7391103

(A) Pavlov的信號替代 ✗

Ivan Pavlov 的古典制約理論強調:

  • 刺激與刺激之間的連結(S-S)。
  • 例如鈴聲預告食物。

重點是「預測關係」,不是行為後果。

(B) Thorndike的效果律 ✓

  • 強調行為後果影響未來行為頻率。
  • 最符合獎勵/懲罰機制。
  • 與強化學習概念最接近。
5
0

私人筆記 (共 1 筆)

私人筆記#8225745
未解鎖
學者與機制 核心邏輯 與強化學...
(共 373 字,隱藏中)
前往觀看
1
0