【預告】4/1起,頁面上方功能列以及下方資訊全面更換新版。 前往查看
線上筆記功能 將於2024/1/1 移除,請至課程與筆記使用新版筆記功能

主題:博弈理論


想要觀看完整全文,請先登入

~精修 (二) : 博奕理論 : 一、「囚犯的兩難處境」是「博奕理論」非常著名的「二人博奕」: 話 說兩名犯事的同黨同時被捕,被分別關在兩個獨立的不能互通信息的牢房裏進行審訊。假如兩人皆保持沉默,死不招供的話(也就是與他的同謀合作),則由於證據 不足,兩人皆只會輕判一年;但只要其中一人供出他的同黨(即背叛他的同謀),他自己會獲得釋放,但另一被出賣的囚犯就被判20年了。如果兩人都招供的話, 則會各被判五年 。 顯然最好的策略是雙方都保持沉默,結果大家都只被判一年。但是由於兩人被隔離而無法串通,因此按照Adam Smith的理論,每個人都是從「利己」的「目的」出 發,他們選擇坦白交代是最佳策略。因為同伴保持沉默而自己招供的話,可望獲得釋放,顯然要比保持沉默要坐一年牢好。不僅如此,如果對方招供而自己保持沉 默,那自己就得坐20年牢!因此,在這情況下還是選擇招供好,即使兩人同時招供,最多也只判五年,總比被判20年好吧。所以,兩人選擇坦白,而原本對雙方 都有利的策略 ( 保持沈默 ) 和結局 ( 被判一年刑期 ) 就不會出現。 各人追求自己利益而導致的最終結局就是所謂「納什均衡」,也是對所有人都不利的結局。從「納什均衡」中我們還可以悟出一個真理:「合作」是有利的「利己策略」,不過在現實生活中非合作的情況要比合作情況普遍。 二、「互惠性利他行為」:   「博奕理論」學者使人類行為之研究變得簡潔無比 , 但卻犧牲了不少現實層面的考慮。他們假設人們所追求的生活目標 , 可以統一為一個單一的心理面向--「幸福快樂」或「實質效益」; 而且進一步假設 , 在追求過程中是「完全理智」的。 任何一位演化心理學家都會告訴你 , 這樣的假設是錯的。人不是計算機 , 而是動物 ; 人是受到些許理智引導 , 但也受其他力量影響的動物。而且無論多麼看重長期的幸福 , 人們畢竟不是設計來創造最大的幸福的。 但是 , 人們卻是由高度理智且冷漠超然的過程研設計出來的 , 而且目的是要擴大整體基因普及率 , 也就是血緣適存度。當然 , 由這個過程所產生的設計 , 不見得一定行得通。個別的有機體往往因各種原因而未能將基因傳遞下去 ( 失敗是必然的。這就是演化一定會發生的原因 ) 。況且就人類而言 ,人類的設計圖是在與現今社會截然不同的環境中製成的。現在的人住在城市或郊區 , 閒來便看電視、喝啤酒 , 而腦中洶湧、反覆的情感 , 卻是原本設計使小型捕獵 | 採集社會的成員大量繁衍其基因用的。難怪人們似乎總追求不到幸福、血緣適存度或任何其他目標。 應用「博奕理論」這個利器來研究人類的演化時 , 最好遵循幾個簡單的原則。首先 , 這場「遊戲」的 目的應設定為基因的最大普及率。第一,了解這場遊戲的背景應反映祖先環境中的真實狀況 , 這個狀況與捕獵 / 採集社會的環境大致相同。第三 , 找到最理想的策略時 , 實驗還未結束。最後一步是結算 , 藉以描繪出何種情感最能引導人們去實行這個策略。在理論上而言 ,這些情感應該是人性的一部份 , 是演化的遊戲重複無數世代之後的結果。 互惠性利他行為是怎麼演化出來的呢 ? 這個演化謎團和囚犯困境 , 有異曲同工之妙。某人背叛同伴 , 但對方忠誠依舊 , 就好比動物由於利他行為而受惠 , 但從不回報對方。兩人相互背叛 ,就好比動物根本不互惠 , 雖然雙方可能會因此而得到好處 , 但是誰也不肯冒險跨出友好的第一步。彼此忠於對方 , 就等於是互惠性利他在這個回合中取得勝利。但仍有一個問題:既然對方的回饋不是必然的 , 為什麼還要施惠呢 ? 實驗模式和現實生活畢竟不是完全吻合的。在「互惠性利他理論」中 , 施惠行為與受惠者的回饋行為之間會相隔一段時間 ; 但在囚犯的困境中 , 施惠與回饋卻同時發生。但是這個差別無關緊要 , 因為囚犯無法就其目前所作的決定進行溝通 , 所以他們各自的處境與動物的處境是一樣的 ..不知道友好的序曲會不會得到回應。如果讓同樣的對手一局接一局地玩下去 , 變成「重覆性囚犯的困境, 而且雙方都可以參考對方先前的行為 , 來決定未來要如何應對 , 那麼過去種了善果的人 , 便可能在未來得利----互惠性利他理論便是如此。其實 , 實驗模式和現實生活之間還算吻合。「重覆性囚犯的困境」必然演繹至雙方合作的方向上 ; 自然界不斷演化 , 亦演繹出互惠性利他行為 , 兩者殊途同歸。而這個演繹邏輯之精華 , 就是「非零和現象」。 三、「非零和現象」: 假設你是隻黑猩猩,殺了一隻小猴仔,然後把一部份的肉分給近來缺糧的同伴,就說分了五兩肉吧,而這代表你少了五個點數。此時的重點是,對方獲得的利益大於 你的損失,因為他正處於非常需要食物的時刻,所以對他而言間,食物的真正價值非常高 ( 這裡指的是食物對他的基因繁衍的貢獻 ) 。如果他是人,能思考他的處境 , 而且被迫簽下契約的話 , 他可能會答應在下週領了薪水之後 , 立刻買六兩肉來償還現在這五兩肉。所以 ,在這場交易中,雖然你只給他五個點數,但他得到了六個點數。這場「非零和遊戲」的重點在於:遊戲中任一人的收益不等於對方的損失。「非零和遊戲」的 特色是,透過合作 ( 或說互惠 ),雙方都有所得。如果那隻黑猩猩在他擁有大量肉食,而你幾乎山窮水盡的時候,回報你五兩肉,那麼他只要犧牲五個點數,便令你有六個點數的收穫。結果你們 兩人都從交易中得到一個點數的淨利。一連打數局的網球 , 或一連打好幾洞的高爾夫球,都只能產生一個贏家。「囚犯」的「困境問題」則不然,因為那是「非零和遊戲」。只要合作的話 ,兩邊都是贏家。穴居人甲和穴居人乙若肯結合起來,一同獵捕一人無法制服的禽獸的話,雙方的家人都可吃頓大餐;否則的話,誰都吃不到這些野味。 「分工」產生了大量的「非零和現象」,你成了縫合獸皮的專家,供應我衣物;我則磨製石器及木柄,為你作矛箭。此例以及上述的黑猩猩之例,和其他許多非零和現象,其關鍵在於這隻動物多餘的東西,對另一隻動物而言卻是彌足珍貴的東西。這個情況屢見不鮮。 在分享食物的例子中,用「互惠性利他」的 方式,你可以得一個點數;要是用欺騙的,接受他人慷慨的魄贈但絕不回饋,則可得六個點數。這個情況似乎表示,比較起來,合作實在沒什麼價值,如果能剝削他 人的話,就儘量剝削。況且,要是假設有可供剝削的人,合作仍然不見得是最佳策略,身邊盡是想辦法要剝削你的人,那麼你恐怕得採取相互剝削的策略,才能把損 失減到最低。非零和現象到底能不能促進互惠性利他的演化,和當時的社會風氣有很大的關懷。若想採用「囚犯的困境」這個模式 , 還得予以改進 , 只指出非零和現象是不夠的。 四、虛擬子民「一報還一報」:   然而 , 演化心理學家已越來越能概略地重演演化過程 , 崔佛斯於1971年發表「互惠性利他理論」時, 電腦還是專家才會用的新奇玩意兒,個人電腦則根本不存在。雖然崔佛斯成功地用「囚犯的困境」來分析他的理論,但並未談及實際模擬這個模式 -- 在電腦裡創造出一批人,這些人不斷地面對這個兩難問題,成則生;敗則亡,並讓天擇進行自然的篩選。1970年代, 一位美國政治科學家羅伯﹒艾索洛德設計出一個電腦世界,在裡面安置了一批「居民」;接著他邀請「博奕理論」的專家,為「重覆性囚犯的困境」擬出一套蘊含某種策略的電腦程式,程式會根據本身的原則,來決定與其他程式碰面時要不要合作。他絲毫未曾提及演化,這並非他的原始動機。然後他讓程式自動執行。這樣的「競賽環境」, 相當符合人類及人類前身演化時的社會環境;其社會規模很小,只有幾十個人 ( 程式 ) 在互動。每個程式都「記得」之前與其他程式相過時有無合作,並據此來調整自己的行為。每個程式都與其他每個程式碰面了兩百次之後,艾索洛德便把每個程式的 分數加總起來,選出一個贏家;接著以這個系統化篩選所得的第二代再進行一場競爭。每一程式所佔之比例,代表其第一代之成功率;適者才能生存。如此一代又一 代地進行下去。如果互惠性利他理論是正確的,那麼在艾索洛德的電腦世界中,互惠性利他程式應該會「演化」成龐大的族群。 的確如此。獲勝的那個程式是加拿大的博奕理論專家安那托﹒拉披坡特所設計的 , 叫做「一報還一報」。「一報還一報」的原則只有五行而已,是所有提交的程式中最簡短的。因此,如果策略由電腦的隨機變化來產生,而不是由人來設計,「一報 還一報峙的策略可能是電腦最早跑出來的策略之一。「一報還一報」的確名符其實。在初次遇到任何其他程式的時候,它會合作;之後,上次對方怎麼對待它,這次 它就如數回報回去、也就是說,善行報之以善;惡行報之以惡。這個策略的優點和策略本身一樣簡單,如果對方有合作傾向,「一報還一報」便與它結為盟友,共享 合作的果實;但如果對方有背叛傾向,「一報還一報」就拒絕合作以降低損失,除非對方又變好了。這一來便不會因為他人的剝削 , 而付出高昂的代價,「一報還一報」便不會像無差別待遇的合作傾向那樣 ,一再成為受害者。「一報還一報」亦不會像絕對不合作的程式那樣不得善終;這種程式只想剝削其他程式,但一遇到那種除非你示好我才會示好的程式,便會因為 一直互相背叛而付出慘重的代價。「一報還一報」根本就放棄藉剝削他人而得到一次龐大的利益。而那些以剝削為志的策略 , 不管是無情的背叛還是不斷突如其來的背叛,在遊戲的過程中會慢慢地落後;別的程式都不再善待它 ,因此它既不能剝削他人以獲得重大利益,也不能和他人合作而得應有的成果。「一報還一報」勝過絕對壞心眼的程式 ,也勝過各種規則繁複得令其他程式難以了解的「聰明」程式;由於條件明確 , 使得它在長期的競賽中拔得頭籌。 [ 資料來源 : mail.tku.edu.tw/mingming/自覺/game%20theory.htm  ]  

想要觀看完整全文,請先登入