看完博弈论(之一)

博弈论读后感

博弈术语:收入矩阵,均衡,纳什均衡,零和博弈理论,也称为交互式决策理论。它的基本假设之一是人是理性的。但是现实并非如此。人们不可能一直都有完整的知识或理性的想法。尽管如此,人们仍然愿意使用博弈论方法来解释和分析真实的社会现象。

每个人际交往都可以简化为两个基本选择:合作或背叛。例如,在上一本日志中提到的囚徒困境,囚徒困境在人际交往中很常见:双方都知道合作可以带来双赢,但是由于理性的自私和缺乏信任,合作很难形成。当一次性游戏出现时,人们经常选择背叛。在现实生活中,有许多示例,例如机场。为什么粮食价格这么高?因为它知道等待的乘客将不会是其长期客户。而当游戏的结局未知时,则是另一回事。

在许多游戏中,背叛仍然是不可避免的,但是合作的可能性将高于一场游戏。至于如何更有效地减少背叛,一种方法是引入一种惩罚机制,可以是有剑的法律或较温和的道德约束。在小组活动中等待登机的实际问题就是一个例子,而让迟到的人则是一种惩罚。

  看完博弈论(二)

我读的这本书是由中国人民大学出版社的王泽科和李杰编辑的“博弈论教程”。本书共分为九章。我自己学习了前七章,并总结了我的学习经验。

游戏可以大致分为以下两类:根据游戏双方是否同时做出决定,游戏可以分为:同时决策游戏(静态游戏),顺序决策游戏(动态游戏)和混合决策游戏。同时决策游戏和顺序决策游戏。根据每个人在各种游戏情况下是否都知道每个玩家的利益,可以将其分为:完全信息游戏和不完全信息游戏。*组合它,您将找到游戏的四个主要部分:具有完整信息的静态游戏,具有不完整信息的静态游戏,具有完整信息的动态游戏和具有不完整信息的动态游戏。

同时决策游戏

纳什均衡:仅玩家改变策略的游戏将不会受益,即策略组合,即纳什均衡。假设是人类游戏的策略组合。如果对于每个玩家,所有人都持有,那么我们将策略组合称为游戏的纳什均衡。

当然,如果刚开始有一些好心人表现出合作态度,那么不管这些好心人的目的是什么,也有助于增加合作机会。合作一旦开始,人们就可以体验合作的好处,并愿意坚持一会儿。至于时间长短,关键是看比赛是否结束。上面也提到了这一点,如果终点很明确,人们往往会在最后一次背叛。当所有人都知道对方会以这种方式思考时,倒数第二个时间将成为新的结局,新的背叛。有了这样反复的推论,从一开始就很难形成合作。注意,以上讨论是基于无惩罚机制的。

Xrod做了一个非常有趣的实验。这是计算机模拟竞赛。参加比赛的62位科学家提交了他们自己的游戏策略代码,以及Xroder本人编写的随机策略代码,总计63位。结果显示,排名前15位的排名中只有八分之一是出于恶意程序,最后15个程序只有一个精心设计的程序。获胜者是对奖励策略的奖励。

这种非凡的一对一策略是,我将回应另一方选择的任何内容。如果您合作,我会合作,您也会背叛我。该策略体现了良好的品质,例如友善,易怒,宽容和简单。尽管此策略在每次游戏中都不能超过对手的得分,但其总得分最高。它为生存奠定了坚实的基础。这个无辜的计划的成功是基于其他人的失败。可以想象,如果这些程序被赋予了进化基因,那么,意图不强的程序的生存率将随着时间的流逝而下降。

优势策略分为严格优势策略和弱优势策略,可以使用严格的劣等策略一一消除以找到纳什均衡。相对优势策略可以使用相对优势策略破折号方法或箭头指向法来找到纳什均衡。

混合策略纳什均衡

因为有时Nash平衡不是唯一的,有时Nash平衡不存在。有时无法通过上述方法找到博弈的结果,因此有必要扩大纳什均衡。

混合策略和纯策略之间的区别在于,混合策略意味着游戏中的玩家可以根据一定概率从策略组合中随机选择一个纯策略作为实际动作。

混合策略:在有N个玩家参与的策略游戏中,假设玩家具有一个纯策略,即概率分布,其中,它被称为玩家的混合策略,此处表示玩家选择的概率一个纯粹的策略。

混合策略纳什均衡:指的是在对手选择相对最优的混合策略的情况下,可以最大化玩家自身预期收益的混合策略。必须满足的条件如下:

利用反应函数法和直线交叉法,找到同时决策有限博弈的混合策略纳什均衡。当存在多个纳什均衡时,有必要使用帕累托优势标准或风险优势标准进行过滤。

帕累托效率标准:经济效率反映在社会资源的分配和人民条件的改善上。这主要取决于资源是否得到充分利用。如果要提高一个人的利益,则必须损害局中其他人的利益。假设某经济体已实现帕累托效率。相反,如果能够在不损害他人的情况下改善任何人,则认为没有充分利用经济资源,不能说经济已达到帕累托最优。

顺序决策博弈

顺序决策游戏的一个重要特征是,总是有一个玩家率先采取行动,从而获得了先行优势和次要优势。先行优势:尽管双方都受益,但做出第一个决定并首先采取行动的一方会获得更多收益(例如情侣游戏)。搬迁后的优势:尽管双方都受益,但在决策后采取行动的一方将受益更多(例如蛋糕共享,产品定价)。在本节中,我们必须准确地掌握先动者优势和后进者优势的概念,放弃先行者的利益大于后者的利益,即先行者的利益而后者的利益大于先行者的利益。后者的优势概念。

使用后向推理方法找到顺序决策博弈的纳什均衡。

同时游戏和顺序游戏

子游戏:在单人扩展游戏中,满足以下三个条件的游戏称为子游戏:(1)游戏树是游戏树的分支; (2)游戏不能划分游戏信息集,特别是,只要游戏某个信息集的任何决策节点都是游戏的决策节点,那么该游戏信息集的每个决策节点都必须是游戏的决策节点; (3)游戏的结束节点处的支付向量与游戏的这些末端节点处的支付向量的相关部分重合。

重复的游戏和战略行动

子博弈细化了纳什均衡:让我们表示阶段博弈,它是重复博弈。如果存在唯一的纳什均衡,则重复博弈的唯一子博弈会细化纳什均衡结果,即阶段博弈的纳什均衡。在游戏的每个阶段出现的都是一次游戏的均衡结果。

对于无限重复的囚徒困境游戏,有一些触发策略。两种著名的触发策略是无情策略和礼貌策略。冷淡的策略:双方从一开始就选择合作,然后继续选择合作,直到一方选择背叛并选择永远背叛。这种策略的原因是游戏中任何人一次背叛都会违反永恒的不合作。 。互惠策略:一开始就与冷战策略相同,即双方选择合作。在随后的每个阶段中,如果您的对手在最近的游戏中采用合作策略,或者在最近的k个策略中选择合作策略,则您将继续合作。如果您的对手在游戏的前阶段采取了背叛策略,则您将在游戏的下一阶段采取背叛策略进行报复,或者在接下来的k个策略中选择背叛进行报复。

对手是否采取背叛策略取决于有效回报率。

零和博弈

零和游戏,也称为零和游戏,与非零和游戏相反。这是一个非合作游戏。它是指参与游戏的各方。在严格的竞争中,一方的收益不可避免地意味着另一方的损失。损失总和始终为零。双方之间没有合作的可能性。

要找到两人零和游戏的纯策略纳什均衡,可以使用相对优势策略画线,也可以使用最小-最大方法。最小-最大方法基于这样的思想,即游戏中的玩家与自己进行零和游戏。取得良好结果的机会表示悲观的态度。游戏中的玩家使用maxmaxin的决策原则,游戏中的玩家使用minimax的决策原则。对于零和博弈,该方法只是纯策略纳什均衡。

  看完博弈论(三)

博弈论是一门非常深入的科学,主要研究个人如何在复杂的互动中提出最合理的策略。它的应用领域也非常广泛。最常见的应用是经济学。本书中的理论很深刻,其数学模型的推导更加复杂。但是,本书中的案例既简单又生动,值得一看。现在举一个例子来分析事实并与大家分享乐趣。

这个例子是指着游戏的故事。大概是:猪圈中有两只猪,()一头大猪和一头小猪。猪圈的一侧有一个踏板。每次踩踏板时,踏板都在猪圈的另一侧。

少量食物会从口中掉出来。如果一只猪踩踏板,另一只猪就有机会先吃掉掉落在另一侧的食物。当仔猪踩踏板时,大猪会在仔猪跑到谷底之前吃掉所有的食物。如果大猪踩踏板,则有机会在小猪吃掉掉的食物之前奔向小猪。食槽,争取剩下的一半。

那么,这两只猪会采取什么策略呢?答案是:小猪会选择搭便车的策略,那就是在谷底舒适地等待;大猪不知疲倦地冲向踏板和谷之间一点点剩菜。

是什么原因?因为仔猪踩踏板时什么也不会得到,但是他可以不用踩踏板就可以吃东西。对于小猪,无论大猪是否踩踏板,始终不踩踏板总是一个不错的选择。另一方面,大猪知道小猪不会踩踏板。最好自己踩踏板,所以我必须自己做。

小猪躺在大猪上并奔跑的现象是由故事中的游戏规则引起的。该规则的核心指标是:每次掉落的食物量以及踏板和进料口之间的距离。如果更改核心指标,是否还会有猪躺在猪舍中奔跑的场景?试试看。

变更计划1:减少计划。份量仅为原始量的一半。结果,小猪和大猪停止了踩踏。如果小猪踩到它,大猪会吃掉食物;如果大猪踩它,小猪也会吃掉食物。踩踏板的人都会向他人提供食物,因此没有人会踩踏板。

变更计划二:增量计划。进料加倍。结果是猪和猪都会踩踏板。想要吃饭的人会踩踏板。无论如何,另一方不会立即完成食物。小猪和大猪相当于生活在物质相对丰富的共产主义社会中,因此竞争意识不是很强。

变更计划3:减少和变更计划。进纸量仅为原始量的一半,但同时进纸口在踏板附近移动。结果,小猪和大猪都拼命地踩踏板。那些等待的人不能吃东西,但是努力工作的人会得到更多。每次收获都被消耗掉了。

这个故事给竞争较弱的人(小猪)以等待作为最佳策略的灵感。但是就社会而言,由于仔猪不能参加比赛,所以当仔猪骑车时分配社会资源并不是最好的。为了最有效地分配资源,规则的设计者不想看到人们搭便车。*和公司老板都是如此。能否完全消除搭便车现象取决于游戏规则的核心指标是否设置得当。

书中有很多例子,经过分析,我们都可以意识到一些事实。因此,当您阅读它时,您会有一种感觉,那就是首先有事实,然后有理论。也就是说,我们常说的理论来自实践。感觉好像首先存在这种社会现象,然后用这个理论对其进行分析。这种理论完全符合这种社会现象。