March 30, 2019

网易公开课《博弈论》笔记

Posted on March 30, 2019 • 1 minutes • 157 words

Table of contents

网易公开课《博弈论》（耶鲁）的一些笔记记录.

第一讲:

不要选择劣势策略
理性选择可能导致次优的结果
学会换位思考
当你想得到某件东西之前，先了解这样东西

第二讲:

弱优势策略
迭代淘汰理论
一个策略可能目前不是劣势策略，但当我们淘汰掉目前劣势策略后，它有可能变成新的劣势策略

第三讲:

中位选民理论
没有优势策略的情况下，对手选择的概率能计算出我们做出什么选择收益较大（线性方程）

第四讲:

最佳对策：我的选择 Si是对手选择Si‘的最佳对策，当且仅当参与人i在对手的策略S-i选择Si时收益弱优于其他策略Si’
也可以定义为: Si是当对手选择Si‘时，能让我收益最大化的决策
当我和对手互相不断地，迭代地抛弃劣势策略时，最后会在纳什平衡点得到平衡

第五讲:

纳什均衡：策略组合是一个集合，该集合包含每一个参与人的一个已选策略（s1*,s2*…sm*）.对于任意一个人的策略选择si*，是其他参与人所选策略（s*-i）的最佳对策
如果其他任何人都不改变策略，自己改变策略没有好处
“不后悔”：只有参与了纳什均衡才不后悔
自然选择会逐渐倾向于纳什均衡，并且不一定是优势的纳什均衡
自然趋向有时候取决于初始状态
纳什均衡能通过沟通，而并不需要合同就可以改善结果。囚徒却需要合同
协同谬误造成银行挤兑

第六讲:

领导力能促进纳什均衡
古诺双寡头模型：策略替代博弈，你越多，我就会选择越少
当一方垄断时吗，整个市场利润最大
双寡头在竞争中, 达到纳什平衡是最佳的选择，就是古诺产量
如果签署协议强制产量，达到利润最大，这时会有其他公司乘机而入
完全竞争是产量最大，古诺模型次之，垄断产量最少。价格正好相反
完全竞争产量：需求曲线和边际成本的交点（不挣钱）

第七讲:

伯川德模型的纳什均衡是双方都把价格定到边际成本，也就是双方都不挣钱
选举模型

第八讲:

选举模型：当双方出于纳什平衡时，第三方的加入会打破。
如果选举双方的立场太偏向极端，会给第三方的选举人带来机会并获胜
种族隔离：是一种稳定，严格的纳什均衡。非稳定均衡可能因为少数人的选择，就偏向崩塌
随机化有时候能解决选择隔离的问题。纯随机化的策略也叫混合策略
混合策略是剪刀石头布的纳什均衡，并且是唯一的

第九讲:

混合策略纳什均衡：一个混合策略组合如果是一个纳什均衡（也就是最优混合策略），那其中每一个纯策略都是最佳策略
混合策略中，间接影响（战略影响）往往比直接影响大

第十讲:

混合棒球策略
约会策略
报税策略: 提高逃税惩罚，由于没有改变审计员的混合策略收益，并不会改变纳税人的均衡（提高纳税率），而且会降低审计率。根据理论，富人（逃税收益高的）非但不会逃税，而且更容易受审查
混合策略中，均衡有三种：1真正的随机（棒球） 2. 人们的信念（约会） 3. 社会当中某种人的比例（纳税）
检验均衡：寻找是否有向纯策略的改变，没有就已均衡
AB两方混合博弈中，改变A的收益，就会导致B的混合均衡改变

第十一讲:

不会被突变占领的遗传（或者不会被淘汰的突变）叫做进化稳定策略
根据博弈论，进化（无性繁殖）并不一定有利的，不好的进化可能会占领种群
如果策略（S, S）不是纳什均衡，那么S就不是进化稳定策略
纳什均衡并不一定是进化稳定策略。但如果是严格纳什均衡，那么就是进化稳定策略
进化稳定性：（定义见书，不好写）
突变如果面对正常收益很低，或者同类收益很低，都会导致灭绝

第十二讲:

在一个被定义为纯粹混合纳什均衡里，混合策略里的各个策略收益都是一样的
自然界中，如果赢得一场争斗的获利要比代价大，那么在争斗中就会产生进化稳定。如果争斗的获利要比代价小，就会出现混合策略
博弈论并不是根据事实来反推公式，而是根据公式预测事实
物种之间可能会根据混合策略来互相牵制

第十三讲:

贯序博弈：参与人2在决定前，知道参与人1采取了什么样的策略。而且参与人1明白这个状况
道德风险会降低博弈双方的收益
担保是承诺策略的一种，能降低道德风险，提高双方博弈收益。
在贯序博弈中，有时候放弃部分选择权可能使收益扩大
逆向归纳法：根据树形图决策节点反推

第十四讲:

在双寡头贯序博弈中，不再是古诺模型，而是先决策方有优势（先行得利模式），获得更多产量和更多利润。但需要沉没陈本做出承诺
有时候，太多信息可能会害了你（商业间谍）
并不是所有博弈都是先行得利的

第十五讲:

策梅洛定理：在一个双人游戏中，满足：

双人轮流行动

有限步。比如国际象棋好像重复出现三次相同的棋局判和
信息完备。所谓信息完备，大概是玩家明确知道所有之前的步骤。
仅有3种结局，对于玩家1只有：赢，和，输三种结局

当满足上述条件的游戏，只会出现下面情况之一：

玩家1有必胜招。就是玩家1按照某种特定的走法，不论玩家2如何努力，玩家1都可以赢

玩家1有必和招。
玩家2有必胜招。

完全信息博弈：每一轮的每个参与者，都知道自己在整个博弈的哪个节点
如果只是机械地寻找博弈中的纳什均衡，可能会出现一些很荒谬的决策

第十六讲:

理性的人偶尔会去装作不理性吓退对手，这就是“连锁店效应”
人质谈判：绝不向绑架者妥协，建立声望
决斗：当到了双方成功几率和大于1的点时，接下来的任何一方都应该开枪了。而大多数情况，大家都开枪太早。有时候，等待是个好策略

第十七讲:

逆向归纳不一定管用，因为有时候人们会关系收益之外的事，比如公平
轮流提议的议价过程。如果次数可以是无限的，并且折损很小或者没有，并且双方折旧因素相同（耐心是一样的），那么双方收益往往是一致的。所以通过逆向归纳，理论上可以一次成交
如果双方耐心不同，耐心较多的一方收益更大。
现实生活中，双方折旧因素是未知的，而且真实的利润也是未知的，所以往往无法一次成交，而是需要多次议价

第十八讲:

信息集合：是一系列信息人i无法识别的节点
完美信息：树图上所有节点都是单节点（没有信息集合）
非完美信息下的策略：告诉参与者，在每个信息集合下应该怎么做。
子博弈：一个博弈的一部分，树图中的一部分。它有三个特点：1.它必须从某个单节点开始。2.它包含该节点的所有后代节点 3.它不能破坏任何信息集合
如果一个纳什均衡，在任一子博弈中都能达到纳什均衡，称为子博弈精炼均衡

第十九讲:

子博弈精炼均衡与逆向归纳法的结果一致
先分析子博弈，求出子博弈纳什均衡。再从子博弈出发，回过头做决定
经济学和会计学的答案的差异，是以为经济学考虑到了战略决策的影响

第二十讲:

沉没成本：已经失去了的，就不用再考虑了。每次都是重新博弈。
消耗战，贿赂竞赛会带来大量的沉没成本。就算是理性的参与者也会深陷消耗战
消耗战中，在每个阶段都有继续打下去的可能，但概率是逐渐降低的

第二十一讲:

持续合作
在一个长期关系中，对将来奖励的承诺，和对未来惩罚的威胁，可能会鼓励现在人们的好行为。
囚徒困境的教训：要有一个明确的未来，这样会为现在的行动提供激励
连任失败效应：失去对未来的激励
如果一个阶段博弈有1不止一个纳什均衡，我们可以通过预测不同策略的结果，来为下一次行动提供激励
恐怖扣扳机策略：如果一个博弈我们不知道它什么时候会结束，大家都会采取合作，直到第一个背叛产生
平衡：如果背叛的诱惑 < 合作的奖励-背叛的惩罚

第二十二讲:

通过扣扳机策略，能在囚徒困境中促成合作，而这也是一个子博弈精炼均衡（在折旧率较大时）
要想让一段持续的关系能够促成今日的善行，如果这段关系有较大的概率持续下去，促成善行也能够办到
关系持续的概率就是你对未来的加权
扳机策略由于会因为一小点欺骗就带来合作的崩溃，显得太苛刻。惩罚策略相比就显得温和一些
惩罚策略：如果上回合是（C，C）或者（D，D）则选择合作，如果是（C，D），（D，C）则选择背叛
如果你希望惩罚措施别太严厉，但又要维持合作关系，但此时未来的加权要更大
如果希望持续关系中今天能促成善行，那么对明天必须有一定奖赏。如果你对明天的加权或者维持关系的概率较低，奖赏就要更丰富。

第二十三讲:

不传达信息行为（掩盖）这本身也是一种信息
读取更高的学历其实是提高了"好雇员&坏雇员"的区分度，提高成本，达到均衡
一个成功的信号，要能区分开不同的人。并不一定要高成本，但一定要通过成本区分不同的人
如果成本降低，人们就会通过其他手段找回成本差别（学位膨胀）
如果想让教育作为分离手段（达到平衡），总有孩子必须会被落在后面

第二十四讲:

赢家的诅咒：拍卖中的赢家是与真实价值相差最大的
出价时的相关价值就是：基于我一开始的估值，并且这个估值比其他人的估值大时，我认为它的真实价值。也就是说，你的出价应该考虑的是你赢的情况。因为如果你不能赢，你的出价是没有意义的。
在第二价格类型拍卖中，出价刚好等于价值是弱优势策略
各种拍卖方式，在机会均等的原则下，收益期望都是一样的

（完）

Follow me