网易公开课《博弈论》笔记
Posted on March 30, 2019 • 1 minutes • 157 words
Table of contents
网易公开课《博弈论》(耶鲁)的一些笔记记录.
第一讲:
- 不要选择劣势策略
- 理性选择可能导致次优的结果
- 学会换位思考
- 当你想得到某件东西之前,先了解这样东西
第二讲:
- 弱优势策略
- 迭代淘汰理论
- 一个策略可能目前不是劣势策略,但当我们淘汰掉目前劣势策略后,它有可能变成新的劣势策略
第三讲:
- 中位选民理论
- 没有优势策略的情况下,对手选择的概率能计算出我们做出什么选择收益较大(线性方程)
第四讲:
- 最佳对策:我的选择 Si是对手选择Si‘的最佳对策,当且仅当参与人i在对手的策略S-i选择Si时收益弱优于其他策略Si’
- 也可以定义为: Si是当对手选择Si‘时,能让我收益最大化的决策
- 当我和对手互相不断地,迭代地抛弃劣势策略时,最后会在纳什平衡点得到平衡
第五讲:
- 纳什均衡:策略组合是一个集合,该集合包含每一个参与人的一个已选策略(s1*,s2*…sm*).对于任意一个人的策略选择si*,是其他参与人所选策略(s*-i)的最佳对策
- 如果其他任何人都不改变策略,自己改变策略没有好处
- “不后悔”:只有参与了纳什均衡才不后悔
- 自然选择会逐渐倾向于纳什均衡,并且不一定是优势的纳什均衡
- 自然趋向有时候取决于初始状态
- 纳什均衡能通过沟通,而并不需要合同就可以改善结果。囚徒却需要合同
- 协同谬误造成银行挤兑
第六讲:
- 领导力能促进纳什均衡
- 古诺双寡头模型:策略替代博弈,你越多,我就会选择越少
- 当一方垄断时吗,整个市场利润最大
- 双寡头在竞争中, 达到纳什平衡是最佳的选择,就是古诺产量
- 如果签署协议强制产量,达到利润最大,这时会有其他公司乘机而入
- 完全竞争是产量最大,古诺模型次之,垄断产量最少。价格正好相反
- 完全竞争产量: 需求曲线和边际成本的交点(不挣钱)
第七讲:
- 伯川德模型的纳什均衡是双方都把价格定到边际成本,也就是双方都不挣钱
- 选举模型
第八讲:
- 选举模型:当双方出于纳什平衡时,第三方的加入会打破。
- 如果选举双方的立场太偏向极端,会给第三方的选举人带来机会并获胜
- 种族隔离:是一种稳定,严格的纳什均衡。非稳定均衡可能因为少数人的选择,就偏向崩塌
- 随机化有时候能解决选择隔离的问题。纯随机化的策略也叫混合策略
- 混合策略是剪刀石头布的纳什均衡,并且是唯一的
第九讲:
- 混合策略纳什均衡:一个混合策略组合如果是一个纳什均衡(也就是最优混合策略),那其中每一个纯策略都是最佳策略
- 混合策略中,间接影响(战略影响)往往比直接影响大
第十讲:
- 混合棒球策略
- 约会策略
- 报税策略: 提高逃税惩罚,由于没有改变审计员的混合策略收益,并不会改变纳税人的均衡(提高纳税率),而且会降低审计率。根据理论,富人(逃税收益高的)非但不会逃税,而且更容易受审查
- 混合策略中,均衡有三种:1真正的随机 (棒球) 2. 人们的信念(约会) 3. 社会当中某种人的比例(纳税)
- 检验均衡:寻找是否有向纯策略的改变,没有就已均衡
- AB两方混合博弈中,改变A的收益,就会导致B的混合均衡改变
第十一讲:
- 不会被突变占领的遗传(或者不会被淘汰的突变)叫做进化稳定策略
- 根据博弈论,进化(无性繁殖)并不一定有利的,不好的进化可能会占领种群
- 如果策略(S, S)不是纳什均衡,那么S就不是进化稳定策略
- 纳什均衡并不一定是进化稳定策略。但如果是严格纳什均衡,那么就是进化稳定策略
- 进化稳定性:(定义见书,不好写)
- 突变如果面对正常收益很低,或者同类收益很低,都会导致灭绝
第十二讲:
- 在一个被定义为纯粹混合纳什均衡里, 混合策略里的各个策略收益都是一样的
- 自然界中,如果赢得一场争斗的获利要比代价大,那么在争斗中就会产生进化稳定。如果争斗的获利要比代价小,就会出现混合策略
- 博弈论并不是根据事实来反推公式,而是根据公式预测事实
- 物种之间可能会根据混合策略来互相牵制
第十三讲:
- 贯序博弈:参与人2在决定前,知道参与人1采取了什么样的策略 。而且参与人1明白这个状况
- 道德风险会降低博弈双方的收益
- 担保是承诺策略的一种,能降低道德风险,提高双方博弈收益。
- 在贯序博弈中,有时候放弃部分选择权可能使收益扩大
- 逆向归纳法:根据树形图决策节点反推
第十四讲:
- 在双寡头贯序博弈中,不再是古诺模型,而是先决策方有优势(先行得利模式),获得更多产量和更多利润。但需要沉没陈本做出承诺
- 有时候,太多信息可能会害了你(商业间谍)
- 并不是所有博弈都是先行得利的
第十五讲:
- 策梅洛定理: 在一个双人游戏中,满足:
- 双人轮流行动
- 有限步。比如国际象棋好像重复出现三次相同的棋局判和
- 信息完备。所谓信息完备,大概是玩家明确知道所有之前的步骤。
- 仅有3种结局,对于玩家1只有:赢,和,输三种结局
当满足上述条件的游戏,只会出现下面情况之一:
- 玩家1有必胜招。就是玩家1按照某种特定的走法,不论玩家2如何努力,玩家1都可以赢
- 玩家1有必和招。
- 玩家2有必胜招。
- 完全信息博弈:每一轮的每个参与者,都知道自己在整个博弈的哪个节点
- 如果只是机械地寻找博弈中的纳什均衡,可能会出现一些很荒谬的决策
第十六讲:
- 理性的人偶尔会去装作不理性吓退对手,这就是“连锁店效应”
- 人质谈判:绝不向绑架者妥协,建立声望
- 决斗:当到了双方成功几率和大于1的点时,接下来的任何一方都应该开枪了。而大多数情况,大家都开枪太早。有时候,等待是个好策略
第十七讲:
- 逆向归纳不一定管用,因为有时候人们会关系收益之外的事,比如公平
- 轮流提议的议价过程。如果次数可以是无限的,并且折损很小或者没有,并且双方折旧因素相同(耐心是一样的) ,那么双方收益往往是一致的。所以通过逆向归纳,理论上可以一次成交
- 如果双方耐心不同,耐心较多的一方收益更大。
- 现实生活中,双方折旧因素是未知的,而且真实的利润也是未知的 ,所以往往无法一次成交,而是需要多次议价
第十八讲:
- 信息集合:是一系列信息人i无法识别的节点
- 完美信息:树图上所有节点都是单节点(没有信息集合)
- 非完美信息下的策略:告诉参与者,在每个信息集合下应该怎么做。
- 子博弈:一个博弈的一部分,树图中的一部分。它有三个特点:1.它必须从某个单节点开始。2.它包含该节点的所有后代节点 3.它不能破坏任何信息集合
- 如果一个纳什均衡,在任一子博弈中都能达到纳什均衡,称为子博弈精炼均衡
第十九讲:
- 子博弈精炼均衡与逆向归纳法的结果一致
- 先分析子博弈,求出子博弈纳什均衡。再从子博弈出发,回过头做决定
- 经济学和会计学的答案的差异,是以为经济学考虑到了战略决策的影响
第二十讲:
- 沉没成本:已经失去了的,就不用再考虑了。每次都是重新博弈。
- 消耗战,贿赂竞赛会带来大量的沉没成本。就算是理性的参与者也会深陷消耗战
- 消耗战中,在每个阶段都有继续打下去的可能,但概率是逐渐降低的
第二十一讲:
- 持续合作
- 在一个长期关系中,对将来奖励的承诺,和对未来惩罚的威胁,可能会鼓励现在人们的好行为。
- 囚徒困境的教训: 要有一个明确的未来,这样会为现在的行动提供激励
- 连任失败效应:失去对未来的激励
- 如果一个阶段博弈有1不止一个纳什均衡,我们可以通过预测不同策略的结果,来为下一次行动提供激励
- 恐怖扣扳机策略:如果一个博弈我们不知道它什么时候会结束,大家都会采取合作,直到第一个背叛产生
- 平衡:如果背叛的诱惑 < 合作的奖励-背叛的惩罚
第二十二讲:
- 通过扣扳机策略,能在囚徒困境中促成合作,而这也是一个子博弈精炼均衡(在折旧率较大时)
- 要想让一段持续的关系能够促成今日的善行,如果这段关系有较大的概率持续下去,促成善行也能够办到
- 关系持续的概率就是你对未来的加权
- 扳机策略由于会因为一小点欺骗就带来合作的崩溃,显得太苛刻。惩罚策略相比就显得温和一些
- 惩罚策略:如果上回合是(C,C)或者(D,D)则选择合作,如果是(C,D),(D,C)则选择背叛
- 如果你希望惩罚措施别太严厉,但又要维持合作关系,但此时未来的加权要更大
- 如果希望持续关系中今天能促成善行,那么对明天必须有一定奖赏。如果你对明天的加权或者维持关系的概率较低,奖赏就要更丰富。
第二十三讲:
- 不传达信息行为(掩盖)这本身也是一种信息
- 读取更高的学历其实是提高了"好雇员&坏雇员"的区分度,提高成本,达到均衡
- 一个成功的信号,要能区分开不同的人。并不一定要高成本,但一定要通过成本区分不同的人
- 如果成本降低,人们就会通过其他手段找回成本差别(学位膨胀)
- 如果想让教育作为分离手段(达到平衡),总有孩子必须会被落在后面
第二十四讲:
- 赢家的诅咒:拍卖中的赢家是与真实价值相差最大的
- 出价时的相关价值就是:基于我一开始的估值,并且这个估值比其他人的估值大时,我认为它的真实价值。也就是说,你的出价应该考虑的是你赢的情况。因为如果你不能赢,你的出价是没有意义的。
- 在第二价格类型拍卖中,出价刚好等于价值是弱优势策略
- 各种拍卖方式,在机会均等的原则下,收益期望都是一样的
(完)