- 混合策略和期望收益的基本概念
- 在博弈论中,混合策略是指参与者以一定的概率选择不同的纯策略。期望收益则是在考虑这些概率的情况下,参与者所能获得的平均收益。
- 以“石头 - 剪刀 - 布”游戏为例
- 游戏规则回顾
- 石头胜剪刀,剪刀胜布,布胜石头。如果双方出一样的手势,则为平局。
- 构建收益矩阵
- 设玩家1和玩家2进行游戏。我们可以构建一个收益矩阵来表示每个策略组合下玩家1的收益。
- 当玩家1出石头,玩家2出石头时,玩家1收益为0(平局);当玩家1出石头,玩家2出剪刀时,玩家1收益为1(胜利);当玩家1出石头,玩家2出布时,玩家1收益为 - 1(失败)。
- 同理,当玩家1出剪刀,玩家2出石头时,玩家1收益为 - 1;玩家1出剪刀,玩家2出剪刀时,收益为0;玩家1出剪刀,玩家2出布时,收益为1。
- 当玩家1出布,玩家2出石头时,玩家1收益为1;玩家1出布,玩家2出剪刀时,收益为 - 1;玩家1出布,玩家2出布时,收益为0。
- 收益矩阵如下:
- 设玩家1和玩家2进行游戏。我们可以构建一个收益矩阵来表示每个策略组合下玩家1的收益。
- 游戏规则回顾
“石头 - 剪刀 - 布”收益矩阵
玩家 1\玩家 2 | 石头 | 剪刀 | 布 |
---|---|---|---|
石头 | 0,0 | 1,-1 | -1,1 |
剪刀 | -1,1 | 0,0 | 1,-1 |
布 | 1,-1 | -1,1 | 0,0 |
这样的格式更加清晰、直观地展示了不同策略组合下的收益情况。
- 混合策略的设定
- 假设玩家1以概率 p 1 p_1 p1选择石头,概率 p 2 p_2 p2选择剪刀,概率 p 3 p_3 p3选择布,且 p 1 + p 2 + p 3 = 1 p_1 + p_2 + p_3 = 1 p1+p2+p3=1。玩家2以概率 q 1 q_1 q1选择石头,概率 q 2 q_2 q2选择剪刀,概率 q 3 q_3 q3选择布,且 q 1 + q 2 + q 3 = 1 q_1 + q_2 + q_3 = 1 q1+q2+q3=1。
- 计算玩家1的期望收益
- 玩家1的期望收益 E 1 E_1 E1可以通过以下方式计算:
- E 1 = p 1 × ( q 1 × 0 + q 2 × 1 + q 3 × ( − 1 ) ) + p 2 × ( q 1 × ( − 1 ) + q 2 × 0 + q 3 × 1 ) + p 3 × ( q 1 × 1 + q 2 × ( − 1 ) + q 3 × 0 ) E_1 = p_1\times(q_1\times0 + q_2\times1 + q_3\times(-1))+p_2\times(q_1\times(-1)+q_2\times0 + q_3\times1)+p_3\times(q_1\times1 + q_2\times(-1)+q_3\times0) E1=p1×(q1×0+q2×1+q3×(−1))+p2×(q1×(−1)+q2×0+q3×1)+p3×(q1×1+q2×(−1)+q3×0)
- 化简后: E 1 = p 1 × ( q 2 − q 3 ) + p 2 × ( q 3 − q 1 ) + p 3 × ( q 1 − q 2 ) E_1 = p_1\times(q_2 - q_3)+p_2\times(q_3 - q_1)+p_3\times(q_1 - q_2) E1=p1×(q2−q3)+p2×(q3−q1)+p3×(q1−q2)
- 玩家1的期望收益 E 1 E_1 E1可以通过以下方式计算:
- 特殊情况分析
- 例如,如果玩家2以相同的概率 1 / 3 1/3 1/3选择石头、剪刀和布(即 q 1 = q 2 = q 3 = 1 / 3 q_1 = q_2 = q_3 = 1/3 q1=q2=q3=1/3),那么玩家1的期望收益为:
- E 1 = p 1 × ( 1 / 3 − 1 / 3 ) + p 2 × ( 1 / 3 − 1 / 3 ) + p 3 × ( 1 / 3 − 1 / 3 ) = 0 E_1 = p_1\times(1/3 - 1/3)+p_2\times(1/3 - 1/3)+p_3\times(1/3 - 1/3) = 0 E1=p1×(1/3−1/3)+p2×(1/3−1/3)+p3×(1/3−1/3)=0
- 这意味着无论玩家1采用何种混合策略,其期望收益都是0,因为玩家2的策略是均匀分布的,游戏在这种情况下是公平的。
- 例如,如果玩家2以相同的概率 1 / 3 1/3 1/3选择石头、剪刀和布(即 q 1 = q 2 = q 3 = 1 / 3 q_1 = q_2 = q_3 = 1/3 q1=q2=q3=1/3),那么玩家1的期望收益为:
- 以“性别战”博弈为例
- 游戏规则
- 一对情侣决定晚上的活动,有两种选择:看足球比赛或者看芭蕾舞演出。男生更喜欢看足球比赛,女生更喜欢看芭蕾舞演出。但是他们都更愿意在一起而不是分开活动。
- 构建收益矩阵
- 设男生选择看足球比赛的收益为2(如果女生也一起看足球比赛),选择看芭蕾舞演出的收益为1(如果女生选择看芭蕾舞演出)。女生选择看芭蕾舞演出的收益为2(如果男生也一起看芭蕾舞演出),选择看足球比赛的收益为1(如果男生选择看足球比赛)。如果两人选择不同的活动,双方收益都为0。
- 收益矩阵如下:
“性别战”收益矩阵
- 游戏规则
男生\女生 | 足球比赛 | 芭蕾舞演出 |
---|---|---|
足球比赛 | 2,1 | 0,0 |
芭蕾舞演出 | 0 ,0 | 1,2 |
这样的格式更加清晰、直观地展示了不同策略组合下的收益情况。
- 混合策略的设定
- 假设男生以概率 p p p选择看足球比赛,那么以概率 1 − p 1 - p 1−p选择看芭蕾舞演出。女生以概率 q q q选择看足球比赛,以概率 1 − q 1 - q 1−q选择看芭蕾舞演出。
- 计算男生的期望收益
- 男生的期望收益 E m E_m Em为:
- E m = p × ( q × 2 + ( 1 − q ) × 0 ) + ( 1 − p ) × ( q × 0 + ( 1 − q ) × 2 ) E_m = p\times(q\times2+(1 - q)\times0)+(1 - p)\times(q\times0+(1 - q)\times2) Em=p×(q×2+(1−q)×0)+(1−p)×(q×0+(1−q)×2)
- 化简后: E m = 2 p q + 2 ( 1 − p ) ( 1 − q ) E_m = 2pq + 2(1 - p)(1 - q) Em=2pq+2(1−p)(1−q)
- 进一步展开: E m = 2 p q + 2 − 2 q − 2 p + 2 p q = 4 p q − 2 p − 2 q + 2 E_m = 2pq + 2 - 2q - 2p + 2pq = 4pq - 2p - 2q + 2 Em=2pq+2−2q−2p+2pq=4pq−2p−2q+2
- 男生的期望收益 E m E_m Em为:
- 求解混合策略纳什均衡(特殊情况)
- 在纳什均衡下,双方都不愿意改变自己的策略。令 ∂ E m ∂ p = 0 \frac{\partial E_m}{\partial p} = 0 ∂p∂Em=0,求男生期望收益关于 p p p的偏导数:
- ∂ E m ∂ p = 4 q − 2 = 0 \frac{\partial E_m}{\partial p}=4q - 2 = 0 ∂p∂Em=4q−2=0,解得 q = 1 / 2 q = 1/2 q=1/2。
- 同理,计算女生的期望收益并求关于 q q q的偏导数,令其为0,可以得到 p = 1 / 2 p = 1/2 p=1/2。
- 这说明在混合策略纳什均衡下,男生和女生都以 1 / 2 1/2 1/2的概率选择看足球比赛和芭蕾舞演出。此时,男生的期望收益为 E m = 4 × ( 1 / 2 ) × ( 1 / 2 ) − 2 × ( 1 / 2 ) − 2 × ( 1 / 2 ) + 2 = 1 E_m = 4\times(1/2)\times(1/2)-2\times(1/2)-2\times(1/2)+2 = 1 Em=4×(1/2)×(1/2)−2×(1/2)−2×(1/2)+2=1,女生的期望收益也为1,双方都达到了一种平衡状态,没有动力去单方面改变策略。
- 在纳什均衡下,双方都不愿意改变自己的策略。令 ∂ E m ∂ p = 0 \frac{\partial E_m}{\partial p} = 0 ∂p∂Em=0,求男生期望收益关于 p p p的偏导数: