强化学习玩雀魂(1)

约 1164 字大约 4 分钟

2025-09-17

本文总结了一下视频中所展示的一些问题

视频是对北京大学组织的一个麻将(国标)比赛的总结,网站是这里

麻将算法的困难

目前比较成功的麻将 AI 有微软的 Suphx 和腾讯的 MJOLNIR

对于微软的 Suphx, 其用了很多的小 trick, 不同的策略加了不少不同的层, 很多不平凡的设计

对于腾讯, 用的和 PPO 很类似, 但是双人麻将和四人麻将差别还是挺大的

采用的是北大的对战平台, 由于比赛的随机性, 所以对于同样的牌山, 会进行 4! 次轮换, 这样可以减少随机性的影响

在算法上, 大体可分为三类

启发式算法, 主要是基于规则的, 通过一些启发式的规则来进行决策

监督学习, 通过模仿现有的数据集来进行决策, 直接对每个局面预测动作

这样的算力要求就很低了, 但很难超过数据集的水平

第一届数据集很差, 所以监督学习的水平不是很高, 但还是超过了所有的启发式算法

最简单的方法, 把局面信息转为一个标量, 编码到数组中

把局面信息转为一个图像, 通过卷积神经网络来进行处理

比如 34张牌*重复张数4

也可以 4种花色*9张 * 重复张数 4

使用较深的网络来处理图像特征, 大部份使用的是 ResNet, 实验表明卷积网络的较果比全连接处理标量特征的表达能力更强

把1-9万, 1-9条, 1-9筒, 东南西北中发白进行对称变换, 这样可以增加数据量

也可以把1-9换成9-1, 这样也不影响策略

这里就是我想改进的地方, 不是数据增强, 而是学习这些变换, 但最大的问题还是怎么表示差距呢

在比赛中, 监督学习逐渐成为主流, 主要是其速度快, 资源少, 强化学习由于其大量的计算资源, 高校还是难以承受的

第一届中前三名是腾讯, 网易和快手

采用的算法架构是一致的

有的会预训练, 由于比赛的随机性, 对局末的得分进行一个归一化, 还有的进行一些CTDE, 把策略和价值分开, 价值用的是全局信息输入, 策略用的是局部信息输入, 可以更准确的估计价值

注

23 年的国科大的经验表明, 但算力不足的情况下, DQN 算法会比 PPO 更好主要是因为 DQN 要更稳定, 从零开录的PPO 有一些番种会从来不做, 不从零开始的也会丢失一些番种能力, PPO<DQN<监督学习

怎么评价智能体的好坏, 麻将有随机性, 不能单纯的看胜率

其次的不稳定, 很多番种没有学会