预测算法基本思想（解读冷扑大师背后的AI算法和博弈论）

问耕发自 LZYY

量子位报道 | 公众号 QbitAI

昨天下午，量子位在中关村举办了一个技术沙龙，邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等，从技术和实战的角度，对德州扑克人机大战进行解读。

嘉宾介绍

预测算法基本思想（解读冷扑大师背后的AI算法和博弈论）(1)

李天放

创新工场AI工程院技术负责人，课程格子的创始人，前微软工程师，以及著名大数据公司Palantir早期成员。德州扑克职业玩家。

以下是李天放对德州扑克AI的技术解读：

文字版本整理如下：

AI算法和博弈论，这两个交叉点还是有一点难度的。

先从博弈论开始。

大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克，翻硬币，剪刀石头布这类游戏里面，纳什平衡点的定义是：如果双方都在用一个比较好的战略，任何一方做出调整结果都会更糟糕，也就是存在一个平衡点，使得两个人都不能再进步。

相比于石头剪刀布，一对一的德州扑克，是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点？这是此类AI算法的核心。

CounterFactual Regret Minimization(CFR，反事实遗憾最小化)，这是一个类似强化学习的算法，但是更高效。让AI之间对战德扑，采用随机的策略，然后每局过后看看在什么地方后悔了，然后尝试不同的战略，再在决策点上复盘。

这个算法与人类学习德州类似：累积经验、评判自己的选择，但需要注意的是，这里正确的“后悔点”非常重要。德州扑克有很强的随机性，所以很容易陷入错误的学习方式。

算法很简单，问题是无限德州的空间太大了，复杂度是10的160次方。有几种解决方案：合并简化 CFR(Claudico)，CFR “直觉”(DeepStack)，CFR End Game Solver RL(Libratus)。

预测算法基本思想（解读冷扑大师背后的AI算法和博弈论）(2)

总结一下：

· CFR类似于强化学习。权重调整基于概率。

· AI的战略和学习方式和职业牌手相似，但是更准确。

上述内容视频版本，请前往量子位微信公众号(ID：QbitAI)查看。

量子位招聘

我们正在招募编译、编辑、记者、市场、运营等多个岗位，工作地点在北京中关村，期待你的到来，一起体验人工智能的风起云涌。

相关细节，请在公众号对话界面，回复：“招聘”两个字。

今天AI界还有哪些事值得关注？

在量子位（QbitAI）公众号会话界面回复“今天”，看我们全网搜罗的AI行业和研究动态。笔芯❤~

另外，欢迎加量子位小助手的qbitbot，如果你研究或者从事AI领域，小助手会把你带入量子位的交流群里。