机器之心报道

机器之心编辑部

李宏毅、周博磊、李科浇等大咖老师亲笔推荐,Datawhale 开源的蘑菇书 EasyRL 强化学习教程终于有了第一版纸质书。

作为人工智能里最受关注的领域之一,强化学习的热度一直居高不下,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。但是,强化学习的学习难度也同样不低。

在学习强化学习的过程中,想必很多人都遇到过有无数资料却难以入门的问题。于是,非盈利性开源学习组织 Datawhale 发起了强化学习系列教程 ——easy-rl,希望自学的同时帮助更多学习者轻松入门。

该教程也被称为「蘑菇书」,主要萃取了强化学习领域经典中文视频之一 —— 李宏毅老师的《深度强化学习》教程、周博磊老师的《强化学习纲要》和李科浇老师的《世界冠军带你从零实践强化学习》等经典课程。

发布 10 个月以来,该教程已经在 GitHub 上获得了 3.6k Star。

李宏毅专访(李宏毅等大咖推荐)(1)

GitHub 项目地址:https://github.com/datawhalechina/easy-rl

Datawhale 免费提供了 PDF 版教程,目前下载量已经 1 万。2022 年 2 月 1 日,在人民邮电出版社的支持下,《Easy RL 强化学习教程》第一版纸质书终于问世。

李宏毅专访(李宏毅等大咖推荐)(2)

本书适合对强化学习感兴趣的读者阅读,也可以作为相关课程的配套教材。

书籍特色及大纲

首先,本书结合了强化学习领域公开课的精华。比如,李宏毅老师的《深度强化学习》通过幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。

来自中科院大学、清华、北大的三位发起者 —— 王琦、杨毅远和江季,通过自学这 3 门公开课,根据自身的理解整理优化得来了《Easy RL:强化学习教程》,并且获得了三位公开课老师的支持。

李宏毅专访(李宏毅等大咖推荐)(3)

其次,本书完全根据学习经历编著而成。本书完全从读者学习的角度出发,既有学霸学长在学习中的重点 ——3 门公开课的精华内容,还有学霸凝练的精华和扩展的内容 —— 作者们在大部分章末设置了原创的关键词、习题和面试题,提供 Python 代码实现。帮助初学者避「坑」,用轻松的步伐入门强化学习。其实,每个人在学习一门新的课程时,都会有自己独特的经验和方法,这种经验和方法的共享非常难能可贵。

最后,本书得到了李宏毅、周博磊、李科浇、汪军、张伟楠、李升波、胡裕靖等 7 位强化学习领域大咖老师的亲笔认可和推荐

具体地,本书共 13 章,大体上可以分为两个部分。

第一部分包括第 1~3 章,介绍强化学习基础知识以及马尔可夫决策过程、蒙特卡洛方法、时序差分方法、Sarsa、Q 学习传统强化学习算法。

第二部分包括第 4~13 章,介绍策略梯度、近端策略优化、深度 Q 网络、深度确定性策略梯度等深度强化学习算法及其常见问题的解决方法。该部分各章节相对独立,读者可以根据自己的兴趣和时间选择性阅读。

此外,本书还提供较为全面的习题解答以及 Python 代码实现,可以让读者进行端到端、从理论到轻松实践的全生态学习,充分掌握强化学习算法的原理并能进行实战。

部分章节目录如下:

李宏毅专访(李宏毅等大咖推荐)(4)

给读者的三点学习建议

一,通过关键词高效入门。

为了尽可能地降低阅读门槛,作者们在「蘑菇书」中对 3 门公开课的精华内容进行了选取和优化,对所涉及的公式给出了详细的推导过程,对较难理解的知识点进行了重点讲解和强化,以方便读者轻松入门。并且,为了丰富内容,书中还补充了不少 3 门公开课之外的强化学习相关知识。

在学习过程中,可以通过书中总结的大量关键词概念,高效地回忆并掌握核心内容。

二,可以作为面试前的准备。

书籍拓展了习题和面试题:习题部分以问答的形式阐述了相应章中出现的知识点,帮助读者厘清知识脉络;面试题部分的内容源于大厂的算法岗面试真题,通过还原真实的面试场景和面试问题,帮助读者开阔思路,助力大家面试理想的岗位。

李宏毅专访(李宏毅等大咖推荐)(5)

题目配有答案详解。

三,通过代码实战深入理解。

强化学习是一个理论与实践相结合的学科,我们不仅要理解算法背后的原理,还要通过上机实践来实现算法,让理论知识得到实际的应用。

书籍配有 Python 代码实现源代码,大家可以亲自动手实现各种经典的强化学习算法,通过实战更清晰地理解算法并快速应用。

作者简介

王琦,中国科学院大学硕士在读,Datawhale 成员。主要研究方向为深度学习、数据挖掘。曾获中国大学生计算机设计大赛二等奖、亚太地区大学生数学建模竞赛 (APMCM)二等奖和「挑战杯」竞赛江苏省选拔赛二等奖,发表 SCI/EI 论文 3 篇。

杨毅远,清华大学硕士在读, Datawhale 成员。主要研究方向为时空数据挖掘、智能传感系统、深度学习。曾获全国大学生智能汽车竞赛总冠军、中国国家奖学金,发表 SCI/EI 论文 7 篇,其中以第一作者身份在 SCI 的 Q1 区、Q2 区及中国计算机学会(CCF)A、B 类会议中发表论文 4 篇。

江季,北京大学硕士在读, Datawhale 成员。主要研究方向为强化学习、机器人。曾获大学生电子设计竞赛 —2018 年嵌入式系统专题邀请赛(英特尔杯)一等奖,发表顶会论文 1 篇、专利 2 项。

,