为什么要做JoyRL Book
?
JoyRL Book
侧重于帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架,便于读者适应业界应用研究风格的代码。
与蘑菇书的区别?
-
理论深度不同:蘑菇书侧重更详细更通俗的理论讲解,适合细嚼慢咽的读者,
JoyRL Book
则致力于方便应用的核心理论,讲解相对更加简明,适合具有一定数学基础且希望快速进入实践应用的读者。 -
代码实战不同:蘑菇书以
Jupyter Notebook
形式讲解基础的算法,JoyRL Book
则配套一个更完整的代码生态,具体见关于JoyRL
部分。JoyRL Book
与蘑菇书各有侧重点,读者可根据自身情况按需择取。
关于JoyRL
?
JoyRL
旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态,主要包括JoyRL离线版
,JoyRL在线版
,JoyRL论文
等几大部分:
- JoyRL离线版:离线版开源框架。保留每个算法的完整结构,便于读者学习使用,配以中文注释,适合读者学习使用。在此基础上,编写完整的框架(例如配置多线程)帮助读者进行强化学习的高效应用。同时也是开发版框架,在开发新的算法时首先会在离线版中测试,然后同步到
JoyRL在线版
。 - JoyRL在线版:以
PiP
包的形式开发开源框架,英文注释,会比离线版更加集成,更加高效,并且会去掉一些实际并不常用的基础算法,例如Q-learning
等等,适合需要大规模环境应用的读者进阶使用 - JoyRL论文:定时收集强化学习各类子方向的前沿论文,帮助读者快速了解相关领域的研究
地址:https://johnjim0816.com/joyrl_book/
章节 | 关键内容 |
---|---|
第一章 绪论 | 待更新 |
第二章 马尔可夫决策过程 | 马尔可夫决策过程、状态转移矩阵 |
第三章 动态规划 | 贝尔曼方程、策略迭代、价值迭代 |
第四章 免模型预测 | 蒙特卡洛、时序差分 |
第五章 免模型控制 | Q-learning 算法、Sarsa 算法 |
第六章 深度学习基础 | 待更新 |
第七章 DQN算法 | 目标网络、经验回放 |
![]() John Jim 教程设计与算法实战 |
![]() Qi Wang 教程设计 |
![]() Yiyuan Yang 教程设计 |