如名所示,本项目意欲用alphago[1]所采用的的算法来建造一个下五子棋的AI。
一为学习,二主要是不想用启发式+搜索,因为获得好的启发式很难,且不自由。
实际上,已有很多五子棋AI[2]很厉害,相关算法可以参考这儿[3]或这儿[4]。
目前采用新方法的一些尝试[5]还没有达到期望。
就像alphago[1],我们也想采用类似的方式:
-
- 用监督学习训练策略网络
-
- 在前面的基础上,通过self-play来增强策略网络和训练一个值网络
-
- 用MCTS结合它们
对于监督学习,首先是收集数据。
我们的数据采集自gomocup前几名AI对弈记录。
你可以在这儿[6]下载,它们是经过对称旋转变换的。
做了几种不同的数据集,9x9和15x15大小的,有csv格式和TFRecord格式,
数据的含义参考[6]里的README。
主要的文件有:
main.py #GUI,提供人机对弈界面和其它一些功能入口(通过按键)
game.py #一局游戏,由2个AI和1个棋盘组成,可以有或没有GUI
board.py #棋盘状态
strategy.py #策略(AI)基类
strategy_dnn.py #使用dnn作决策的AI
dnn*.py #不同结构的DCNN,从本身运行可训练或强化, 用到tensorflow
mcts.py #TODO MCTS,使用NN记录统计信息
mcts1.py #单线程MCTS,使用Tree记录统计信息
dfs.py #另一个AI,来自[7]
server.py #用于和gomocup的其它AI切磋,因为gomocup manager[8]
#是个Windows程序,而我们的程序主要跑在Linux上,
#所以做了一次转发:
#gomocup manager <-> Windows stub[9] <-> server.py
为了跑起来,你需要在代码里改些配置,主要是在config.py里。
监督学习: python dnn3.py
强化学习: python main.py, 再按F4
参与到gomocup manager: python server.py
-
- 探索新的网络结构,增加特征面
-
- 解决或绕开self-play过拟合的问题
[1]Mastering the game of Go with deep neural networks and tree search
[2]Gomoku AI
[3]Gomoku Resources
[4]Carbon Gomoku
[5]Convolutional and Recurrent Neural Network for Gomoku
[6]Gomoku Dataset
[7]Gobang game with AI in 900 Lines
[8]Gomocup Manager
[9]Windows gomocup stub
[10]Human-level control through deep reinforcement learning
[11]MCTS
-
- 监督学习所用的数据集会严重影响训练效果。
之前我们用一个比较简单的启发式AI生成的数据集就连简单的规则都学不会,
和人博弈时简直就是乱下
- 监督学习所用的数据集会严重影响训练效果。
-
- 用CNN描述棋盘状态,同样一些input features用不同形式喂给CNN,对结果影响不大
-
- loss曲线和真正的效果感觉很奇怪
-
- 直接和gomocup的其它AI对弈做强化学习实在是太慢,因为它们搜索一步
都要很久,感觉self-play才是出路,要么能从很少的对弈中学习
- 直接和gomocup的其它AI对弈做强化学习实在是太慢,因为它们搜索一步
-
- 当前监督学习得到的策略网络预测正确率只有40%多,应该还有提升空间。
-
- self-play的做法和alphago[1]一样的: 在对手池中挑一个对手,与之对弈,
对手总采用贪婪策略,己方做探索,满足一定条件后加入对手池。
看起来很完美,但是通过self-play得到的agent会过拟合于自己的对手,虽然可以打败了所有以前的对手,
但是实际上变得没有通用性了,仅仅是这些以前的那些对手的克星。
- self-play的做法和alphago[1]一样的: 在对手池中挑一个对手,与之对弈,
-
- 单线程MCTS[11]太慢,不实用,得改成APV-MCTS[1]
email: [email protected]
QQ: 363599755
微信: splendor_k