Skip to content
keicoon15 edited this page Aug 21, 2018 · 1 revision

Deep Q-learning은 기존의 Q-learning에서 사용하는 State-Action Table(Tabular Q Value Function)을 DNN으로 대체한 학습입니다. DQN에서는 Q-Function으로 대부분 CNN 모델을 사용하며 Q-learning 업데이트 시 TD-error 값을 DNN의 loss 값으로 사용하여 regression 학습을 진행합니다.

DQN을 구성할 때는 몇 가지 특징이 있습니다.
첫 번째로, 그림에서 보이는 Target 모델은 DQN 모델의 weight가 빈번하게 변하여 학습이 불안정해지는 것을 방지하기 위해 별도로 구성된 fixed weight를 가지는 DQN 모델이며 일정 주기마다 training model의 weight를 반영하도록 합니다. 그리고 data inefficiency를 방지하기 위해 replay memory를 두어 random-sampling을 통해 안정적인 training data가 구성되도록 합니다. 마지막으로 reward clipping을 통해 다양한 state에서 동일한 reward가 반영되도록 합니다.

Clone this wiki locally