-
Notifications
You must be signed in to change notification settings - Fork 0
Q learning
keicoon15 edited this page Aug 21, 2018
·
1 revision
Q-learning은 강화학습(Reinforcement Learning)의 하나의 모습이다.
기계학습의 여러 종류 중의 하나인 강화학습은 항상 목표(보상)를 가지고 있지 않으므로 지도학습(각각의 학습의 목표가 정해져 있음)과 비지도학습(목표(라벨)이 정해지지 않음)의 경계에 있다고 볼 수 있다.
Q-learning은 주어진 상태에서 주어진 행동을 선택하여 최적의 정책을 수립할 수 있는 Q 함수를 학습한다. 다시 말하자면 주어진(한정된) 상태(range)에서 주어진 행동(x)을 선택하여 얻은 보상(y)가 가장 효율적인 Q-Function을 찾는 과정이다. 특징으로는 이런 학습의 효용성이 state, action에 따라 크게 변하지 않는다는 점이다.
각 상태에서 최적의 행동은 그 상태에서 장기적으로 가장 큰 보상을 얻을 수 있도록 하는 행동을 말하며 장기적인 보상을 계산할 때에는 가감된 보상의 총계(sum of discounted rewards)의 기댓값을 계산해야 한다. 이 때 단순히 reward를 이전 state의 reward에 더하는 것이 아닌 discount factor를 곱하여 현재 얻는 보상이 미래에 얻는 보상보다 얼마나 더 중요한지 반영해준다.