Lecture 4: Q-learning (table)

A.I/RL by Sung Kim

궁선이 2019. 1. 23. 17:21

이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다.

https://youtu.be/MQ-3QScrFSI

-------------------------------------------------------------------------------------------------------------------------------------------------

3강에서 배운 Dummy Q-learning의 단점은 바로 기존에 학습된 Policy로만 계속 움직인다는 것.

Exploit vs Exploration

Exploit : 기존에 학습된 경로로 이동한다.

-> 기존에 가던 식당을 간다.

Exploration : 새로운 경로를 찾아 나서본다.

-> 새로운 식당을 찾아 나서 본다.

1. E-greedy

e factor를 사용하여 학습한다.

random값이 e보다 작으면 Exploration 하게 색다른 경로로 탐색을 나선다.

2. Decaying E-greedy

제한된 environment 내에서는 Exploration하게 이동하는 것도 반복을 하다보면 의미가 없어진다.

학습초기에는 Exploration 하게 자주 움직이다가 반복횟수가 늘어날수록 e factor의 크기를 줄여서 Exploit 하게 움직인다.

3. Random noise

Random noise를 Q(s,a) 에 더해줌으로써 Q(s,a)의 값들에 변동을 준다.

따라서 기존에는 Q(s,a)의 가장 큰 값이 계속 선택될 확률이 높았으나, Noise가 더해짐으로써 다른 값들도 선택될 확률이 높아짐.

4. Decaying Random noise

Random noise에 Decaying 적용

Discounted factor

현재로 부터 멀리 떨어진 단계의 state의 reward일 수록 penalty를 강하게 부과한다.

일반 공식

Q-learning algorithm

강좌에 나오는 코드는 다음 Github에 구현해 놓았습니다.

https://github.com/whitesoil/ReinforceLearningZeroToAll