티스토리 뷰
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다.
https://youtu.be/xgoO54qN4lY
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
OpenAI GYM : RL학습에서 Environment 구축을 도와주는 Framework
앞으로 강의에서 사용할 Environment인 Frozen Lake 환경
실제로는 길이가 16인 배열이다.
S : Starting point
F : 얼어있는 영역(안전지대)
H : Hole(위험지대)
G : Goal
Agent : Environment에서 움직이는 캐릭터
Environment : Frozen Lake
Action : 상하좌우 운동
State : Agent의 위치
Reward : 성공, 실패, 피해 여부
Agent가 Action을 Environment에게 보내면 Environment는 Agent가 위치한 State의 기준에서 Action을 실행한 후,
Agent에게 Agent의 State(위치), reward(성공, 실패, 피해 여부)를 반환하여준다.
이 때 Environment는 실제로 길이가 16인 배열이므로, State는 배열의 Index인 0~15 로 올 것이다.
OpenAI GYM의 사용법은 아래의 Github을 참고하시기 바랍니다.
강좌에 나오는 코드는 다음 Github에 구현해 놓았습니다.
https://github.com/whitesoil/ReinforceLearningZeroToAll
'A.I > RL by Sung Kim' 카테고리의 다른 글
Lecture 6: Q-Network (0) | 2019.01.23 |
---|---|
Lecture 5: Nondeterministic world (0) | 2019.01.23 |
Lecture 4: Q-learning (table) (0) | 2019.01.23 |
Lecture 3: Dummy Q-learning (table) (0) | 2019.01.18 |
Lecture 1: Introduction (0) | 2019.01.18 |
- Total
- Today
- Yesterday
- AWS
- p-value
- Markov Decision Process
- rl
- Preprocessing
- OS
- MySQL
- Linux
- Algorithm
- Gradient descent algorithm
- sequelize
- git
- gitgnore
- commands
- Confustion Matrix
- 통계적 가설 검정
- #ausg
- branch
- Reinforcement Learniing
- ausg
- Android Studio
- System
- Android
- MDP
- Memory segmetation
- Reinforcement Learning
- 강화학습
- #AWS
- #ab
- #handsonlab
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |