이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/S1Y9eys2bdg ----------------------------------------------------------------------------------------------------------------------이전 Lecture 6 에서 Q-Network의 문제점으로 1. Correlations between samples2. Non-stationary targets 두 가지를 말하며 Q-Network는 Optimal Q에 수렴하지 않는다고 했습니다. 그러나 구글 DeepMind 팀에서 이 문제를 해결하였고, 해결한 알고리즘의 이름이 바로 Deep Q-Network 입니다..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/w9GwqPx7LW8 RL 시뮬레이션에 도움이 되는 사이트http://computingkoreanlab.com/app/jAI/jQLearning/---------------------------------------------------------------------------------------------------------------------- 기본 Q-learning에서 사용하던 Q-table은 실제 문제에 적용시키기에는 무리가있다. 왜냐하면 Q-Table은 Array를 사용하고 있는데, 실제 문제를 Array로 나타낸다면 엄청난 리소스가 필요하다. 예를 들어 아래의 게임화면의 경우..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/6KSf-j4LL-c --------------------------------------------------------------------------------------------------------------------------------------- 지금 까지 다루었던 World 는 모두 Deterministic world. 그러나 현실 세계는 Non-deterministic 요소를 가지고 있다. Deterministic model : the output of the model is fully determined by the parameter values and the initia..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/MQ-3QScrFSI ------------------------------------------------------------------------------------------------------------------------------------------------- 3강에서 배운 Dummy Q-learning의 단점은 바로 기존에 학습된 Policy로만 계속 움직인다는 것. Exploit vs Exploration Exploit : 기존에 학습된 경로로 이동한다.-> 기존에 가던 식당을 간다. Exploration : 새로운 경로를 찾아 나서본다.-> 새로운 식당을 찾아 나서 본..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/Vd-gmo-qO5E ―――――――――――――――――――――――――――――――――――――――――――――――――――――― Q-Learning이란 Q function에 현재 State와 현재 취할 수 있는 Action들의 값을 넣었을 때 Q function의 값이 가장 큰 Action을 취하는 것을 말합니다. 다시말해 State마다 Q에게 물어봐서 길을 찾아갑니다. (안녕 Q야 S에서 상,하,좌,우 중 어디로 가야하니) Q function이란 state-action value function 이라고도 합니다. state-action value function의 개념에 대해서는 Sung Kim 교수님..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/xgoO54qN4lY ―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――OpenAI GYM : RL학습에서 Environment 구축을 도와주는 Framework 앞으로 강의에서 사용할 Environment인 Frozen Lake 환경실제로는 길이가 16인 배열이다. S : Starting pointF : 얼어있는 영역(안전지대)H : Hole(위험지대)G : Goal Agent : Environment에서 움직이는 캐릭터Environment : Frozen LakeAction : 상하좌우 운동State : Agent의 위치Rewar..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/dZ4vw6v3LcA ――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――― Reinforcement : SCIENCE-based & REWARD-based methods. Nature of Learning- We learn from past expensive- Reinforcement learning: computational approach to learning from interaction. Actor (or Agent) : 쥐Action : 미로에서의 이동Environment : 미로Reward: 출구를 ..
- Total
- Today
- Yesterday
- sequelize
- Android Studio
- #ausg
- Markov Decision Process
- Confustion Matrix
- commands
- MDP
- ausg
- OS
- branch
- Linux
- #ab
- p-value
- Android
- 통계적 가설 검정
- #AWS
- System
- #handsonlab
- Preprocessing
- 강화학습
- AWS
- Memory segmetation
- MySQL
- Gradient descent algorithm
- gitgnore
- Reinforcement Learniing
- rl
- Reinforcement Learning
- git
- Algorithm
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |