Planning by Dynamic Programming1. Introduction�What is Dynamic Programming?The term dynamic programming refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision processTwo properties of Dynamic ProgrammingOptimal subproblemPrinciple of optimality appliesOptimal solution can be decomposed into subproblemsOverla..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/S1Y9eys2bdg ----------------------------------------------------------------------------------------------------------------------이전 Lecture 6 에서 Q-Network의 문제점으로 1. Correlations between samples2. Non-stationary targets 두 가지를 말하며 Q-Network는 Optimal Q에 수렴하지 않는다고 했습니다. 그러나 구글 DeepMind 팀에서 이 문제를 해결하였고, 해결한 알고리즘의 이름이 바로 Deep Q-Network 입니다..
- Total
- Today
- Yesterday
- Gradient descent algorithm
- 통계적 가설 검정
- Algorithm
- System
- git
- rl
- 강화학습
- Reinforcement Learning
- MySQL
- OS
- #AWS
- branch
- Preprocessing
- #ab
- #handsonlab
- commands
- sequelize
- gitgnore
- Linux
- Markov Decision Process
- Memory segmetation
- Android Studio
- AWS
- Android
- MDP
- ausg
- Confustion Matrix
- #ausg
- Reinforcement Learniing
- p-value
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |