
Model-Free Prediction Policy를 따라 학습을 진행하면서, Sample backup을 통해 Value Function을 Update하는 것을 Model-Free Prediction이라 한다. Model-Free : Environment의 model을 모르는 상태로 학습을 진행한다. DP는 model을 알아야 학습이 가능했다(Model-based). Agent가 Trial-and-Error(시행착오)를 통해 학습을 진행한다. 모든 경로를 사용해 Update하는 Full-width backup이 아닌, 실제 경험한 경로만 사용해 Update하는 Sample backup을 사용한다. Model-Free 방법은 두 가지가 존재한다. Monte-Carlo Temporal-Difference 1..
Planning by Dynamic Programming1. Introduction�What is Dynamic Programming?The term dynamic programming refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision processTwo properties of Dynamic ProgrammingOptimal subproblemPrinciple of optimality appliesOptimal solution can be decomposed into subproblemsOverla..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다. https://youtu.be/lfHX2hHRMVQ1. IntroductionMarkov Decision Processes formally describe an environment for reinforcement learningWhere the environment is fully observable2. Markov Process1) Markov PropertyThe future is independent of the past given the present (현재의 미래는 현재의 과거로부터 독립적이다)시작 S1 부터 미래 St+1에 도달할 확률과, 현재 St에서 St+1에 도달할 확률이 동일하다.현재는 과거의 미래이며, 현재는..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다.https://youtu.be/2pWv7GOvuf0 Introduction to Reinforcement Learning“강화학습은 환경과의 상호작용으로부터 학습하는 것에 대한 전산적인 접근법”1. 강화학습이란?다양한 분야가 융합된 학문머신러닝의 한 분야강화학습, 지도학습, 비지도학습의 차이학습에 사용하는 데이터의 관점에서 차이를 말할 수 있다.지도학습 : Label이 있는 데이터를 사용한다.비지도학습 : Label이 없는 데이터를 사용한다.강화학습 : Agent가 환경(Environment)과의 상호작용을 통해 State, Reward를 바탕으로 학습을 진행한다.행동심리학에서의 강화(Reinforcement)의 의미행동심리학에서 ..
- Total
- Today
- Yesterday
- sequelize
- Preprocessing
- AWS
- commands
- Android
- Linux
- git
- Reinforcement Learniing
- ausg
- OS
- 강화학습
- #handsonlab
- #ab
- 통계적 가설 검정
- Reinforcement Learning
- Android Studio
- MySQL
- gitgnore
- branch
- p-value
- rl
- Memory segmetation
- Gradient descent algorithm
- #AWS
- MDP
- Algorithm
- #ausg
- Confustion Matrix
- System
- Markov Decision Process
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |