본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다. https://youtu.be/lfHX2hHRMVQ1. IntroductionMarkov Decision Processes formally describe an environment for reinforcement learningWhere the environment is fully observable2. Markov Process1) Markov PropertyThe future is independent of the past given the present (현재의 미래는 현재의 과거로부터 독립적이다)시작 S1 부터 미래 St+1에 도달할 확률과, 현재 St에서 St+1에 도달할 확률이 동일하다.현재는 과거의 미래이며, 현재는..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다.https://youtu.be/2pWv7GOvuf0 Introduction to Reinforcement Learning“강화학습은 환경과의 상호작용으로부터 학습하는 것에 대한 전산적인 접근법”1. 강화학습이란?다양한 분야가 융합된 학문머신러닝의 한 분야강화학습, 지도학습, 비지도학습의 차이학습에 사용하는 데이터의 관점에서 차이를 말할 수 있다.지도학습 : Label이 있는 데이터를 사용한다.비지도학습 : Label이 없는 데이터를 사용한다.강화학습 : Agent가 환경(Environment)과의 상호작용을 통해 State, Reward를 바탕으로 학습을 진행한다.행동심리학에서의 강화(Reinforcement)의 의미행동심리학에서 ..
- Total
- Today
- Yesterday
- MySQL
- branch
- #AWS
- Gradient descent algorithm
- OS
- #handsonlab
- rl
- Algorithm
- Linux
- Preprocessing
- p-value
- commands
- AWS
- ausg
- 강화학습
- gitgnore
- MDP
- Memory segmetation
- Reinforcement Learning
- #ausg
- 통계적 가설 검정
- Confustion Matrix
- Reinforcement Learniing
- Markov Decision Process
- Android Studio
- git
- sequelize
- Android
- #ab
- System
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |