티스토리 뷰
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다.
Introduction to Reinforcement Learning
“강화학습은 환경과의 상호작용으로부터 학습하는 것에 대한 전산적인 접근법”
1. 강화학습이란?
- 다양한 분야가 융합된 학문
- 머신러닝의 한 분야
강화학습, 지도학습, 비지도학습의 차이
학습에 사용하는 데이터의 관점에서 차이를 말할 수 있다.
- 지도학습 : Label이 있는 데이터를 사용한다.
- 비지도학습 : Label이 없는 데이터를 사용한다.
- 강화학습 : Agent가 환경(Environment)과의 상호작용을 통해 State, Reward를 바탕으로 학습을 진행한다.
행동심리학에서의 강화(Reinforcement)의 의미
- 행동심리학에서 강화(Reinforcement) 는 생물이 어떤 자극에 반응해 미래의 행동을 바꾸는 것을 말한다.
- 예를들어 뜨거운 주전자를 만져본 아이는 주전자가 뜨겁다는 것을 깨닫고 다음부터 주전자를 만질 때 조심한다.
강화학습의 구성요소
- Agent : 학습을 하는 주체, Environment 에서 Action을 취하고 Reward, State를 얻는다.
- Environment : Agent가 학습을 하고 극복하고자 하는 환경, Action에 따른 State와 Reward를 Agent에게 반환해준다.
- Reward : Agent의 Action에 따라 Environment가 반환해주는 값, 학습의 척도이다.
- State : Agent의 Environment 내에서의 상태이다.
2. 강화학습의 특징
- 시행착오(trial-and-error)을 통해 학습한다.
- 학습을 지도해주는 감독관이 없으며 보상(Reward) 을 통해 학습한다.
- 즉각적인 보상보다는, 장기적인 보상을 최대화 하는데 중점을 둔다.
- 학습에 시간이 포함되어 있다.(Sequential)
- 매 순간 Agent의 행동은 항상 그 다음 행동과 보상에 영향을 끼친다.
3. 보상(Reward)
- Agent의 행동(Action)에 대한 Scalar Feedback Signal
- Agent가 State에서 얼마나 잘 행동(Action) 하는지에 대한 척도
- Agent는 매 State 마다 바로 다음 State에서 보이는 단기적인 Rewrad 보다 최종 목적지에 도달했을 때의 누적 Reward가 가장 크도록 행동한다.
'A.I > RL by David Silver' 카테고리의 다른 글
Lecture 4 : Model-Free Prediction (0) | 2019.03.30 |
---|---|
Lecture 3 : Planning by Dynamic Programming (0) | 2019.03.24 |
Lecture 2 : Markov Decision Process (0) | 2019.02.18 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- #AWS
- Reinforcement Learning
- 통계적 가설 검정
- Algorithm
- AWS
- git
- Memory segmetation
- MDP
- #ausg
- 강화학습
- Linux
- Confustion Matrix
- Preprocessing
- branch
- Gradient descent algorithm
- Markov Decision Process
- gitgnore
- sequelize
- Android
- #ab
- System
- OS
- Reinforcement Learniing
- p-value
- commands
- rl
- ausg
- MySQL
- Android Studio
- #handsonlab
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함