티스토리 뷰
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다.
https://youtu.be/dZ4vw6v3LcA
―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
Reinforcement : SCIENCE-based & REWARD-based methods.
Nature of Learning
- We learn from past expensive
- Reinforcement learning: computational approach to learning from interaction.
Actor (or Agent) : 쥐
Action : 미로에서의 이동
Environment : 미로
Reward: 출구를 찾음->+2, 치즈를 찾음: +1, 아무것도 못 찾음: -1
Observation (or State): 현재 쥐의 상태(위치, 체력 등등)
RL은 예전부터 다루어지던 분야이나, 관심도가 낮았음.
DeepMind에서 Atari Game, AlphaGo 등을 통해 세상의 관심을 끌어온다.
픽셀 게임의 픽셀정보를 RL로 학습시켜 움직임을 결과로 받는 알고리즘을 만들었다.
이 알고리즘을 여러가지 게임에 범용적으로 학습시켜서 인간과 비교했더니 많은 게임에서 인간보다 게임을 잘했다.
응용사례
- AlphaGo
- 구글 데이터센터 냉각비용 절감
- 로봇
- 투자, 비즈니스
'A.I > RL by Sung Kim' 카테고리의 다른 글
Lecture 6: Q-Network (0) | 2019.01.23 |
---|---|
Lecture 5: Nondeterministic world (0) | 2019.01.23 |
Lecture 4: Q-learning (table) (0) | 2019.01.23 |
Lecture 3: Dummy Q-learning (table) (0) | 2019.01.18 |
Lecture 2: OpenAI GYM (0) | 2019.01.18 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- Linux
- p-value
- sequelize
- AWS
- System
- MDP
- 강화학습
- commands
- Reinforcement Learning
- OS
- #AWS
- rl
- #handsonlab
- MySQL
- Markov Decision Process
- #ausg
- Algorithm
- gitgnore
- 통계적 가설 검정
- git
- Reinforcement Learniing
- #ab
- Android Studio
- Gradient descent algorithm
- Preprocessing
- branch
- ausg
- Android
- Confustion Matrix
- Memory segmetation
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
글 보관함