본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다. https://youtu.be/lfHX2hHRMVQ1. IntroductionMarkov Decision Processes formally describe an environment for reinforcement learningWhere the environment is fully observable2. Markov Process1) Markov PropertyThe future is independent of the past given the present (현재의 미래는 현재의 과거로부터 독립적이다)시작 S1 부터 미래 St+1에 도달할 확률과, 현재 St에서 St+1에 도달할 확률이 동일하다.현재는 과거의 미래이며, 현재는..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다.https://youtu.be/2pWv7GOvuf0 Introduction to Reinforcement Learning“강화학습은 환경과의 상호작용으로부터 학습하는 것에 대한 전산적인 접근법”1. 강화학습이란?다양한 분야가 융합된 학문머신러닝의 한 분야강화학습, 지도학습, 비지도학습의 차이학습에 사용하는 데이터의 관점에서 차이를 말할 수 있다.지도학습 : Label이 있는 데이터를 사용한다.비지도학습 : Label이 없는 데이터를 사용한다.강화학습 : Agent가 환경(Environment)과의 상호작용을 통해 State, Reward를 바탕으로 학습을 진행한다.행동심리학에서의 강화(Reinforcement)의 의미행동심리학에서 ..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/S1Y9eys2bdg ----------------------------------------------------------------------------------------------------------------------이전 Lecture 6 에서 Q-Network의 문제점으로 1. Correlations between samples2. Non-stationary targets 두 가지를 말하며 Q-Network는 Optimal Q에 수렴하지 않는다고 했습니다. 그러나 구글 DeepMind 팀에서 이 문제를 해결하였고, 해결한 알고리즘의 이름이 바로 Deep Q-Network 입니다..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/w9GwqPx7LW8 RL 시뮬레이션에 도움이 되는 사이트http://computingkoreanlab.com/app/jAI/jQLearning/---------------------------------------------------------------------------------------------------------------------- 기본 Q-learning에서 사용하던 Q-table은 실제 문제에 적용시키기에는 무리가있다. 왜냐하면 Q-Table은 Array를 사용하고 있는데, 실제 문제를 Array로 나타낸다면 엄청난 리소스가 필요하다. 예를 들어 아래의 게임화면의 경우..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/6KSf-j4LL-c --------------------------------------------------------------------------------------------------------------------------------------- 지금 까지 다루었던 World 는 모두 Deterministic world. 그러나 현실 세계는 Non-deterministic 요소를 가지고 있다. Deterministic model : the output of the model is fully determined by the parameter values and the initia..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/MQ-3QScrFSI ------------------------------------------------------------------------------------------------------------------------------------------------- 3강에서 배운 Dummy Q-learning의 단점은 바로 기존에 학습된 Policy로만 계속 움직인다는 것. Exploit vs Exploration Exploit : 기존에 학습된 경로로 이동한다.-> 기존에 가던 식당을 간다. Exploration : 새로운 경로를 찾아 나서본다.-> 새로운 식당을 찾아 나서 본..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/Vd-gmo-qO5E ―――――――――――――――――――――――――――――――――――――――――――――――――――――― Q-Learning이란 Q function에 현재 State와 현재 취할 수 있는 Action들의 값을 넣었을 때 Q function의 값이 가장 큰 Action을 취하는 것을 말합니다. 다시말해 State마다 Q에게 물어봐서 길을 찾아갑니다. (안녕 Q야 S에서 상,하,좌,우 중 어디로 가야하니) Q function이란 state-action value function 이라고도 합니다. state-action value function의 개념에 대해서는 Sung Kim 교수님..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/xgoO54qN4lY ―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――OpenAI GYM : RL학습에서 Environment 구축을 도와주는 Framework 앞으로 강의에서 사용할 Environment인 Frozen Lake 환경실제로는 길이가 16인 배열이다. S : Starting pointF : 얼어있는 영역(안전지대)H : Hole(위험지대)G : Goal Agent : Environment에서 움직이는 캐릭터Environment : Frozen LakeAction : 상하좌우 운동State : Agent의 위치Rewar..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/dZ4vw6v3LcA ――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――― Reinforcement : SCIENCE-based & REWARD-based methods. Nature of Learning- We learn from past expensive- Reinforcement learning: computational approach to learning from interaction. Actor (or Agent) : 쥐Action : 미로에서의 이동Environment : 미로Reward: 출구를 ..
- Total
- Today
- Yesterday
- branch
- Preprocessing
- 강화학습
- System
- Markov Decision Process
- p-value
- Algorithm
- #ausg
- Reinforcement Learning
- 통계적 가설 검정
- rl
- ausg
- Memory segmetation
- #ab
- OS
- git
- MDP
- #handsonlab
- AWS
- sequelize
- Linux
- gitgnore
- Reinforcement Learniing
- Android Studio
- Gradient descent algorithm
- MySQL
- Android
- commands
- #AWS
- Confustion Matrix
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |