![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dEWpXK/btqtYtAhp3o/F7XwduLHUVvWTfXFh4ydRK/img.png)
Model-Free Prediction Policy를 따라 학습을 진행하면서, Sample backup을 통해 Value Function을 Update하는 것을 Model-Free Prediction이라 한다. Model-Free : Environment의 model을 모르는 상태로 학습을 진행한다. DP는 model을 알아야 학습이 가능했다(Model-based). Agent가 Trial-and-Error(시행착오)를 통해 학습을 진행한다. 모든 경로를 사용해 Update하는 Full-width backup이 아닌, 실제 경험한 경로만 사용해 Update하는 Sample backup을 사용한다. Model-Free 방법은 두 가지가 존재한다. Monte-Carlo Temporal-Difference 1..
Planning by Dynamic Programming1. Introduction�What is Dynamic Programming?The term dynamic programming refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision processTwo properties of Dynamic ProgrammingOptimal subproblemPrinciple of optimality appliesOptimal solution can be decomposed into subproblemsOverla..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다. https://youtu.be/lfHX2hHRMVQ1. IntroductionMarkov Decision Processes formally describe an environment for reinforcement learningWhere the environment is fully observable2. Markov Process1) Markov PropertyThe future is independent of the past given the present (현재의 미래는 현재의 과거로부터 독립적이다)시작 S1 부터 미래 St+1에 도달할 확률과, 현재 St에서 St+1에 도달할 확률이 동일하다.현재는 과거의 미래이며, 현재는..
본 내용은 David Silver 교수님의 강의를 듣고 정리한 내용입니다.https://youtu.be/2pWv7GOvuf0 Introduction to Reinforcement Learning“강화학습은 환경과의 상호작용으로부터 학습하는 것에 대한 전산적인 접근법”1. 강화학습이란?다양한 분야가 융합된 학문머신러닝의 한 분야강화학습, 지도학습, 비지도학습의 차이학습에 사용하는 데이터의 관점에서 차이를 말할 수 있다.지도학습 : Label이 있는 데이터를 사용한다.비지도학습 : Label이 없는 데이터를 사용한다.강화학습 : Agent가 환경(Environment)과의 상호작용을 통해 State, Reward를 바탕으로 학습을 진행한다.행동심리학에서의 강화(Reinforcement)의 의미행동심리학에서 ..
Gradient Descent Optimization for Neural NetworkGradient Descent Optimization Algorithms at Long ValleyGradient Descent Optimization 이란 신경망 학습에서 손실함수의 값을 가능한 한 낮추는 매개변수의 최적값을 찾는 문제를 푸는 것을 지칭한다.Stochastic Gradient Descent(SGD)MomentumAdaGradRMSpropAdametc1. Stochastic Gradient Descent(SGD)-특징Mini-batch 데이터를 사용한다.기울어진 방향으로 탐색한다.구현이 쉽다.단점지그재그로 이동하여 비효율 적이다.비등방성 함수 탐색경로가 비효율적이다.2. Momentum특징△w는 속도의 ..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/S1Y9eys2bdg ----------------------------------------------------------------------------------------------------------------------이전 Lecture 6 에서 Q-Network의 문제점으로 1. Correlations between samples2. Non-stationary targets 두 가지를 말하며 Q-Network는 Optimal Q에 수렴하지 않는다고 했습니다. 그러나 구글 DeepMind 팀에서 이 문제를 해결하였고, 해결한 알고리즘의 이름이 바로 Deep Q-Network 입니다..
Random Forest1. Decision Tree(의사결정트리) 의 단점주어진 학습 데이터에 따라 생성되는 의사결정트리의 모델이 일정하지 않아 일반화를 할 수 없다.상위 노드의 에러가 다음 노드로 전파된다.의사결정트리를 활용한 학습결과가 일정하지 않다.2. Random Forest의 정의랜덤 포레스트는 여러 개의 의사결정트리들을 임의적으로 학습하는 방식의 앙상블 학습법.앙상블 학습법이란 데이터를 사용해 n개의 데이터 집합을 만든 뒤, m개의 모델에 나누어 학습시킨 뒤 각 결과들을 종합하는 학습법(n =< m)3. Random Forest의 장점월등히 높은 정확성간편하고 빠른 학습 및 테스트 알고리즘변수소거 없이 수천 개의 입력 변수들을 다루는 것이 가능임의화를 통한 좋은 일반화 성능다중 클래스 알고리..
Decision tree1. 의사결정 트리란?결정트리는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. 목표에 가장 가까운 결과를 낼 수 있는 전략을 찾기 위해 주로 사용된다.분류(classification)기술 중 가장 일반적으로 사용되는 방법이다.eager learning과 관련있다. 미리 분류해놓은 tree를 가지로 query가 들어오면 tree를 거쳐 답을 내준다.2. 의사결정 트리 알고리즘이란?결정 트리를 구성하는 알고리즘에는 주로 하향식 기법이 사용되며, 각 진행 단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다.서로 다른 알고리즘들은 '분할의 적합성'을 측정하는 각자의 기준이 있다.(ex.동질성 측정)3. 의사결정 트리의 장..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/w9GwqPx7LW8 RL 시뮬레이션에 도움이 되는 사이트http://computingkoreanlab.com/app/jAI/jQLearning/---------------------------------------------------------------------------------------------------------------------- 기본 Q-learning에서 사용하던 Q-table은 실제 문제에 적용시키기에는 무리가있다. 왜냐하면 Q-Table은 Array를 사용하고 있는데, 실제 문제를 Array로 나타낸다면 엄청난 리소스가 필요하다. 예를 들어 아래의 게임화면의 경우..
이 내용은 Sung Kim 교수님의 모두를 위한 RL 강좌를 정리한 내용입니다. https://youtu.be/6KSf-j4LL-c --------------------------------------------------------------------------------------------------------------------------------------- 지금 까지 다루었던 World 는 모두 Deterministic world. 그러나 현실 세계는 Non-deterministic 요소를 가지고 있다. Deterministic model : the output of the model is fully determined by the parameter values and the initia..
- Total
- Today
- Yesterday
- ausg
- Linux
- #AWS
- Confustion Matrix
- #ausg
- Algorithm
- Gradient descent algorithm
- Preprocessing
- System
- #handsonlab
- Android Studio
- sequelize
- MySQL
- #ab
- OS
- Reinforcement Learning
- 강화학습
- MDP
- p-value
- Android
- rl
- AWS
- git
- Reinforcement Learniing
- Markov Decision Process
- gitgnore
- 통계적 가설 검정
- commands
- Memory segmetation
- branch
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |