A.I/RL by David Silver

Lecture 2 : Markov Decision Process

궁선이 2019. 2. 18. 19:36

lfHX2hHRMVQ

1. Introduction

Markov Decision Processes formally describe an environment for reinforcement learning
Where the environment is fully observable

2. Markov Process

1) Markov Property

The future is independent of the past given the present
(현재의 미래는 현재의 과거로부터 독립적이다)

시작 S1 부터 미래 St+1에 도달할 확률과, 현재 St에서 St+1에 도달할 확률이 동일하다.
현재는 과거의 미래이며, 현재는 과거의 정보들을 가지고있다.

2) State Transition Matrix

State s, s' 이 Markov 일 때, State Transition Probability 는 다음을 만족한다.

State Transition Matrix P 는 모든 State s 로부터 s' 으로 가는 State Transition Probability 를 정의합니다.

State Transition Matrix에서 각각의 행을 구성하는 인자들의 총합은 1 이다.

3) Markov Process(or Markov Chain)

Markov Property를 만족하는 State들과, 이 State들 간의 State Transition Matrix 으로 구성된 Tuple

3. Markov Reward Process

1) Markov Reward Process

Markov Chain에 Reward가 추가된 Tuple

2) Return

Return G는 어떤 Episode의 Step t 부터 매 Step마다 얻게되는 모든 Reward의 합을 의미한다.
Discount r은 7. Discount 참고

3) Discount r

0 이상 1 이하의 값, [0, 1]
미래의 Reward에 패널티를 가함으로써 현재 시점에서의 기댓값으로 변환한다.
먼 미래의 Reward 일 수록 많은 패널티를 얻게 된다.
먼 미래에 얻게될 Reward와, 가까운 미래에 얻게될 Reward의 경중을 조정하는 용도.
r이 0에 가까울 수록 가까운 미래를 더 중요시한다.
r이 1에 가까울 수록 먼 미래또한 중요시한다.
Cyclic 상태에서 무한으로 빠지는 것을 방지하여 준다.

4) State Value Function of MRP

State s에서 앞으로 얻게될 것이라 기대되는 가치

Agent는 다음 State s' 으로 이동할때 v(s') 이 가장 큰 State로 이동한다.
학습을 반복하면서 Value Function은 업데이트 된다.

5) Bellman Equation for MRP

다음 State와 현재 State의 Value Function 사이의 관계를 식으로 나타낸 방정식.

Value Function은 두 개의 파트로 나누어질 �수 있다.

다음 State S' 의 보상 Rt+1
다음 State S' 에서의 Discouted Value Function rv(St+1)

Bellman Equation for MRP의 전개과정

Backup diagram을 이용한 도식화

Bellman Equation의 Matrix Form

Bellman Equation 풀이

Bellman Equation 은 선형 방정식
n States 일때의 Computational Complexity는 O(n^3)
아래의 Direct Solution으로 바로 풀이가 가능
그러나 아래의 Direct Solution은 small MRP 일때만 사용가능

Large MRP의 경우는 다음 방법을 사용해 풀이 가능
- Dynamic programming
- Monte-Carlo evaluation
- Temporal-Difference learning

4. Markov Decision Process

1) Markov Decision Process

MRP에 Decision(Action)이 추가된 튜플

2) Policy

State s에서 Action a를 할 확률

3) Value Function

(1)State-Value Function

State s에서 Policy를 따랐을 때, 얻게될 것이라 기대되는 가치

(2)Action-Value Function

State s에서 Policy를 따라 Action a 를 했을 때, 얻게될 것이라 기대되는 가치

4) Bellman Expectation Equation for MDP

(1) State-Value Function

(2) Action-Value Function

(3) Backup Diagram

(4) Direct Solution

5) Optimal Value Function

모든 Policy의 경우를 따졌을 때, 가장 큰 Value Function

6) Optimal Policy

Optimal Value Function의 Policy

Finding an Optimal Policy

해설 : State s에서 선택할 수 있는 Action들 중, 어떤 Action a의 Optimal Value Function q∗(s,a)가 가장 클 때, π∗(a|s)를 1로 설정한다. 그리고 그 외의 Action a'들의 π∗(a'|s)를 0으로 설정한다.

7) Bellman Optimality Equation

저작자표시 비영리 변경금지