마르코프 결정 과정

Markov Decision Process

cf) 마르코프 과정에서 시간 변화에 신경쓰지 않고 이산적 경우만 고려한 경우 Markov Chain 이라 불림 (각 시행 결과는 바로 직전의 시행 결과에만 영향을 받음)

Discount Factor

Policy

행동 가치 함수

상태 가치 함수

Markove Decision process는 상태 가치 함수가 가장 큰 정책을 찾는 것

Markov Property