Written by LSM
on August 06, 2018

강화학습

강화 학습

행동을 하고 시행착오를 하며 학습하는 것
지도학습과 비지도학습의 중간자적 위치

알고리즘

환경 상태 집합 : S
행동 집합 : A
포상 집합 : R

매 시점 t, 자신의 상태 s와 가능한 행동 a를 가지고 있음
어떤 행동 a를 함으로써 새로운 상태 s’와 포상 r을 얻음
강화학습은 누적되는 포상 r을 최대화 하는 학습을 개발
MDPs(마르코프 결정 상태)-종료 존재 有 : R = r0 + r1 + … + rn
MDPs - 종료 존재 無 : (시그마)(감마^t) * r
미래의 포상이 현재에 얼마나 가치가 있는가는 0 ~ 1 사이의 값으로 표현됨

← → Top