Written by
LSM
on
on
강화학습
강화 학습
- 행동을 하고 시행착오를 하며 학습하는 것
- 지도학습과 비지도학습의 중간자적 위치
알고리즘
- 환경 상태 집합 : S
- 행동 집합 : A
- 포상 집합 : R
- 매 시점 t, 자신의 상태 s와 가능한 행동 a를 가지고 있음
- 어떤 행동 a를 함으로써 새로운 상태 s’와 포상 r을 얻음
- 강화학습은 누적되는 포상 r을 최대화 하는 학습을 개발
- MDPs(마르코프 결정 상태)-종료 존재 有 : R = r0 + r1 + … + rn
- MDPs - 종료 존재 無 : (시그마)(감마^t) * r
- 미래의 포상이 현재에 얼마나 가치가 있는가는 0 ~ 1 사이의 값으로 표현됨