강화학습

강화 학습

알고리즘

  1. 환경 상태 집합 : S
  2. 행동 집합 : A
  3. 포상 집합 : R