목록기타 (7)
센로그
[RL 이론] - 개념 정리
◆ 강화학습 시행착오로부터 배우는 방식의 기계학습 (게임의 느낌) 보상이 높은 목표로 가까워지거나, 그렇지 않은 목표에서 벗어나려고 함. ◆ 강화학습은 discrete time에서 stochastic하게 agent를 control하는 문제임 ◆ Discrete time 시점 구분이 가능함(프레임 업데이트 시점, 방 넘어가는 시점 등) 어떤 상태에서 다른 상태로 넘어가는 순간이 구분됨 ※ 상태 전이(state transition) : 한 상태에서 다른 상태로 (의사결정 없이 자연스럽게) 넘어가는 행위 ◆ Stochastic Control 확률적으로 의사 결정 ◆ 행동 확률 vs 상태 전이 확률 ㆍ행동 확률 내가 행동할 확률 오목에서, 내가 흑돌을 놓을 확률 ㆍ상태 전이 확률 (내 행동에 이어) 상태가 바뀔..
기타/강화학습
2023. 1. 1. 22:54