목록기타/강화학습 (4)
센로그

◆ Dynamic Programming (DP) Introduction MDP로써 환경을 잘 아는 perfect model이 주어졌을 때, optimal policy를 계산하기 위한 알고리즘의 집합. DP는 RL에서 최적 policy를 찾을때 많이 쓰이고, 이를 위한 기반이 되는 algorithm을 제공하기도 함 즉, 다른곳에서 사용되는 RL 알고리즘도 결국에는 DP를 활용해 좀 더 빨리 찾는 방향이나, perfect하지 않은 model을 사용할 때 찾는 방향으로 발전하는 것이기 때문에, DP가 그런 알고리즘들의 근간이 되는 것이라 할 수 있다는 것. DP의 아이디어는, “value function을 이용해서, 정말 좋은 policy를 찾아나가는 것.” 일단 Optimal value function을 찾..

◆ Reinforcement Learning Introduction 동물들을 어떻게 학습을 시켜야 내가 원하는 대로 행동을 잘 해줄까~? Concept은, "어떤 행동의 결과를 강화"하는 것 앉아! 라고 했을 때 앉는 행동을 강화시켜서, 앞으론 앉아! 라고 햇을 때 더 많이 앉도록 만드는 거 Trial-error를 반복하면서 Reinforcement Learning(RL) 을 진행하는 방법을 pleasure-oriented라고 함 [용어 정리] Agent 어떤 environment 내에서 결정도 내리고, 그에 따라 action을 취하는 주체 Environment Agent가 인터랙션할 대상. (State들의 집합) State Environment에서 현재 상태. 즉, Agent의 어떤 시점에서의 상태나 ..

FrozenLake 1단계 import gym import numpy as np # FrozenLake-v1이라는 환경을 만들고, # 미끄러지게 할지 말지 설정 # 사람이 보기 좋은 human 모드로 설정 env = gym.make("FrozenLake-v1", is_slippery = False, render_mode = "human") # env.reset() : 환경의 state를 초기 상태로 바꿔줌. # (0, {'prob' : 1})

◆ 강화학습 시행착오로부터 배우는 방식의 기계학습 (게임의 느낌) 보상이 높은 목표로 가까워지거나, 그렇지 않은 목표에서 벗어나려고 함. ◆ 강화학습은 discrete time에서 stochastic하게 agent를 control하는 문제임 ◆ Discrete time 시점 구분이 가능함(프레임 업데이트 시점, 방 넘어가는 시점 등) 어떤 상태에서 다른 상태로 넘어가는 순간이 구분됨 ※ 상태 전이(state transition) : 한 상태에서 다른 상태로 (의사결정 없이 자연스럽게) 넘어가는 행위 ◆ Stochastic Control 확률적으로 의사 결정 ◆ 행동 확률 vs 상태 전이 확률 ㆍ행동 확률 내가 행동할 확률 오목에서, 내가 흑돌을 놓을 확률 ㆍ상태 전이 확률 (내 행동에 이어) 상태가 바뀔..