'기타/강화학습' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

프로젝트 유튜브 영상들

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록기타/강화학습 (4)

센로그

[RL 이론] - Dynamic Programming

◆ Dynamic Programming (DP) Introduction MDP로써 환경을 잘 아는 perfect model이 주어졌을 때, optimal policy를 계산하기 위한 알고리즘의 집합. DP는 RL에서 최적 policy를 찾을때 많이 쓰이고, 이를 위한 기반이 되는 algorithm을 제공하기도 함 즉, 다른곳에서 사용되는 RL 알고리즘도 결국에는 DP를 활용해 좀 더 빨리 찾는 방향이나, perfect하지 않은 model을 사용할 때 찾는 방향으로 발전하는 것이기 때문에, DP가 그런 알고리즘들의 근간이 되는 것이라 할 수 있다는 것. DP의 아이디어는, “value function을 이용해서, 정말 좋은 policy를 찾아나가는 것.” 일단 Optimal value function을 찾..

기타/강화학습 2023. 6. 5. 00:36

[RL 이론] - 기초 & Markov Decision Process

◆ Reinforcement Learning Introduction 동물들을 어떻게 학습을 시켜야 내가 원하는 대로 행동을 잘 해줄까~? Concept은, "어떤 행동의 결과를 강화"하는 것 앉아! 라고 했을 때 앉는 행동을 강화시켜서, 앞으론 앉아! 라고 햇을 때 더 많이 앉도록 만드는 거 Trial-error를 반복하면서 Reinforcement Learning(RL) 을 진행하는 방법을 pleasure-oriented라고 함 [용어 정리] Agent 어떤 environment 내에서 결정도 내리고, 그에 따라 action을 취하는 주체 Environment Agent가 인터랙션할 대상. (State들의 집합) State Environment에서 현재 상태. 즉, Agent의 어떤 시점에서의 상태나 ..

기타/강화학습 2023. 6. 3. 18:15

[RL 실습] Frozen Lake

FrozenLake 1단계 import gym import numpy as np # FrozenLake-v1이라는 환경을 만들고, # 미끄러지게 할지 말지 설정 # 사람이 보기 좋은 human 모드로 설정 env = gym.make("FrozenLake-v1", is_slippery = False, render_mode = "human") # env.reset() : 환경의 state를 초기 상태로 바꿔줌. # (0, {'prob' : 1})

기타/강화학습 2023. 5. 23. 06:56

[RL 이론] - 개념 정리

◆ 강화학습 시행착오로부터 배우는 방식의 기계학습 (게임의 느낌) 보상이 높은 목표로 가까워지거나, 그렇지 않은 목표에서 벗어나려고 함. ◆ 강화학습은 discrete time에서 stochastic하게 agent를 control하는 문제임 ◆ Discrete time 시점 구분이 가능함(프레임 업데이트 시점, 방 넘어가는 시점 등) 어떤 상태에서 다른 상태로 넘어가는 순간이 구분됨 ※ 상태 전이(state transition) : 한 상태에서 다른 상태로 (의사결정 없이 자연스럽게) 넘어가는 행위 ◆ Stochastic Control 확률적으로 의사 결정 ◆ 행동 확률 vs 상태 전이 확률 ㆍ행동 확률 내가 행동할 확률 오목에서, 내가 흑돌을 놓을 확률 ㆍ상태 전이 확률 (내 행동에 이어) 상태가 바뀔..

기타/강화학습 2023. 1. 1. 22:54

이전 Prev 1 Next 다음

목록기타/강화학습 (4)

센로그

티스토리툴바