목록기타 (7)
센로그

◆ Dynamic Programming (DP) Introduction MDP로써 환경을 잘 아는 perfect model이 주어졌을 때, optimal policy를 계산하기 위한 알고리즘의 집합. DP는 RL에서 최적 policy를 찾을때 많이 쓰이고, 이를 위한 기반이 되는 algorithm을 제공하기도 함 즉, 다른곳에서 사용되는 RL 알고리즘도 결국에는 DP를 활용해 좀 더 빨리 찾는 방향이나, perfect하지 않은 model을 사용할 때 찾는 방향으로 발전하는 것이기 때문에, DP가 그런 알고리즘들의 근간이 되는 것이라 할 수 있다는 것. DP의 아이디어는, “value function을 이용해서, 정말 좋은 policy를 찾아나가는 것.” 일단 Optimal value function을 찾..

◆ Reinforcement Learning Introduction 동물들을 어떻게 학습을 시켜야 내가 원하는 대로 행동을 잘 해줄까~? Concept은, "어떤 행동의 결과를 강화"하는 것 앉아! 라고 했을 때 앉는 행동을 강화시켜서, 앞으론 앉아! 라고 햇을 때 더 많이 앉도록 만드는 거 Trial-error를 반복하면서 Reinforcement Learning(RL) 을 진행하는 방법을 pleasure-oriented라고 함 [용어 정리] Agent 어떤 environment 내에서 결정도 내리고, 그에 따라 action을 취하는 주체 Environment Agent가 인터랙션할 대상. (State들의 집합) State Environment에서 현재 상태. 즉, Agent의 어떤 시점에서의 상태나 ..

FrozenLake 1단계 import gym import numpy as np # FrozenLake-v1이라는 환경을 만들고, # 미끄러지게 할지 말지 설정 # 사람이 보기 좋은 human 모드로 설정 env = gym.make("FrozenLake-v1", is_slippery = False, render_mode = "human") # env.reset() : 환경의 state를 초기 상태로 바꿔줌. # (0, {'prob' : 1})

◆ Feature Scaling 경사 하강 알고리즘이 더 적은 반복으로 전역 최솟값에 도달하기 위해, 피처 값의 범위를 조정하는 것. 표준화, 정규화 등의 방식을 포함한다. 표준화 서로 다른 범위의 변수들을 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것 정규화 서로 다른 범위의 변수들의 크기를 동일하게 하기 위해 (일반적으로[0,1]로) 변환하는 것 ◆ 정규 방정식 파라미터 θ의 최적값을 직접 계산하는 방법. hθ(X) = θ0x0 + θ1x1 + θ2x2 + θ3x3 + θ4x4 +... = θ^T*X 일 때 [예시] ◆ 경사하강법 vs 정규 방정식 경사 하강법은, 피처가 많을 때 효율적이다. 그러나 학습률 α를 결정해야하고 반복이 많다는 단점이 있다. 정규 방정식은, 학습률..

◆ Linear Regression with One Variable : 단변수 선형 회귀 m : 학습할 데이터 수 x : 입력 변수 (독립 변수) y : 출력 변수 (종속 변수) (x, y) : 한 데이터 셋 (x^i, y^i) : i번째 데이터 셋 h : 가설(hypothesis). 학습 알고리즘이 하는 일. x와 y를 매핑하는 함수 학습 알고리즘을 디자인할 때, 우리가 결정해야 할 것은 가설 'h'를 어떻게 표현할 것인지 결정하는 것! 단변수 선형 함수 하나의 변수를 가지고 결과를 예측하는 함수. θ0과 θ1은 파라미터. ◆ Cost Function : 비용 함수 에서, θ0와 θ1의 값을 고르는 방법! 실제 결과값인 y값과 hθ(x)값의 차를 최소화해주는 θ0, θ1을 찾으면 됨. 평균 제곱 오차 ..
◆ 머신러닝은 다양한 산업분야에서 사용되고 있다 1) 웹의 성장과 자동화의 성장 -> 굉장히 많은 데이터 -> 학습에 용이 2) 수동으로 코딩하지 못하는 것들 -> 학습을 통해 알고리즘 만들도록 함 3) 맞춤형 추천해주는 프로그래밍 4) 인간이 어떻게 학습하는지와, 뇌를 이해하기 위해 사용됨 ◆ 머신러닝이란? 1) 컴퓨터가 명시적인 프로그램 없이도 스스로 학습할 수 있는 능력을 연구하는 학문 2) 프로그램은 경험(E)으로부터 학습한다. 프로그램이 일정 수준의 성능 측정(P)을 가지고 작업 (T)을 수행한다고 했을 때, 경험(E)이 증가함에 따라 작업(T)을 수행하는 성능(P)이 향상될 수 있다. ◆ 머신러닝의 종류 1) 지도학습 정답이 있는 데이터 set을 통해 학습 2) 비지도학습 정답이 없는 데이터 ..