고려대학교 DMQA 연구실

Reinforcement Learning: From basics to Recent Algorithms

2018년 5월 12일 오후 1:00
조회수: 3866

REFERENCES

2018_lab_seminar_RL_intro.pdf

INFORMATION

2018년 5월 12일
오후 1시 ~
고려대학교 신공학관 218호

발표자:

박영준

TOPIC

Reinforcement Learning: From basics to Recent Algorithms

OVERVIEW

금일 세미나에서는 강화학습의 기초를 다루고 이를 바탕으로 최근의 Deep Reinforcement Learning을 이해하는 시간을 가졌다. 내용은 Richard Sutton의 의 챕터 1~6장을 기반으로 필요한 내용을 발췌하여 다뤘다. 이번 세미나에서 model-based / model-free, MC/TD learning, on-policy/off-policy 및 value-based / policy-based reinforcement learning 등 너무 많은 내용을 담고 있기 때문에 초심자가 이해하기에는 어려웠을 것이라 생각한다. 하지만 최근 나오는 강화학습 논문을 이해하기 위해 필요한 필수 용어 및 개념을 다뤘기 때문에 앞으로 이 분야를 공부할 연구실 동료들에게 도움이 되었기를 바란다.

발표자 후기

박영준

금일 세미나에서는 강화학습의 기초를 다루고 이를 바탕으로 최근의 Deep
Reinforcement Learning을 이해하는 시간을 가졌다. 내용은 Richard Sutton의 의 챕터 1~6장을 기반으로 필요한 내용을 발췌하여 다뤘다. 이번 세미나에서 model-based / model-free, MC/TD
learning, on-policy/off-policy 및 value-based /
policy-based reinforcement learning 등 너무 많은 내용을 담고 있기 때문에 초심자가 이해하기에는 어려웠을
것이라 생각한다. 하지만 최근 나오는 강화학습 논문을 이해하기 위해 필요한 필수 용어 및 개념을 다뤘기
때문에 앞으로 이 분야를 공부할 연구실 동료들에게 도움이 되었기를 바란다.

청취자 후기

이상민

강화학습에 대한 기초개념부터 최근 각광받고 있는 기술까지 전체적인 설명을 잘 구성한 발표였다.

모든 분야에서의 기술 발전처럼 DQN이나
Policy gradient 기법이 갑자기 새로 소개된 부분은 아니다. 기존 알고리즘의
한계점을 극복해가며 새로운 연구진행 방향을 제시하는 것이 해당 연구의 정체성이다. State-value
functions과 Action-value functions을 추정하는 이유와 과정, model-free models의 등장배경, 그리고 off policy와 on policy의 차이점에 대해 다시 한번
정리할 수 있는 시간이었다. 이러한 기술은 특히 학습데이터가 부족하고,
학습데이터로부터의 패턴 추출에서 예측, 그리고 제어(action)에
이르기까지 한번에 학습이 필요한 문제에 가장 적합할 수 있을 것 같다. 바둑과 같은 게임도 좋은 예지만, 예측기반으로 최적의 동작을 수행하는 무인자동화 공장제어 시스템도 좋은
application이 될 수 있을 것 같다. 좋은 발표를 해준 영준이에게 감사의 마음을
전하며 개인 연구에 큰 진전이 있기를 바란다.

안건이

오늘 영준이 형이 ‘Reinforcement Learning: From basics to
Recent Algorithms’이라는 주제로 세미나를 하셨다. Reinforcement
Learning은 Supervised Learning과
Unsupervised Learning과는 조금 다르지만 많이 다른 것은 아니다. RL은
어떠한 Environment가 존재한다. 그 Environment에서 여러 개의 State가 있으면 State 중 어떤 Action을 했을 때 Reward를 받는데 여러 번 Action을 통해 얻은 Reward의 합이 Maximized 되도록 학습을 시키는 것이 RL의 기본 컨셉이다. RL을 설명하면서 Multi-Armed Bandits Problem을 예로 들었는데, 여러
개의 Slot Machine 중 어떠한 Machine이 돈을
가장 많이 따는지 학습하는 것이다. 학습을 할 때는
Action-value methods 방법과 Gradient-based methods 방법이
있다. Action-value methods가 Reward나
수식 측면에서 직관적이고 이해가 쉬웠다. Action-value method는 매우 간단하다. 평균 Reward를 가장 크게 하는 Machine을 선택하는 방법인데, 이 경우 같은 Slot Machine만 선택하는 Local Optima에 빠질수
있다. 그래서 ε의 확률로 다른 Machine을 랜덤하게 선택할 수 있는 ε-greedy 텀을 추가하여 Local Optima를 빠져나오게 된다. 세미나를 들으면서 흥미로웠던
점은 Sarsa(On-policy) VS Q-Learning(Off-policy) 알고리즘을 비교해
놓은 장표였는데 Sarsa의 경우 수식을 보게 되면 Reward가 Chain Rule과 같이 그 전 시점에 모두 연결이 되어있어 또랑에 빠지게 되면 그 쪽 주변 그리드는 전부
피해서 가는 경향이 있고, Q-Learning의 경우 Max값을
뽑아 오기 때문에 또랑에 빠지더라도 그 주변 그리드가 위험하다고 생각하지 않고 과감하게 가는 모습을 볼 수 있었다. 따라서, Saras 보다 Q-learning이 Optimal한 입장에서는 효과적이라고 판단된다. 이번 세미나를 통하여 RL에 대한 궁금증이 많이 해소가 되었고 매우 뜻 깊은 세미나였다.

조윤상

오늘 전체세미나는 '강화학습'으로 영준이형이
진행했다. 머신러닝 기법은 지도학습, 비지도학습에 이어 강화학습
군으로 이루어진다. 강화학습은 상태와 액션, 보상으로 모델링
가능한 데이터에 적용하는 알고리즘이며 지도학습과 비지도학습에도 응용되고 있다.가장 큰 차이점은 학습결과에
있다고 본다. 분류를 위한 경계면 또는 hidden structure를
찾아 군집을 부여하는 지도/비지도 학습과 달리 강화학습은 학습결과
action(혹은 action을 연결한 policy)를
도출해내는 점이다. 좋은 action(or policy)를
도출하기 위해 그 action에
대한 가치판단을 해야하며 그 가치를 정의하는 방법으로 여러 강화학습 알고리즘이 있다. 대표적으로 value 기반, policy기반,
이 두개를 활용한 Actor-Critic 방법으로 나눌 수 있다. 개인적으로 강화학습 분야가 미래의 AI로봇을 구성하는 핵심기술일
것으로 생각한다. 또한, 예측과 추론결과를 강화학습의 가치판단에
적용하는 것의 연구는 없을지 생각해보았다. 오늘 세미나는 강화학습을 구성하는 기본적인 컨셉을 훑어보는
시간으로 유익한 세미나였다. 공유해주신 발표자료를 강화학습 스터디에 좋은 자료로 활용할 것 같다.

이한규

강화학습에 대해 전반적인 흐름을 알 수 있었다. deep learning 이후 DQN 등으로 대표되는 강화학습은 실제로 그 개념이 등장한지 상당히 오래된 분야이다. 그 괘는 기존의 supervised learning과 유사하지만
실제로 예제 코드를 실행해보면 그 과정은 생각하는 supervised learning과는 전혀 다르다는
것을 알 수 있다. 지극히 개인적으로는 state에 따라 action이 interactive한 부분으로 마치 time series의 데이터의 특성과 같이 현재의 action이
미래에 영향을 미치는 부분과 on-policy, off-policy 등과 같은 용어들에 대해 명확한
차이를 이해하기가 쉽지 않은 점이 어려운 부분이었다. 아마 이러한 부분은 강화학습의 초기부터 공부한게
아니라면, 강화학습 관련 논문을 이해하고 실제 연구하는데 있어 매우 어려운 부분이라 생각한다. 오늘 세미나를 통해 강화학습에 대한 전반적인 용어와 개념을 확립하는데 있어 큰 도움이 되었다고 생각한다.

성유연

금일 세미나는 강화학습에 대한 개론을 소개하는 자리였다. 강화학습은 state, action, reward 순으로 이루어지는 sequence에
대해 최적의 reward가 구해지는 action들의 set을 구하는 방법론이다. 이에는
reward에 따라서 action을 선택하는
action-value function과 reward에 따라 state를 선택하는 state-value function으로 나눌
수 있다. 오늘 발표는 최적의 reward를 구하기 위해
어떤 방식으로 state와 action이 업데이트 되는지에
대해 주력하여 구성되었다. 대표적으로 Monte Carlo 방식과 Temporal Difference 방식이 있는데 각각 모든 sequence가
끝나고 state가 업데이트 되는지와 sequence 안에서 state가 매번 업데이트 되는지에 따라서 결과에 차이가 있다. 개인적으로
발표자가 앞서 말했던 reward에 따라 state를 비확률적으로
계산하는(혹은 차선책으로 선택하는) epsilon-greedy 방식과 MS,TD 방식을 어떻게 결합할 수 있을지에 대한 의문이 들었다. 최근
스타크래프트 프로젝트 등 state가 불안정할 때 많이 쓰이는 기법이 강화학습이라고 알고 있는데 잘
활용하면 효과적인 의사결정을 하게끔하는 AI 시스템을 구축할 수 있을 것이라는 생각이 든다.

도형록

금일 세미나는 reinforcement learning: from basics to
recent algorithms라는 제목으로 진행되었으며, RL의 가장 초기 문제 중 하나인 multi-armed bandits problem과 Q-Learning,
policy gradient에 대한 설명, 그리고
deep reinforcement learning에 대한 간단한 설명으로 구성되었다.
Reinforcement learning을 공부하는 데 필요한 흐름을 명확하게 짚어줄 수 있게 구성되어 있었다. 다만 multi-armed bandits problem과 RL 간의 관계에 대해서 좀 더 자세한 설명이 있었으면 좋았을 것이라는 생각이 든다. RL에 대한 설명의 시작점을 multi-armed bandit problem으로
잡은 이유가 있을 텐데, 너무 예시 위주의 설명으로 구성되어 있어
motivation에 대한 정보를 얻을 수 없는 것이 아쉬웠다. 최근 deep reinforcement learning이 크게 유행하고 있는데, 이에
대한 공부를 어디에서부터 시작해야하는지 감을 잡을 수 있게 해주는 좋은 내용으로 구성된 세미나였다.

채선율

이번 세미나에서는 강화학습의 기본적인 컨셉을 자세하게 다루고 거기에서 발전되어 최근에 나온 모델들에는 어떤 것들이 있는지 확인하는
시간을 가졌다. 강화학습은 Agent가 어떤 Environment에서 Reward를 최대로 만들기 위하여 선택하는 Action들의 sequence를 찾는 과정이다. 강화학습은 머신러닝의 Supervised learning과 Unsupervised learning과는 또다른 개념인데 각각을 비교하여 설명하는 부분이 인상 깊었다. 강화학습은 Action이나
Label과 같이 어떤 것을 예측한다는 점에서는 Supervised learning과 유사하지만
취한 결과에 따라 Environment가 바뀌는 것처럼 상호작용한다는 점에서는 다르다. 또한 강화학습과 Unsupervised learning은 label이 없다는 점에서는 유사하지만 목적식이 누적 Reward를
최대화하는 점에서는 다르다. 전통적으로 강화학습을 설명할 때에는
Multi-armed bandit problem을 예시로 많이 든다. Multi-armed
bandit을 쉽게 이야기하면 slot machine인데 우리가 어떤 기계를 선택해야 가장
큰 돈을 얻을 수 있는지를 푼다고 생각하면 된다. 각 기계는 돈을 뱉을 확률이 서로 다르며 어떤 기계를
선택할지가 Action, 돈이 Reward가 된다. 이 문제를 푸는 과정에서 사용하는 방법에는 크게 Action-value
methods와 Gradient-based methods가 있다. 먼저 Action-value methods는 각 Action 별로 얻어지는 이익을 계산하는 Q함수를 사용하여 다음 Action을 정한다. 식으로 표현하면 이전의 값을 기준으로 약간의 variation을 두어 업데이트하는 Gradient search와
비슷한 느낌의 식이 된다. Gradient-based methods는
Q함수 대신 각 Action의 선호도를 표현하는 H함수를
사용하여 다음 Action을 정한다. 위의 두 가지 전통적인
기법에서 출발하여 현재의 DQN, Policy Gradient가 파생되었다. 또한 다양한 문제를 풀기 위하여 강화학습의 다양한 함수들을 Dynamic
programming의 Bellman equation 식의 형태로 디자인하여 쓰고 있는데
이 과정을 상세하게 설명하였다. 최근에 나온 방법론들은 논문을 통해 학습할 수 있지만 그 근간이 되는
기법들은 이렇게 상세하게 설명을 듣고 질문할 수 있는 기회가 많지 않다. 그런 의미에서 오늘 세미나는
강화학습의 기본에 충실하여 강화학습에 관심을 가지고 있는 연구원들이 해당 필드에 대한 기반 지식을 다질 수 있는 유익한 시간이었다.

알수없음

금일 세미나에서는 전통적인 강화학습부터 현재까지의 강화학습을 박영준 연구원이 발표해주었다. 지도학습, 비지도학습을 강화학습과 비교 분석해 설명해 준 점이 참 인상깊었다.

더욱 ε-greedy policy를
주었을 때 (0.1)와 주지 않았을 때 Optimal한 부분도
설명해 주었다.

특히, Action을 선택하는 Exploit 과
Exploration 방법을 알기 쉽게 발표해줘 좋았다. Value
iteration이 Policy iteration보다 효율적이라는 부분은 내가 더 공부를
해야겠다는 자극제가 되었다. Model-free Methods의 몬테 카를로와 Temporal Difference(TD) 방법 설명에서 많은 것을 배웠다. 이
부분에서 연구원들 간의 토의가 인상 깊었다. 또한 TD가
업데이트를 자주 할 수 있어서 수렴이 더 빠르다는 이상민 연구원의 첨언 덕분에, 얕은 나의 강화학습
이론을 체감할 수 있었다. 오늘 세미나를 위해 준비해 준 박영준 연구원에게 감사하다.

이민정

오늘의 세미나는 강화학습의 분야를 이해하기위한 전반적인 내용에 대한 설명을 들을 수 있었다.
방학동안 흥미를 갖게되어 공부를 얕게 했었지만 학기중에 진행하지 못해 아쉬움이 컸는대 오늘 세미나를 통해 다시 리마인드하고 최신의
흐름이 어떻게 연구되는지 알게 되어 좋은 시간이었다. 오늘 세미나 시간에는 제한된 시간내에 전통적 부분부터
최신의 방법까지 커버해야되기에 강화학습 문제를 정의하는 Markov Decision Process에
대한 설명이 빠졌지만 이 부분이 도입부에 설명되었다면 뒤에 내용에 이해가 더 수월했을 것 같다. MDP는 state, action, 특정 state에서 특정 action을 취했을 때 다음 state가 어떤 state가 될지에 대한 확률 값 transition probability,
reward, discount factor로 설명될 수 있다. 먼저 초기 state에서 초기 action이 수행되고 이 행동으로 인하여 주어진 transition probability에 따라 다음 state가
확률적으로 결정된다. 그리고 그 결과로 reward를 얻게된다. 이 과정이 state가
terminal 조건을 만족할 때 까지 반복된다. 이 때
reward는 최대한 빠르게 좋은 reward를 받을수록 좋기 때문에 discount factor로 이것이 조절된다. 우리는 종료가 될
때까지 받을 reward가 최대로 하는 policy(state에서
어떤 action을 취할 것인가)를 구하게 된다. (transition probability가 확률적으로 결정되기에 실제
maximization하기 위한 목적 함수는 사실상 expectation 형태가 된다.) 이때 policy를 구하는 대표적인 두 알고리즘은 value iteration(DQN)과 policy
iteration(policy gradient)이라는 알고리즘이 존재한다. DQN에 대해서는
이해가 되었으나 policy gradient가 어떤 부분에서 차이가 있는지 이해가 부족하여 이에 대한
공부가 더 필요할 것 같다. 현실의 문제 가운데 지도학습과 비지도학습으로 formulation 되지 못하는 경우가 굉장히 많다고 생각한다. 고정된 상황과 환경에서 나온 문제의 경우는 수집된 데이터의 조합으로 그
현상이 설명될 수 있겠지만 현실은 그렇지 않기에 강화학습에 대해 공부하고 깊게 알아두는 것이 분명 나중에 큰 도움이 될 것이라고 생각한다. 오늘 세미나를 계기로 다시 강화학습에 대해 관심을 두고 공부할 수 있는 포인트가 된 것 같다.

조 억

발표 잘 들었습니다. 현재 강화학습을 가지고 스타크래프트에 A3C를 적용을 한참 하고 있고 전 강화학습 외부 스터디 리딩을 하고 있는 입장에서 다른 사람의 의견을 들어보는
건 개인적으로 간만이었습니다. 개인적으로 잊혀지고 있던 강화학습 기초부터 다시 한번 정리하는 유익한
시간이었습니다. 내용은 강화학습의 정의를 하고 시작을 model
based의 planning기법인 dynamic
learning인 bellman optimal equation과 bellman expectation equation을 가지고 흐름을 이어갔습니다. 그리고 현실 세계에 적용을 하기 위해 타협한 model free
learning에서 시작하여 mc나 td 계열로
시간차 학습이냐 에피소드가 끝나서 학습을 하는지에 대한 학습 인터벌의 차이 관점을 얘기했고, 아니면
정책 결정에 따라 off policy와 on policy의
차이 관점에 대해서 설명을 해주었고 그 구현알고리즘인 sarsa와 q
learning에 대해 다루었는데 td learning은
boostrapping을 하는게 핵심이라 q learning같이 다음 action을 학습하고 있는 q 함수의 max값을 얻어가는 것이라 td learning로 바라보진 않는 것 같은데 한번 richard sutton 책을 다시 읽어야겠네요. 여튼 그 뒤로 policy gradient와 hybrid격인 a3c까지 핵심적인 수식을 가지고 설명을 하는 걸로 마무리를 발표를 했습니다.
이 방대한 자료를 어떻게 연결시키고 어떻게 나눠서 바라보게 할건지 발표자의 고민이 많이 느껴지는 시간이었습니다. 수고하셨습니다!

이창현

금일 세미나는 Reinforcement Learning : From basics to
Recent Algorithm 이라는 주제로 진행 되었다. 최근의 새로운 강화학습 관련
논문에서는 너무 당연하여 잘 소개 하지 않는 강화학습의 기본에 대하여 컨셉적인 측면으로 소개를 해준 유용한 세미나였다. 강화학습이란 State, Action, Reward 로 구성되며 Reward 를 Maximize 하는 Policy 를 찾는 과정이다. 다른 machine learning 과 비교 하였을 때 supervised Learning 과는 interaction 한다는
차이점이 있고, un-supervised learning 과는
rewards 를 Maximize 한다는 차이점이 있다.
이런 특징이 있는 강화학습이 어떻게 학습 과정을 거치는지에 대하여 Multi-Armed
Bandits Problem 을 이용하여 잘 설명 해주었다. 크게 두가지 방법으로 Action-value methods 와 Gradient-based methods
가 있다. Action-value method 는
Episode를 진행하면서 얻은 reward 를 보고 가장 좋은 reward 방향으로 action 을 계속 진행하는 방식으로 구성된다. 이때 local optimum 에 빠질 수 있기 때문에 e-greedy policy 라는 개념을 도입하여 확률적으로 다른 방향으로도
action 을 취할 수 있게 하여 함수를 학습하게 된다. Gradient-based methods
는 기본적으로 softmax policy 를 이용하며 여기에 사용되는 H(a) 는 gradient ascent algorithm 을 이용하여
학습한다는 특징이 있다. 이후에 최근에 개발된 다른 algorithm
의 예를 들어 기초적인 방법론에서 어떻게 확장 하고 있는지 보여주었다. 이 부분에 대해서는
개인적으로 더 학습이 필요하다고 생각하였다. 오늘 세미나를 통하여 모델의 기초 컨셉에 대한 이해를 함으로서
강화 학습에 대한 개념을 잘 알 수 있었다.

이슬기

오늘 세미나에서는 강화학습의 기본적인 개념과 과거부터 현재의 연구까지 어떻게 발전되었는지 다루었다. 강화학습은 환경(environment)이 주는 상태(state)들에 대해 취할 수 있는 일련의 행동(action)들을
고려하여 미래 포상(reward)를 최대화하는 방식을 취한다. 강화학습은
세미나에서 여러 번 다뤄졌었지만 개념적인 이해는 쉬우나, 실제로 어떤 알고리즘이 어떻게 작용하여 학습목표를
달성시키는지 자세하게 다룬 것은 이번이 처음인 것 같다. 이야기를 시작하면서 아주 예전 개념인 multi-armed bandits 문제부터 시작했는데, 이 부분이
향후 수식적으로 확장되는 다른 방법들을 이해하는데 가장 기본적인 도움이 된 것 같다. 단순히 하나의
논문에 대한 이야기도 아니고, 특정 문제를 풀기 위한 기술을 이야기한 것도 아니고 전반적인 이야기를
할 만큼 공부한 것이 느껴지는 세미나였다.

김영훈

오늘 세미나에서는 강화학습의 기본에 대해서 배울 수 있었다. 강화학습이라 하면 환경과
계속해서 상호작용을 하면서 획득하는 보상을 가지고서 좀 더 좋은 보상을 받을 수 있게끔 학습하는 방법이다. 인간들도
어떠한 능력을 향상시키기 위해 해당 작업을 반복적으로 하면서 스스로 또는 환경으로부터 보상을 얻으면서 좀 더 잘 할 수 있게끔 학습을 한다. 비단 인간 뿐만이 아니고 다양한 생명체들은 이러한 강화학습할 수 있는 능력을 기본적으로 가지고 있는 경우가
많다. 이러한 강화 학습 문제를 컴퓨터를 이용해서 해결하기 위해 먼저 가정을 가지고서 수학적으로 학습
과정을 정의해야 한다. 기본적으로 사용되는 개념이 Markov
Decision Process이다. 이것은 불확실성이 있는 환경 내에서 Agent가 특정 State에서 특정한 행동을 했을 때 State가 어떻게 변할지에 대한 수학적 정의를 해준다. 여기에 State transition 과정에서 보상 개념이 포함되게 되면 강화학습이 진행되는 수학적 공간의 정의가 완료된다. 이 상황에서 우리는 미래의 보상까지 고려한 최적의 선택을 매 State마다
진행해야 한다. 이를 위해서는 각 State에서 특정 Action이 주는 보상의 기대값을 계산해야 한다. 만약 State와 Action의 개수가 많지 않다면 여러 번의 반복 시행을
통해 이를 계산할 수 있겠으나, 현대의 강화학습이 필요한 문제 상황에서는 이게 불가능하다. 따라서 우리는 각 State에서의
Action value를 Approximate 해야 하고
Approximate 함수로 Deep Neural Network가 사용되면 최신의 Deep-Q Learning이 되는 것이다. Action value를
계산해서 최적의 Action을 선택할 수도 있겠으나 바로 State
Action을 Mapping하는 방법도 있는데 이것이
Policy Gradient 방법이다. 그리고 이 두 가지를 적절하게 혼합해서 사용하는
것이 최근 가장 주목받고 있는 Actor-Critic 방법이다. 강화학습은
스스로 학습하는 인공지능을 만드는 핵심적인 기술로 많은 공부를 할 필요가 있을 것 같다.

박성호

금주 세미나에서는 강화학습의 기본 개념들이 소개가 되었다. 가장 단순한 Multi-armed bandits problem를 시작으로 스트크래프트 문제까지 어떻게 문제가 복잡해지며, 이에 따라 어떠한 강화학습 연구 및 방법론이 제시되었지 개념을 위주로 소개하였다. 강화학습의 핵심은 주어진 state에서 action을 취했을 때의 효용(Q-value)을 잘 추정하는 것이다. 그래야지 유사한 상황에서 효용을 가장 높게 해주는 action를
취할 수 있기 때문이다. 하지만 스트크래프트 문제처럼 episode가
길고, state와action이 많은 경우, 효용을 잘 추정하는 것 매우 어렵기 때문에 최근에는 deep learning
같은 방법을 사용해서 추정하는 연구가 활발히 진행되고 있다. 좀 더 정확한 이해를 하기
위해서는 좀 더 공부가 필요하겠지만, Incremental learning을 기반으로 한 State-Value, action-value 개념이 계속 사용되거나 확장되기 때문에 기본에 충실 할 필요 있음을
다시 한번 확인하였다.

이지윤

금주 참석한 세미나에서는 ‘Reinforcement Learning : From basics
to Recent Algorithms’라는 주제로 강화학습에 대한 개략적인 설명과
'Multi-Armed Bandits Problems'라는 간단한 강화학습 예시를 통해 몇가지
Solution에 대해 소개해주시며, 최근 소개된 알고리즘들과 어떠한 관계가 있는지 연관지어
소개해주셨다. 강화학습은 'Agent'와 'Environment'로 구성되어 Environment로부터 State를 받고, Agent는 그
State를 바탕으로 Action을 지정해주어,
Action이 Environment에 Input되어
작업을 수행하여 그 결과로 Reward가 나오게되는 구조이다. 강화학습은 'Reward'값의
합을 Maximize하며, State가 주어졌을 때 어떤 Action을 취하는가 하는 함수를 의미하고 임의의 시점으로 부터 미래의 시점의 가치를 표현한다는 특징이 있는 Policy를 찾는 것이 목표이고, 따라서 강화학습은 예측을 한다는 관점에서
지도학습과 유사점이 있으며, 차이점이 있다면 강화학습은 Action과 Reward를 통한 Interaction이 가능하다점이다. Policy에 대한 Label이 없다는 점에서 비지도 학습과 공통점이
있고, 강화학습의 목적이 뚜렷하다는 점에서 비지도학습과의 차이를 보였다. 이후 Policy를 구하기 위한 여러 방법론에 대해 설명해주셨고, 고전적인 방법론으로 Gradient기반의 알고리즘들이 있었다. 또한 정해진 Policy로 움직이며 해당 Policy를 업데이트 하는 'On-Policy'의 개념과 업데이트
하는 Policy와 학습에 영향을 미치는 Policy가 분리되어있는 'Off-Policy'에 대해 소개해주시며
'SARSA','Q-learning'알고리즘에 대해서도 접해볼 수 있었다. 세미나 시간에는
혼동이 있었던 Cliff 예시에 대해 고민해보았는데 SARSA의
경우 Cliff에 빠지지 않기 위해 Cliff근처의 경로는
낮은 Value를 두어 Cliff와는 멀어지되 거리가 먼
경로를 최적으로 찾으며, Q-learning의 경우 Cliff에
빠지더라도 제일 짧은 경로를 최적으로 찾게된다. 목적에 따라 사용 알고리즘이 다르다고 생각하는데 대부분 Q-learning을 사용한다는 점이 의미적으로 수식적으로 아직은 이해하기 어려웠다. 지난 학회에서 일부
강화학습과 관련된 연구발표를 통해 강화학습에 대해 접하게 된 이후 이번 세미나를 통해 흥미로운 예시를 통해 개략적으로 강화학습에 대해 배울 수
있는 정말 유익한 시간이었다.

강현구

오늘 세미나는 reinforcement learning의 기초 개념에서 시작하여
최근에 유행하는 deep reinforcement learning을 발전되기까지의 과정을 개괄적으로
다루는 방식으로 진행되었다. 강화학습이 유행하게 된 것은 비교적 최근이지만, 그 기초는 이미 1980년대부터 존재하였다. 비디오 게임에서 사람을 능가하는 능력을 보이고, 바둑에선 세계 챔피언을
이기는 성과를 보인 것은 기존의 강화학습 이론과 functional approximator로써 딥 러닝
모델이 잘 결합되었기 때문이다. 따라서 딥 러닝 기법 뿐 아니라 기존의 강화학습 이론을 이해하는 것이
상당히 중요한데, 최신의 논문들을 보면 기초를 설명하는데 충분한 분량을 할애하고 있지 않아 이해하는데
어려움이 많을 수 밖에 없다. 개인적으로는
model-based/model-free, on-policy/off-policy과 같이 항상 등장하지만 그 어디에도 명확히 설명되어있지
않은 개념들에 대해 잘 정리를 해준 세미나라서 도움이 많이 되었다. 하지만 분량이 분량인만큼 강화학습에
대한 기초지식이 부족한 상태에서 세미나를 들었다면 내용을 충분히 이해하는데 어려움이 있었을 것 같다. 작년
여름에 연구실 내에서 강화학습 스터디를 진행한 바 있었는데, 이번 기회에 마음이 맞는 사람들끼리 다시
스터디를 구성하여 함께 공부해보면 좋을 것 같다는 생각이 든다.

Seminar