- 2021년 12월 3일 오후 11:35
- 조회수: 4382
INFORMATION
- 2021년 12월 3일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
[1] Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.
[2] Introduction to Reinforcement learning with David Silver, DeepMind
( https://www.youtube.com/
[3] 노승은, 『바닥부터 배우는 강화학습』, 영진닷컴(2020)
청취자 후기

강화학습에 대한 기초적인 내용을 총망라한 세미나였다. 평소에 강화학습에 딥러닝을 적용한 Deep Reinforcement Learning 위주로 공부를 하였는데, 이번 세미나를 들으며 기본적인 개념이 많이 부족했었던 걸 느끼게 되었고 이러한 부분을 채울 수 있어서 좋았다.
동일한 Grid World 예시에서 Model-Based RL 과 Model-Free RL의 상태/행동가치함수를 업데이트하는 방식을 비교할 수 있었다. Policy Evaluation 단계에서, Model-Based RL 은 Transition Probability 를 알기 때문에 수렴할 때까지 Iteration 을 반복하며 상태/행동가치함수를 업데이트한다. 반면 Model-Free RL 은 Transition Probability 를 모르기 때문에 Trajectory 를 통해 경험을 쌓고, 이러한 경험을 통해 상태가치함수를 업데이트한다. Model-Free RL 의 Policy Evaluation 은 크게 두 가지로 나뉜다. 실제 Trajectory 가 끝날때까지 에피소드를 진행한 후 True G 값을 통해 업데이트하는 MC 방식과, 매 타임 스텝마다 추측치를 더 나은 추측치로 업데이트하는 TD 방식의 장/단점과 그 이유를 명료하게 설명할 수 있게 되었다.
본 세미나에서는 DRL 에 관련된 설명은 없었지만, DRL 중 Actor-Critic 방식에 비유해볼 수도 있다. 각 상태 혹은 행동에 대한 가치를 평가하는 Policy Evaluation 은 Critic Network, 정책 함수를 개선하는 Policy Improvement 는 Actor Network 를 학습하는 것과 비슷하다. 차이점은 DRL 이전에는 Policy Evaluation 과 Policy Improvement 가 서로 번갈아가면서 일어나지만, Actor-Critic 은 주로 두 가지를 동시에 수행하게 된다.
강화학습에 기초적인 내용에 대한 교과서가 되는 세미나였던 것 같다. 세미나를 준비하느라 고생하신 재훈이형께 감사하단 말씀을 드린다.

이번 세미나는 "Basics of Reinforcement Learning"이라는 주제로 진행됐다. 강화학습은 크게 Model-Based 방법론과 Model-Free 방법론으로 구분할 수 있다. Model-Based 방법론은 MDP에 대한 정보를 알고 있다는 가정에서 진행된다. 반면 Model-Free 방법론을 MDP에 대한 정보를 모른다고 가정하고 agent가 environment와의 상호작용을 통해 경험을 습득하고 이를 기반으로 최적의 정책을 찾아 나가게 된다. 강화학습에서는 정책이 주어졌을 때 정책을 평가하는 prediction 문제와 최적의 정책을 찾아 나가는 control 문제를 해결해야 한다. Model-Based 강화학습에서는 임의의 value 값에서 시작하여 policy를 기반으로 각 상태의 value 값을 업데이트하는 방식으로 prediction을 수행하게 된다. Policy iteration에서는 prediction을 통해 찾아진 value 값을 기반으로 정책을 개선해 나가게 되며 이를 계속 반복하게 되면 최적의 정책을 찾는 control 문제를 해결할 수 있다. Value iteration에서는 벨만최적방정식을 적용해 최적의 value 값을 찾게 되고 최적의 value 값을 기반으로 최적의 policy를 찾게 된다. Model-Free 방법론에서 정책을 평가할 때 크게 두 가지 방법론이 활용된다. 첫 번째는 Monte Carlo(MC) 방식이다. MC는 정책에 따라 agent가 동작한 후 하나의 에피소드가 끝나면 해당 에피소드의 누적 보상을 기반으로 에피소드에서 거쳐 간 state들의 value 값을 업데이트하게 된다. 반면 Temporal Difference(TD)는 에피소드 중간에서 다음 state의 value 값을 기반으로 누적 보상을 예측하고 이를 바탕으로 value 값을 업데이트하게 된다. TD는 에피소드가 종료되지 않아도 학습을 진행할 수 있으며 학습을 진행할 때 타겟값의 크기가 일정하게 유지되기 때문에 MC보다 학습이 용이하다는 장점이 있다. 반면, 학습 중간에 누적 보상을 예측하고 이를 학습에 활용하기 때문에 실제 value 값으로의 수렴성이 보장되지 않는다는 단점이 존재한다. Model-free 방법론에서 control 문제를 해결할 때는 크게 On-Policy와 Off-Policy 방법이 존재한다. On-Policy는 실제 환경과 상호작용하며 경험을 축적하는 정책과 개선의 대상이 되는 정책이 같은 경우를 의미하며, Off-Policy는 환경과 상호작용하는 정책과 개선의 대상이 되는 정책이 서로 달라질 수 있는 경우를 의미한다. 이번 세미나를 통해서 강화학습의 기초를 전반적으로 살펴볼 수 있어 의미 있는 세미나였다. 세미나를 위해 고생해준 재훈이형에게 감사의 뜻을 전한다.

이번 세미나는 ‘Basics of Reinforcement Learning’을 주제로 세미나가 진행됐다. 강화학습은 순차적인 의사결정문제에서 누적보상을 최대화하기 위해 시행착오를 거쳐 상황에 따른 행동 정책을 학습하는 기법이다. 기본적으로 Markov 상황을 가정하고 Bellman 방정식을 사용해 문제를 해결한다. 이 때 MDP의 상태전이확률을 아는지 모르는지에 따라 Model based Reinforcement Learning과 Model Free Reinforcement Learning으로 구분된다.
Model Based Reinforcement Learning은 MDP의 모든 정보를 알 때 사용된다. 이루어지는 Task는 Prediction과 Control로 구분된다. Control Task에는 크게 정책 이터레이션과 가치 이터레이션으로 구분할 수 있으며, 각각 정책과 가치의 최적값을 찾아가는 방법론이다. 모두 각각 다른 Task를 진행하는 것으로 보이지만 큰 흐름으로 볼 때 완전히 연관이 없는 Task들은 아니다. 우선 Prediction의 Iterative Policy Evaluation에서 상태 가치들을 업데이트 한 뒤, 정책 이터레이션이나 가치 이터레이션을 통해 정책을 개선하게 된다. 이와 같은 과정을 값이 수렴할 때까지 반복하여 최적 값을 도출한다.
반면 Model Free Reinforcement Learning은 MDP를 모를 때 적용되는 방법이다. 이루어지는 Task는 Model Based Reinforcement Learning과 동일하나 방법론들은 다르다. Prediction의 경우, MC와 TD로 구분되며, Control은 On-policy 방법과 Off-policy 방법으로 나뉜다. 이 때 MC와 TD 방법론 간의 차이는 MC는 에피소드 단위로 상태 가치가 업데이트 되기 때문에 에피소드 종료가 필수적이고, TD는 step 단위로 업데이트 되기 때문에 에피소드 종료가 필수적이지 않다. 학습의 편향성만을 따지면 MC방법론이 더 좋으나 학습의 분산을 따지면 TD 방법론이 더 효과적이다. On-Policy는 Behavior Policy와 Target Policy가 서로 같은 경우이며 Off-Policy는 Behavior Policy와 Target Policy가 서로 다른 경우를 의미한다. 이 차이 때문에 On-Policy에서는 현재 정책으로 쌓은 경험만 현재 정책을 개선할 수 있고, Off-Policy에서는 과거의 경험으로도 현재 정책을 개선할 수 있다.
이번 세미나는 강화학습에 있어서 가장 기초가 되는 내용들로 더 깊은 내용을 공부하기 위해서는 필수적인 내용들이었다. 강화학습의 경우, 용어나 개념이 생소해 진입장벽이 높을 수 있는데 재훈이 형이 정말로 쉽게 설명해주셔서 강화학습에 대한 기초를 잘 닦을 수 있었다. 이번 세미나를 준비해주신 재훈이 형께 감사하다는 마음을 전하며 후기를 마무리한다.

금일 세미나는 “Basics of Reinforcement Learning”으로 재훈이가 발표하였다. 내가 처음 강화학습을 공부했을 때에는 개념적으로 잘 정리된 자료들을 찾아보기 어려웠다. 요즘에는 강화학습이 활발하게 연구되면서 관련 자료들이 쏟아져 나오고 있다. 이번 세미나는 심층 강화학습 이전에 강화학습이 무엇인지부터 벨만 방정식, 고전적인 방법론들을 자세하게 다루었다. 강화학습의 꽃인 벨만 방정식에 대한 자세한 설명과 벨만 방정식을 사용하여 문제를 해결하는 다양한 방법론들을 스텝 바이 스텝으로 그림과 함께 상세하게 설명한 점이 좋았다. 이 세미나를 기초로 삼아 많은 연구원들이 강화학습에 대해 관심을 가졌으면 하는 바람이 있다. 또한, 심층 강화학습으로 확장하여 연구해볼 수 있는 계기가 되었으면 한다.

금일 세미나는 재훈이 형이 강화학습 기초를 주제로 진행해주었다. 강화학습과 관련된 세미나가 연구실에서 진행될 때마다 반가운 편이다. 왜냐하면 강화학습에 대해 입문을 하고 싶으나, 스스로 공부하기에는 어려운 내용이 많기 때문이다. 본 세미나의 경우 재훈이 형이 강화학습 기초부터 꼼꼼하게 다루어줬기 때문에 강화학습 이해에 많은 도움이 되었다. 개인적으로 대학원생 전용 실생활 예제를 들어 MDP 설명을 해준 것이 웃기면서 잘 이해가 되었다.
벨만 방정식에 대한 본질적인 이해에도 큰 도움이 되었다. 이전에는 강화학습 목적함수 설립에 큰 도움이 된다는 것만 알고 있었는데, MDP를 아는 경우와 모르는 경우별 자세한 벨만 방정식 이해를 할 수 있었다. 벨만 기대방정식와 벨만 최적 방정식의 쓰임새와 목적을 이해할 수도 있었다.
모델 기반의 강화학습 모델링과 모델 free 기반의 강화학습 모델링을 구분지어, 각 모델링에 대한 원리를 이해해보는 시간도 가졌다. 이전에는 심층 신경망 모델 기반의 Q-learning 부분만 간략하게 이해하고 있었는데, 순수하게 강화학습 모델링만을 이해하는 시간을 가져 많은 도움이 되었다. 특히 강화학습의 본질을 prediction과 control 문제를 나누어 각 문제 풀이를 위한 모델링 설명과 이를 다시 강화학습의 목적으로 연결 짓는 부분이 흥미로웠다. 각 문제 풀이를 위한 모델링 부분에서도 여러 가지 방법론이 있어 세미나 내용이 풍부하였다. 이 부분은 두고두고 계속 공부해야 할 내용 같았다.
강화학습에 대한 전반적인 내용을 꼭 짚고 넘어가고 싶은 사람에게 꼭 추천하는 세미나였다. 좋은 세미나를 준비해준 재훈이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

본 세미나는 “Basics of Reinforcement Learning”이라는 주제로 진행되었다. 강화학습은 순차적인 의사결정 문제에서 누적 보상을 최대화하기 위해 시행착오를 거쳐서 상황에 따른 행동 정책을 학습하는 방법론이다. 순차적인 의사결정 문제는 MDP를 통해 정의할 수 있고, 벨만 방정식을 통해 상태와 행동에 대한 가치 평가를 할 수 있다. 강화학습 방법론은 MDP를 아는지 모르는지에 따라 Model-Based Reinforcement Learning과 Model Free Reinforcement Learning으로 구분된다. 그리고 강화학습에서 관심 있어 하는 태스크는 정책이 주어졌을 때 각 상태의 가치를 평가하는 Prediction 문제와 최적의 정책 함수를 찾는 Control 문제이다.
Model-Based Reinforcement Learning은 MDP에 대한 모든 정보를 알 때 이를 이용하여 정책을 평가 및 개선해나가는 과정이다. Prediction 문제를 해결하기 위해서는 반복적 정책평가 방법을 사용한다. 반복적 정책 평가는 벨만 기대방정식을 반복적으로 사용하여 상태의 가치를 점진적으로 업데이트하는 방법론이다. 그리고 Control 문제를 해결하기 위해 정책 이터레이션과 가치 이터레이션 방법을 사용한다. 정책 이터레이션은 정책평가와 정책 개선을 번갈아 수행하여 정책이 수렴할 때까지 반복하는 방법론이고, 가치 이터레이션은 환경에 의존적인 정책 평가를 진행하여 최적 가치를 구함으로써 최적 정책을 도출하는 방법론으로 벨만 최적 방정식을 사용하여 상태가치를 반복적으로 업데이트 한다.
그러나 MDP를 모를 경우가 있다. 이런 상황을 모델 프리(model free)라고 부르며, Model Free Reinforcement Learning 방법론들을 적용한다. Prediction 문제를 해결하기 위해서 Monte-Carlo(MC)방법론과 Temporal Difference(TD)를 사용하는데, MC 방법은 반복된 무작위 추출을 이용해 함수의 값을 수리적으로 근사하고자 하고, TD 방법은 미래의 추측으로 현재의 추측을 업데이트 하고자 한다. Control 문제를 푸는 방법으로는 On-Policy Monte-Carlo와 SARSA, Q-Learning이 있다. 세 방법은 MC와 TD를 정책평가에 사용하고, 상태-행동 가치를 통해 더 높은 상태-행동 가치를 가진 행동을 선택하도록 정책 개선을 한다. 여기서 Behavior Policy와 Target Policy가 일치하는지 여부에 따라 On-Policy와 Off-Policy으로 구분되는데 On-Policy와 달리 Off-Policy는 현재 정책 뿐 아니라 과거에 쌓은 경험으로도 현재 정책을 개선할 수 있기 때문에 더 데이터 효율적인 학습이 가능하다.
강화학습 공부를 시작하기 위해 해당 세미나를 듣게 되었는데, 강화학습의 기본이 되는 개념과 방법론들을 자세히 다루어주셔서 아주 큰 도움이 되었다. 그리고 다양한 예시와 함께 설명을 해주셔서 어렵고 생소하게만 생각했던 강화학습에 대해 관심과 흥미를 가질 수 있었다. 강화학습을 처음 접하는 사람들에게 입문용으로 꼭 추천해주고 싶은 세미나이다. 끝으로 좋은 세미나를 진행해주신 재훈 오빠에게 감사의 말을 전하고 싶다!