- 2023년 3월 24일 오후 3:59
- 조회수: 13667
REFERENCES
INFORMATION
- 2023년 3월 24일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
발표자 후기

본 세미나에서 핵심적으로 다루고 있는 내용은 가치 기반 강화학습에 관한 다양한 연구 4가지이다. 강화학습에 관한 기초 지식은 허종국, 김재훈 연구원의 세미나를 듣고 오는 것을 꼭 추천한다. 2013, 2015년도에 나온 Deep Q-Network를 시작으로 해당 연구의 한계점 및 문제점을 개선하면서 나온 3가지 연구에 관해 자세하게 설명해주고 싶었다. 관련 내용에 대해 나만의 언어로 이해하기 쉽게 설명하려고 했는데 적절하게 되었는지는 청취자들의 후기를 보면 판단할 수 있을 것으로 생각된다. 세미나를 준비하면서 논문을 더 자세하게 살펴보기 위해 노력했는데 그 시간이 강화학습을 이해하는데 있어서 큰 도움이 된 것 같다. 추후 세미나는 PER 이후 여러 가치 기반 강화학습을 결합한 RAINBOW라는 연구까지 설명하는 것이 목표이다. 청취자들에게도 저의 세미나가 어느 정도 도움이 되길 희망한다.
청취자 후기

오늘은 가치 기반 함수를 사용한 강화학습 방법 4가지가 소개되었습니다. 인간의 지능 수준으로 처음 강화학습을 소개했던 Deep Q-Network부터 target value를 구하는 함수를 개선한 Double DQN, two stream network를 도입하여 정책을 평가하는 동안에도 행동가치를 확인할 수 있게한 Duelig Network, 마지막으로 중요한 transition의 사용을 증가하기 위해 sampling시 중요로를 반영한 Prioritized Experience Replay 입니다. 오늘날 강화 학습의 관심을 일으킨 초기 논문들이고 최근에는 multi-agent를 학습하거나, 자율주행 등에 활용되는 등 매우 빠른 속도로 발전하고 있는 분야지만 강화학습을 직접 연구해보지 못했던 터라 막연한 부분이 있었는데 마치 본인이 공부하듯 자세한 소개가 인상적이었고 강화학습의 기초를 이루는 중요 개념들을 알 수 있어서 좋았습니다. 특히 26번 슬라이드의 전체적인 학습 framework을 시각화한 자료는 전반적인 학습 순서를 한 눈에 이해할 수 있어 이후 소개되는 논문의 이해에도 매우 도움되었습니다. 수고 많으셨습니다.

오늘 세미나는 기존 강화학습인 Q-Learning의 High Dimensional한 Data를 학습시키기 어려운 점과 Sample Data간의 Correalation이 큰 문제점을 CNN을 도입하여 Deep 하게 만들고 경험 리플레이를 이용하여 학습하고 네트워크를 분리하는 방법을 사용하는 DQN의 여러 연구에 대해 설명해주었다.
개인적으로는 AI분야에서 가장 흥미로운 분야라고 느끼는 강화학습 분야를 다뤄주셔서 기대되는 마음으로 세미나를 청취했다. 게임 이론에서 발전된 학습인 만큼 많은 사람들이 가장 흥미롭게 여기는 분야가 아닐까 하며, 특히 자율주행 및 로봇 공학과 같은 응용분야에서 많이 활용되고 있어 중요도가 나날이 커지는 분야인 것 같다.
세미나는 크게 4가지 모델에 대해 설명했는데, DQN, Double DQN, Dueling Network, PER이다.
기존 DQN이 가지고 있던 Overestimation을 해결하기 위해 발전한 연구에 대해 차례로 소개하며, 그 중 Operator를 개선하여 다음 State의 최대값을 뽑는 과정을 분리하여 계산하는 Double DQN과 Feature 추출 후 Stream을 Duel로 나눈 뒤 합산하여 리턴하는 Dueling DQN은 예전 Flappy Bird라는 게임 실습 때 사용해 본 경험이 있었다. 그 때 성능이 생각보다 안 좋았었는데, 뒤에 김정인 연구원이 설명해준 PER을 적용해봤으면 어떨까 하는 생각이 들었다. PER은 Replay Buffer에서 TD 에러가 큰 Transition을 우선적으로 샘플링하는 방법인데, 그럼 좀 더 최적화된 Q-function에 도달 할 수 있었을 것 같다. 물론 PER에도 비용 문제나 Overfitting등의 문제가 발생할 수 있어서 TD 에러가 0이 되지 않도록 보간하는 Stochastic Prioritization 방법을 적용하는 연구도 있다고 한다. 그 연구에서도 Bias를 방지하기 위해 importance Sampling Weights를 추가한다고 했는데 세미나 약 40분동안 너무 흥미진진한 내용이었다.
어려운 내용을 구조 그림과 단계적으로 잘 설명해준 김정인 연구원에게 깊은 감사를 드리며, 다음 세미나는 PER 이후 여러 가지 가치 기반 강화학습을 결합한 RAINBOW 연구까지 설명해주신다고 하시는 데 그 날을 기대하며 세미나 후기를 마친다.

이번 세미나에서는 Value-based Learning에 대하여 설명을 하였다.
Value function은 특정 상태에 있거나 특정 행동을 수행하는 것이 얼마나 좋은지 추정하는 함수를 말한다. 에이전트가 특정 상태에서 시작하여 특정 정책에 따라 받을 수 있는 예상 누적 보상으로 정의 된다. 이와 관련하여 Deep Reinforcement learning에 대하여 4가지를 설명해준다.
첫번째로 Deep Q-Network(DQN)은 Deep Neural Network를 Q-learning과 결합하여 기존 Q-learning(모든 상태와 행동에 관한 Q-Value function을 계산)의 한계를 개선한 방법이다. DQN 초기모델에서는 gradient descent에 따라 파라미터가 달라지기 때문에 target값이 달라질 수 있다는 한계점이 있었으나 target network를 추가한 개선된 모델을 통해서 기존 DQN의 불안정성 한계를 극복하였다. 두번째로 Deep Reinforcement learning with Double Q-Learning(DDQN) 은 DQN의 한계를 또한 극복한 모델이다. 이전 DQN은 loss 특성상 max operation을 사용하는데 이때 overestimate되는 현상이 발생하여 이를 해결하기 위해서 max operation을 argmax operation으로 변경하여, target value를 추정할 때 행동을 선택하고 나서, 평가하는것으로 분리를 시켰다. 세번째로 Dueling network는 기존의 DQN의 네트워크에서 하나의 estimator를 두개의 estimator(state-value function, advantage function)로 분리한 것이 특징이다. 이로 인하여 정책을 평가하는 동안에 올바른 행동을 더 빠르게 확인할 수 있게 되었다. 네번째로 Prioritized Experience Replay 는 기존 방법론에서는 Replay buffer에 보관했던 transition sampling을 random하게 진행을 하였기 때문에 중요도를 고려하지 않았다는 한계가 존재한다. 이를 극복하기 위해서 transition에 중요도를 부여한 방법으로 효과적인 학습이 가능하도록 한 방법이다. Value-based learning 강화학습모델의 발전 과정을 잘 설명해주었다. 이전 모델의 한계점을 개선하기 위해서 다음 모델에 어떤 보완을 하였는지를 단계 별로 설명을 해주어서 내용을 이해하기가 수월하였다. 작년에 강화학습 수업에 들었을 때 비슷한 내용의 수업을 들었으나 그때는 수식에 관련해서 상세하게 이해를 못하였으나, 이번 세미나를 통해서 수식부분까지 이해할 수 있어서 강화학습에 대해서 더 깊게 배우게 되었다. 강화학습은 아직 배울 내용이 많지만 기본적인 흐름과 베이스적인 이론들을 세미나들을 통해서 접하게 되고 학습할 수 있어서 매우 유익하였다. 유익한 세미나를 준비해준 김정인 연구원에게 감사함을 전달하며 세미나 후기를 마친다.

이번 세미나는 가치기반 강화학습 이라는 주제로 진행 되었다. 초반부 각 용어들의 정의부터 시작해서 원활하게 세미나의 흐름이 진행된 것 같아 좋았다. 현재 개인 연구로 강화학습을 하고 있기 때문에 흥미롭게 들을 수 있었고 지난 학기 강화학습이라는 과목을 수강하면서 한번씩 공부했던 내용들을 다시 한번 복습할 수 있어서 유익했던것 같다. 세미나에서 DQN(Deep Q-Learning), DDQN(Double DQN), Dueling Network 그리고 PER(Prioritized Experience Replay)로 4가지를 소개하였는데 그 중에 특이 사항으로 PER에서 rank-based prioritization은 처음 접했는데 환경/경우에 따라서 TD의 크기에 상관없이 순서만을 고려하는것이 유효하게 작용할 수도 있겠다는 생각이 들었고 현재 실험에 적용해보려 한다. 추가적으로 PER을 사용할 때 Alpha와 Beta를 어떻게 조절하는 것이 좋은지에 대해서 고민을 했었는데 단순히 해보는 방법 밖에 없는 건지 더 좋은 방법이 있는건지 궁금해졌다. 몇 번의 수업에 걸쳐서 힘들게 배웠던 내용이었는데 중요한점만 뽑아서 핵심적으로 세미나를 진행해주어 강화학습을 공부할때 도움이 될 좋은 참고자료를 찾은것 같았고 여기서 그치지 않고 각 논문들을 직접 읽어보며 공부를 해야겠다는 생각이 들었다. 유익한 세미나를 준비해주신 김정인 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 단일 에이전트 가치 기반 강화 학습의 기초인 DQN과 DQN의 3가지 Variant인 Dueling DQN, Double DQN, PER에 대해 알 수 있었다. 3가지에 대해 간단히 요약하자면 다음과 같다.
Dueling DQN은 행동 가치 함수를 상태 가치 함수와 이득 함수로 분해하여 굳이 모든 행동 가치를 평가하지 않더라도, Redundant한 State를 고려하여 빠르게 수렴할 수 있도록 하였다.
Double DQN은 기존 DQN의 행동 가치에 대한 Overestimation을 줄이고자 Double Q learning을 접목하였다.
PER은 Replay Buffer 에서 TD Error에 비례하는 확률로 Weighted Sampling을 진행하여 Informative한 sample에 대해 더욱 효율적으로 학습하게 하였다.
금일 세미나는 내용도 내용이지만 상당히 어조나 말하는 스피드가 기깔난 것 같다. 대본을 읽는 느낌이 아니라 진짜 구어체로 전달하는 느낌이라서 좋았다.
여담으로 본 세미나에서 다루지 않은 NoisyNet, C51, N-step Bootstrapping 3가지를 합치면 Rainbow라는 알고리즘이 완성된다. 다음 강화 학습 세미나에서는 Value-based Learning 3 : Over the Rainbow 라는 가제로 화룡점정을 찍고자 한다. Value-based Learning 트릴로지 2편을 담당한 정인이형께 감사의 말을 전하며, 3부작의 마지막은 다음에 내가 한번 도전해볼까 한다.

이번 세미나는 강화 학습의 방법론들 중 가치 기반 학습 방법론들에 대해 정인이형이 진행해주었다. 강화 학습의 기초가 되는 에이전트, 상태, 행동, 보상등의 용어들부터 기초적인 부분까지 잘 소개해주었다.
본 세미나에서 주로 소개한 가치 기반 강화 학습 방법론들은 DQN, DDQN, Dueling Network, PER이다.
DQN의 경우 단일 Q-Network를 사용하는 방식으로 발표되었는데 해당 방식은 학습 불안정성이라는 문제를 가지고 있어 Online network에 Target network를 추가하여 이를 보완하여 다시 발표되었다.
DDQN은 DQN에서의 overestimation 문제를 보완하기 위해 기존 max 연산자 대신 argmax 연산자를 활용했다. 또 하나의 큰 특징이라 생각된 부분은 Target network에서 다음 상태에 대한 행동을 선택할 때와 행동 가치를 추정할 때를 분리시켜, 행동을 선택할 때는 Online network의 parameter를 사용하는 것 이였다.
Dueling Network는 DQN에서 target value를 추정하는 학습 방법을 사용했지만 Fully Connected Layer 부분에서 상태 가치 함수와 이득 함수를 나누어 추정하고 두 값을 합하는 구조로 이루어진다. 그러나 이러한 방식은 unidentifiable하다는 문제점을 가지고 있어 이득 함수의 2가지 성질을 사용해 해당 문제를 해결하였다.
마지막으로 소개된 논문은 PER 방법론이다. 해당 방법론은 기존 방법론들에서 Replay buffer에서 random sampling 하던 방식을 transition에 따라 중요도를 부여하여 sampling함으로써 개선하였다. 비용 문제, 노이즈에 민감, overfitting 등의 문제점을 가지게 되어 Stochastic Prioritization 방식이 제안되었다. 그러나 해당 방식도 bias가 발생한다는 문제점을 가지고 있어 Importance Sampling Weights를 통해 최대한 uniform 분포를 따르도록 설정함으로써 해당 문제를 해결하였다.
나에게 강화 학습이라는 분야는 진입 장벽이 매우 높은 분야라고 늘 느껴졌었다. 그러나 이번 세미나를 들으면서 어느 정도 기본적인 개념에 대해 알게 되었고 소개된 방법론들에 대해 100% 이해하지는 못했지만 어느 정도 강화 학습에 대한 두려움?이 사라진 것 같다. 본 세미나에서는 방법론들에 대해 이해하기 쉬운 Framework 구조 그림 및 수식적인 추가 설명이 나에게 도움이 많이 되었고 추후에 종국이와 재훈이형의 세미나도 학습해 보고자 한다. 좋은 세미나 자료를 만드느라 고생한 정인이형에게 감사드리며 본 세미나 후기를 마친다.

이번 세미나에서는 가치함수 기반의 강화학습 알고리즘들에 대해 알 수 있었다. 알고리즘을 소개하기 전에, 강화학습 기본, 핵심 개념들도 선 리뷰되어 있어서 고마웠다. Deep Q-Network부터 Dueling Network, 그리고 Prioritized Experience Replay와 같은 여러 가지 알고리즘을 소개해주었는데, 이전 알고리즘에서 발생했던 문제 리뷰와 어떻게 해결하는지 흐름을 상세히 설명해주어 이해하는 데 도움이 되었다. 개인적으로 PER 알고리즘의 아이디어는 다른 연구 분야에서도 활발하게 사용될 수 있을 것 같다.

이번 세미나는 크게는 가치기반 강화학습을 주제로 하며, DQN과 그의 부족한 점을 보완하고 향상시키는 과정에서 나온 3가지 방법론(Double DQN, Dueling Network DQN, PER)에 대해 다루고 있습니다.
기존의 Q-Learning은 모든 상태와 행동에 대한 Q-value function을 계산해야 했지만, ① DQN은 DNN과 RL을 결합함으써 모든 상태와 행동에 관한 Q-value를 구할 필요가 없어졌음에도(메모리, 시간 개선) 인간 수준의 높은 성능을 달성하였습니다. 하지만, 특정조건에서 Q-function의 추정값이 실제 값보다 overestimate되는 문제가 발생했고, 이를 개선하기 위해 Double DQN이 제시됩니다. ② Double DQN은 target value 추정식에 max operator 대신 argmax operator를 사용하고, target value를 추정할 때 행동을 선택하고 평가하는 것을 분리시키는 방법으로 overestimation 문제를 개선하였습니다. DQN의 또다른 특징은 하나의 estimator로 상태-행동의 쌍에 대한 Q-값을 추정하는 것인데, 다음으로 설명하는 ③ Dueling DQN은 estimator를 두개로 분리(two-stream network) 함으로써 상태의 가치와 행동의 잠재적 가치를 개별적으로 추정하는 방법론을 제시하였습니다. 이를 통해 행동의 가치가 상태에 무관하게 추정될 수 있게 되면서 상태와 행동 중 하나라도 추정된 Q-value에 부정적인 영향을 준다면 최적 탐색을 함으로써 정책을 평가하는 동안 올바른 행동을 더 빠르게 할 수 있게 하였습니다. 마지막으로, DQN에서 학습데이터를 중요도를 고려하지 않고 random하게 추출하는 방식에서 발생하는 문제(중요데이터 무시 or 중요하지않은 데이터 과하게 학습 등)를 개선하기 위해 제안된 ④ PER(Prioritized Experience Replay)은 Stochastic Prioritization을 활용하여 pure prioritization과 uniform random sampling을 보간하는 방법으로 데이터에 우선순위를 부여함으로써 중요한 transition이 더 빈번하게 sampling되게 하였습니다. 해당 방법은 정형화 되어있지 않아 bias가 발생한다는 한계점을 보완하기 위해 importance sampling weights를 추가하여 uniform을 따르게 하는 식으로 문제를 해결하였습니다.
강화학습은 개인적으로 많이 접해보지 못한 분야여서 처음 세미나 영상을 켤 때에는 마음에 큰 벽이 있었는데, 도입부에서 강화학습 관련 기본 이론들에 대해 쉽고 자세한 설명으로 세미나가 시작되어 거부감 없이 내용을 따라갈 수 있었습니다. 또한, 기본 모델을 중심으로 개선이 필요한 한계점과 이를 개선하기 위해 도입한 주요 방법론들에 대해 설명하는 식의 잘 짜여진 스토리라인 구성 덕분에 이해하는데 많이 도움이 된 것 같습니다. 훌륭한 발표 진행해주신 김정인연구원께 감사드립니다.