- 2023년 10월 28일 오전 2:01
- 조회수: 20987
REFERENCES
INFORMATION
- 2023년 10월 27일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
강화학습에서 보상은 에이전트가 주어진 상황에서 최적의 행동을 선택할 수 있게 해주는 신호로서 작용된다. 한편 에이전트의 탐사 활동은 보상을 최대화하기 위한 정보를 얻기 위해서 수행된다. 충분한 정보가 수집되지 않은 상황에서는 최적의 행동 정책을 배울 수 없기 때문에 탐사 활동은 매우 중요하다. 다만 보상이 희소한 상황에서 단순히 에이전트가 임의로 행동하여 탐사하는 방식으로는 최적의 행동 정책을 배우기 어렵다. 따라서 이런 상황을 보완할 수 있는 정교한 탐사 방법이 연구되고 있다. 이번 세미나에서는 강화학습의 다양한 탐사 방법론에 대해서 알아보고자 한다.
[2] Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." International conference on machine learning. PMLR, 2017.
[3] Burda, Yuri, et al. "Large-Scale Study of Curiosity-Driven Learning." International Conference on Learning Representations. 2018.
[4] Pathak, Deepak, Dhiraj Gandhi, and Abhinav Gupta. "Self-supervised exploration via disagreement." International conference on machine learning. PMLR, 2019.
[5] Burda, Yuri, et al. "Exploration by random network distillation." International Conference on Learning Representations. 2018.
청취자 후기

이번 세미나는 "Introduction to Exploration in RL"을 주제로 진행되었다. 세미나의 제목에서 알 수 있듯이 주요 내용은 exploration(탐험)에 관한 내용이며, 탐험은 환경의 불완전한 요소를 해결하기 위해서 정보를 수집하는 행위라고 설명한다. 가장 기본적인 탐험 방법은 "입실론 그리디" 방법으로 주어진 정보 내에서 큰 보상을 주는 행동을 위주로 선택하면서, 사용자가 설정한 입실론만큼은 임의의 행동을 선택하게 함으로써 정보를 수집하게 하는 방법을 말한다. 본 세미나에서는 강화학습에서 탐험의 중요성과 그 딜레마를 강조한다. 탐험을 충분히 수행하지 않으면 최적의 정책을 찾을 수 없고 최대의 보상을 얻을 수 없으며, 특히 복잡한 환경에서 임의의 상태를 무작위로 확인하려면 시간이 오래 걸리므로 시간 비효율적일 수 있다. 또한, 보상이 드물게 주어지는 경우(Hard-exploration problem)와 환경의 무작위성이 강한 경우(Noisy-TV problem)에는 고도화된 탐험 방법이 필요하다. 세미나에서는 이와 관련된 논문 3가지(정확히는 4가지)를 소개하고 있다.
1. Curiosity-driven Exploration by Self-supervised prediction (ICML 2017)
: forward dynamics modeling(현재 상태와 현재 행동을 입력해서 다음 상태 예측)과 inverse dynamics modeling(현재 상태와 다음 상태를 입력하여 어떤 행동을 수행했는지 예측)을 함께 활용하여 forward dynamics modeling의 한계점을 개선하였다. inverse에서는 현재 상태와 다음 상태를 입력으로 사용해 어떤 행동을 했는지를 예측하기 때문에 에이전트와 무관한 환경 요소를 무시하도록 특징 공간을 학습하게 되는데, 이에 따라 에이전트가 노이즈에 영향을 받는 것을 완화할 수 있게 된다. intrinsic reward는 각 modeling에서 얻어지는 mse loss와 cross entropy loss를 합하여 정의된다.
2. Self-Supervised Exploration via Disagreement (ICML 2019)
: extrinsic reward를 전혀 사용하지 않고 intrinsic reward만을 활용하였으며, 서로 다른 파라미터를 갖는 여러 개의 forward dynamics model을 활용하여 forward dynamics에서 예측 오차를 활용하는 것 대신에 예측값들의 분산을 활용하였다. 따라서, 처음 보는 상태일 경우 서로 다른 값을 출력하기 때문에 분산이 커질 수밖에 없고, 그 반대의 경우 동일한 타겟에 대해서 예측을 한 번 해보았기 때문에 서로 다름에도 비슷한 값을 출력하기에 분산이 낮아진다. 이에 따라 처음 보는 상태에 대해 탐험을 장려하도록 할 수 있다.
3. Exploration by random network distillation (ICML 2019)
: 해당 논문은 intrinsic reward(예측 오차 활용)가 높게 나오는 3가지 원인을 제시하고 그중 2번째와 3번째 원인은 오히려 탐험을 저해하기 때문에 이를 해결한 새로운 방법론을 제시한다. 본 논문에서는 target network와 predictor는 동일한 구조로 구성하여 모델의 복잡도로 인해 발생하는 문제(3번째)를 해결하였다. 또한, target network의 초기 파라미터를 그대로 고정하고 동일한 시점의 데이터를 두 네트워크(target과 predictor)에 입력하여 얻은 mse loss를 intrinsic reward로 사용하기 때문에 전이확률(어떤 상태로 다음 상태로 도착할 확률)과 상관없이 확정적인 타겟을 사용해서 예측할 대상의 변동성을 낮춤으로써 2번째 원인을 해결하였다. 이를 통해, 처음에는 예측을 잘 못해 intrinsic reward가 높아져 탐험을 장려하다가, target은 고정되어 있기 때문에 시간이 지나면 지날수록 자주 예측했던 값에 대한 오차는 낮아지기 때문에 탐험을 장려하지 않게 된다.
위에서 언급된 3가지 논문 외에 random feature(초기 파라미터 상태로 고정한 인코더에서 얻은 특징 벡터)를 기반으로 forward dynamics modeling에서 얻은 intrinsic reward만을 사용해 에이전트를 학습하고 평가하는 논문도 있는데, 해당 논문은 세미나를 통해 확인하면 좋을 것 같다. 강화학습에 관한 세미나에서는 다른 세미나에 비해 생소한 용어가 자주 등장할 수밖에 없다. 하지만, 본 세미나를 이해하기 위해 필요한 설명을 충분히 해주어 수월하게 그리고 흥미롭게 세미나를 시청할 수 있었다. 유익한 세미나를 준비해 주신 재훈이형에게 감사드리며 이상으로 세미나 후기를 마친다.

효율적인 Exploration을 위한 방법 3가지에 대해 크게 알아보았다:ICM, Disagreement, RND.
이전에 민성이가 진행했던 URL 세미나에서도 ICM과 Disagreement에 대한 설명이 친절히 설명되어있기 때문에 보기 쉬웠고, 새로운 알고리즘인 RND에 대해도 알 수 있었다. 민성이가 이전 세미나에서 ICM과 Disagreement에 대해서 물론 친절히 설명해주었지만, 오늘 세미나에서는 이러한 방법론들이 어떠한 배경과 문제 상황에서 나왔는지 그리고 어떠한 취약점이 있는지 좀 더 깊이 있게 알 수 있었다. 단순히 처음 강화학습을 공부할때는 Epsilon Greedy나 NoisyNet말고 더 나올게 있나 싶었는데 역시 세상에 똑똑한 사람은 많았다. ICM 같은 경우 다음 상태에 대한 예측 오차를 Curiosity로 삼은 매우 획기적인 논문이다. 또한 State를 바로 예측하는 것이 아닌 Embedding을 예측함과 동시에 Inverse Dynamics를 활용함으로써, 랜덤성이 짙은 환경 정보의 변화는 무시하게 된다. 즉, 진짜 에이전트의 행동으로 인해 발생한 인과에 대한 특징만 추출하자는 의미를 가지는데, 이러한 특징 덕분에 Noise tv 상황에서도 좋은 Exploration 성능을 가진다. 하지만 다음 상태의 예측이라는 환경 역학에 의존하게 되는데, Disagreement는 이를 해결하기 위한 True State와의 예측 오차가 아닌 Ensemble간의 예측 분산을 Intrinsic Reward로 사용한다. 자주 본 상태는 앙상블 예측 오차가 작을 것이라는 가설 하에 진행되었으며, 따라서 환경의 실제 상태가 무엇인지는 중요하지 않다. 마지막으로 소개된 RND의 경우 Curiosity가 높은 원인 3가지 중 Stochasticity나 Model misspecification의 요인을 제거하기 위해 Random Network로 Feature를 뽑는 것이 특징이다. 처음에 RND의 실험 결과를 봤을 때는 CNN Encoder가 별다른 특징도 못잡을텐데, 저게 어째서 좋은 Exploration이 되는건지 도무지 이해가 안갔는데, 27p의 적절한 예시 덕분에 이해할 수 있었다.
RND가 2019년 논문이기 때문에 그 사이에 더 좋은 Exploration 기법이 나왔을 것 같다. 항상 새로운 방법론은 그냥 나오는게 아니라 이전 논문의 문제점을 직접 발견하거나, 이전 논문의 저자가 Discussion 혹은 Limitation을 친절히 써놓은 경우 그걸 보고 모티브를 갖는 경우가 많다. 나중에 RND 논문을 정독하며 해당 논문에서는 또 어떠한 한계점을 가지고 있는지 살펴본 후, 이를 해결한 논문이 있는지, 없다면 이쪽으로 연구해도 좋을 것 같다는 생각이 든다.
완벽한 세미나를 준비한 재훈이형께 감사의 말씀을 전한다.

이번 세미나는 강화학습에서의 exploration에 대한 주제로 진행되었다. 강화학습에서 어떤 행동을 할 것인지를 선택하기 위한 기본적인 전략으로 exploitation과 exploration이 있다. exploitation은 알고있는 정보 중에서 가장 최적인 선택을 하는 것이고, exploration은 새로운 시도를 하여 정보를 수집하는 선택이다. 강화학습은 주어진 데이터만 학습하는 지도학습과는 다르게 행동을 선택하고 그에 따른 보상으로 학습하기 때문에 이러한 전략들을 잘 적용하는것이 중요하다.
가장 기본적인 exploration은 입실론의 확률로 임의 액션을 하고 나머지는 최선의 선택을 하는 방식이다. 간단한 문제 상황에서는 잘 작동하지만, 복잡한 상황에는 조금 더 효율적인 방법론이 필요하다. 따라서 임의로 exploration을 하는 것이 아닌, 주어진 환경에 맞게 잠재력 있는 경우에만 exploration하도록 하는 방법론들(intrinsic reward)을 소개하였다. 그 중에서도 curiosity를 사용한 방법론들은 불완전한 정보를 많이 가진 상태일수록 exploration을 하여 정보를 얻도록 하는 전략을 사용한다.
1. Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models(ICLR 2016)에서는 현재 상태와 행동으로 다음 상태를 예측하는 forward dynamics modeling을 사용하며, 예측 오차가 클수록 불완전한 정보가 많다고 판단한다. 이 오차를 기존의 reward에 더하여 사용하였다.
2. Curiosity-driven Exploration by Self-supervised Prediction(ICML 2017)에서는 현재 상태와 다음 상태로 현재 행동을 예측하는 Inverse dynamics modeling을 추가로 사용하였다. 일반적으로 환경의 정보량이 많고 랜덤성이 많은 반면, 행동은 제한되어있기 때문에 입력값과 출력값을 바꾸어 보다 강건한 학습이 가능했다.
3. Large-Scale Study of Curiosity-Driven Learning(ICLR 2019)에서는 기존의 reward를 사용하지 않았으며, 위의 방법론을 보다 다양한 실험에 적용해보았다. 또한 random feature를 사용하였을 때 일부 어려웠던 게임에서 좋은 성능을 보인다는 것을 확인했다.
4. Self-Supervised Exploration via Disagreement (ICML 2019)에서는 여러 개의 forward dynamics model들을 활용하여 예측값들의 분산을 사용하였다. 또한 기존 환경에서 주는 reward를 사용하지 않아 강화학습 없이도 학습할수 있었다.
5. Exploration by random network distillation(ICLR 2019)은 어떤 상태가 랜덤 벡터로 매핑되고 이를 학습하는 방식이다. 이를 통해 자주 등장하는 상태들은 잘 학습이 되며, 그렇지 않은 상태들은 학습되지 않아 오차가 커진다. 게임 특성상 한번에 화면이 많이 변하는 경우가 많기 때문에 화면간의 연관성보다 오히려 랜덤 값을 사용하는것이 오히려 더 도움이 된 것 같다.
여러 논문들을 설명해주어 연구의 흐름과 여러 아이디어들을 배울 수 있었다. 이러한 것들은 강화학습만이 아니라 다른 분야에서도 적용되기 때문에 유익했던 것 같다. 유익한 세미나를 준비해준 재훈이에게 감사하며 이상으로 세미나 후기를 마친다.

강화학습에서 탐험의 중요성이 얼마나 큰 것인지 알 수 있었던 세미나를 청취하였다. 마치 지도학습에서 일반화 성능 향상을 위해 모델의 학습 상황을 호되게 하는 것처럼, 탐험 전략이 강화학습에 일반화된 성능 향상을 높이는데 크게 도움되는 것으로 느껴졌다. 이해한 바에 의하면, 탐험이란 에이전트가 환경을 이해하는데 큰 도움을 주며, 외부 보상 취득이 매우 어려운 환경에서 내부 보상 개념과 함께 연결되었을 때, 난이도 높은 게임도 훌륭히 수행할 수 있도록 도와준다. 이 때, 환경 복잡도가 높고 노이즈가 심한 현실적인 상황에서도 효율적인 탐험을 위해, 여러 연구진들이 탐험 기법들을 연구하며 기술이 발전하고 있다. 여러 가지 최신 탐험 방법론을 본 세미나에서 소개받을 수 있었고, 특히 예측 기반의 탐험 방법론(forward, inverse dynamics modeling)의 본질과 목적을 내부 보상 개념과 연결지어 제대로 이해할 수 있어 많은 도움이 되었다. ICM, RND, 분산 개념 기반 curiosity 정의 기법 등 여러 가지 최신 기법들도 함께 소개되어 있으니, 여러 연구원들이 보면 좋을 것 같다. 좋은 세미나를 준비하느라 많이 고생한 재훈이 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 강화학습에서의 탐험(Exploration)에 대한 내용을 다뤘다. 탐험이란 환경을 탐구하며 정보를 수집하는 과정으로, 강화학습에서는 최적의 정책을 찾고 최대의 보상을 얻기 위해 중요한 역할을 한다. 그러나 탐험을 얼마나 효율적으로 수행할지에 대한 딜레마가 있다.
세미나에서는 주요한 탐험 방법과 관련 논문들을 소개해주었다. 먼저, "Curiosity-driven Exploration by Self-supervised prediction (ICML 2017)" 논문에서는 forward dynamics modeling과 inverse dynamics modeling을 활용하여 불완전한 정보를 보완하고 랜덤성을 줄이는 방법을 설명했다. 이 논문에서 언급된 intrinsic reward 개념은 매우 획기적이었고, 다음 상태의 예측 오차를 기반으로 에이전트가 탐험을 수행하게 한다.
두 번째로, "Self-Supervised Exploration via Disagreement (ICML 2019)" 논문에서는 extrinsic reward를 사용하지 않고 intrinsic reward만을 활용하는 방법을 소개했다. 이 방법은 여러 개의 forward dynamics model을 사용하여 예측 값들의 분산을 활용하고, 상태의 탐험을 장려한다.
마지막으로, "Exploration by random network distillation (ICML 2019)" 논문에서는 intrinsic reward를 높게 만드는 원인과 그 해결책을 제시했다. 이 방법은 target network와 predictor를 사용하여 예측 오차를 활용하며, 초기 파라미터를 고정시켜서 예측의 변동성을 줄인다.
세미나를 통해 이러한 탐험 방법과 관련된 논문들을 자세히 이해할 수 있었고, 강화학습에서의 탐험의 중요성과 어려움을 더 잘 이해하게 되었다. 이러한 연구들은 강화학습뿐만 아니라 다른 분야에서도 적용될 수 있어 매우 유익한 내용이었다. 이런 유용한 세미나를 준비해주신 재훈이에게 고마움을 표한다.

이번 세미나는 강화학습의 핵심인 탐험(Exploration)에 관하여 진행되었다. 강화학습은 환경과 수 없이 상호 작용하며 새로운 정보를 탐험하고 이를 기반으로 최적의 행동 정책을 수립하게 된다. 당연하게도 탐험을 하는 과정은 굉장히 중요하다. 기존의 탐험을 하는 방법으로 입실론-그리디와 같은 방법이 있지만 확률적으로 탐험을 수행하고 보상이 드물게 나타나는 경우에는 제대로 동작하지 않는 다는 한계가 있다. 따라서 이러한 한계를 극복하고자 많은 연구가 이루어졌고 본 세미나를 통해서 관련 최신 연구를 접할 수 있었다. 여러 가지의 환경(게임) 중에 대부분에서 잘 동작하지만 특정 환경에서 기존 방법론이 제대로 동작하지 않는 것을 발견하고, 거기서 해당 방법론의 단점과 한계를 분석하여 더 나은 방법론을 연구하는 과정이 연구의 흐름을 자연스럽게 확인할 수 있어서 좋았다. 그리고 Hard-exploration 문제와 Noisy-TV 문제와 같이 전혀 모르던 문제에 대해서 파악할 수 있었다. 뿐만 아니라 해외 학회 발표를 위해서 여러번 김재훈 연구원의 발표를 들으면서도 Inverse Dynamics Modeling이 어떻게 성능에 도움이 되는 것 인지 잘 이해하지 못했었는데 이번 세미나를 통해 이해할 수 있었다. 또한 환경에서 제공하는 보상 뿐만 아니라 모델에서 제공하는 보상인 Intrinsic Reward로만 모델을 학습할 수 있다는 것이 신기하였다. 실제로 Extrinsic Reward 없이도 게임을 끝내면 더 이상 탐험을 할 수가 없으므로 게임을 끝내지 않고 지속하기 위한 방향으로 학습된다는 설명이 직관적으로 와닿았다. 강화학습 논문을 보다 보면 정말 다양한 세부 분야로 나뉘는 것 같은 생각이 들었는데 오늘도 탐험이라는 주제에 대해서 다양하게 연구되는 것을 보면서 역시 강화학습은 흥미롭다는 생각이 들었다. 세미나에서 여러 방법론을 소개하였는데 예시를 들어 쉽게 설명해주어 다 이해되는 것 같다가도 다시 이해 안되는 것 같기도 하여서 해당 논문을 읽어봐야 겠다는 생각이 들었다. 하지만 강화학습에서 탐험이 중요하고 효율적인 탐험을 위해서 다양한 연구들이 진행되고 있다는 사실은 확실히 알 수 있었다. 이처럼 유익한 세미나를 준비해준 김재훈 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.