고려대학교 DMQA 연구실

Unsupervised Reinforcement Learning - in the Multiverse of Downstream Tasks

2023년 9월 8일 오후 2:36
조회수: 18945

REFERENCES

[230908] DMQA_OpenSeminar_Unsupervised_Reinforcement_Learning_수정.pdf

INFORMATION

2023년 9월 8일
오후 1시 ~
고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)

발표자:

차민성

TOPIC

Unsupervised Reinforcement Learning - in the Multiverse of Downstream Tasks

On-Line Video

OVERVIEW

강화학습은 agent가 환경과 상호작용하며 학습하여 task를 잘 수행할 수 있도록 하는 머신러닝 방법론으로, 로봇과 같이 복잡한 control task나 의사 결정, 할당 문제 등을 해결하는 데에 뛰어난 능력을 보이고 있다. 하지만 강화학습은 같은 domain이라 할지라도 서로 다른 task는 처음부터 학습시켜야하기 때문에, 비효율적이고, domain 내 일반화가 어렵다는 한계가 있다. 이러한 한계를 극복하기 위한 방법론으로 Unsupervised Reinforcement Learning(URL)이 제안되었다. URL의 개념과, 그 세 갈래인 (1) Knowledge-based URL, (2) Data-based URL, (3) Competence-based URL에 대하여 대표 방법론들과 함께 다룬다.

[1] Laskin, Michael, et al. "URLB: Unsupervised Reinforcement Learning Benchmark." Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.

[2] Vismara, Luca, Lock Yue Chew, and Vee-Liem Saw. "Optimal assignment of buses to bus stops in a loop by reinforcement learning." Physica A: Statistical Mechanics and its Applications 583 (2021): 126268.

[3] Tunyasuvunakool, Saran, et al. "dm_control: Software and tasks for continuous control." Software Impacts 6 (2020): 100022.

[4] Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." International conference on machine learning. PMLR, 2017.

[5] Pathak, Deepak, Dhiraj Gandhi, and Abhinav Gupta. "Self-supervised exploration via disagreement." International conference on machine learning. PMLR, 2019.

[6] Yarats, Denis, et al. "Reinforcement learning with prototypical representations." International Conference on Machine Learning. PMLR, 2021.

[7] Eysenbach, B., Gupta, A., Ibarz, J., & Levine, S. (2018). Diversity is all you need: Learning skills without a reward function. arXiv preprint arXiv:1802.06070.

[8] Laskin, M., Liu, H., Peng, X. B., Yarats, D., Rajeswaran, A., & Abbeel, P. (2022). Unsupervised reinforcement learning with contrastive intrinsic control. Advances in Neural Information Processing Systems, 35, 34478-34491.

[9] Zhao, Andrew, et al. "A mixture of surprises for unsupervised reinforcement learning." Advances in Neural Information Processing Systems 35 (2022): 26078-26090.

청취자 후기

고병은

오늘 세미나는 URL(Unsupervised Reinforcement Learning)이라는 주제로 진행되었다. 강화학습은 기본적으로 행동을 수행하고 행동에 따른 보상을 기반으로 학습이 진행된다. 그런데 강화학습을 통해 학습된 Agent는 Task-specific 하기 때문에 학습했던 특정 Task는 잘풀수 있지만 보지 못했던 Task에 대해서는 새롭게 학습시켜야하는 한계점을 가지고 있다. 당연하게도 보지 못했던 Task에 대해서는 Reward가 어떻게 될지도 모르고 행동 자체도 다를 수 있기 때문에 직관적으로 이해할 수 있었다. 따라서 이러한 한계점을 극복하기 위해서 URL 분야의 연구가 진행되어지고 있다. Pre-training을 특정 도메인에서 수행하게 된다면 Agent는 대략적인 어떤 행동은 어떻게 변화하는지와 같은 정보들을 미리 습득할 수 있고 필요로 하는 Downstream Tasks에서 구체적으로 할 일을 학습시켜서 보다 효율적으로 Agent를 구축할 수 있게 된다. URL은 크게 3가지 Knowledge/Data/Competence-based로 구분된다고 한다. Knowledge-based는 모델의 예측과 실제의 차이가 큰 곳을 집중 탐색하고, Data-based는 환경에서 Agent가 데이터를 수집할 때 엔트로피를 최대화 하여 다양한 데이터를 수집, 마지막으로 Competence-based는 Agent의 기술(skill)과 상태/행동의 상호 정보를 최대화 할 수 있도록 데이터를 수집한다고 한다. 각 구분에 따라 방법론을 소개하였는데 우선 ICM/Disagreement 방법론은 예측과 결과 값이 크게 차이 나거나 각 모델별로 예측한 결과의 편차가 큰 경우 학습이 더 필요하다고 판단하여 내부 보상을 크게 설정하는 방식으로 학습을 진행한다. ProtoRL은 SwAV와 유사한 아키텍쳐를 가지고 있는데 쉽게 이해되지는 않아 몇 번 세미나를 돌려봐야겠다는 생각이 들었다. CIC/MOSS는 기존의 강화학습에서 추가적인 Skill을 도입함으로서 다양한 Skill을 학습하고 Skill간의 Mutual Information을 최대화 하도록 학습하여 Downstream Tasks에서 Skill을 활용한다고 한다. 강화학습에 관심 가지고 개인 연구를 진행하고 있는 중이기 때문에 매우 재밌게 세미나를 청취할 수 있었다. 특히 URL은 강화학습의 효율성을 높이고 더욱더 실생활에 적용 가능성을 높일 것 같아서 흥미로운 연구분야인것 같다. 이처럼 재밌고 유익한 내용으로 세미나 준비하느라 많은 고생한 차민성 연구원에게 감사의 인사를 전하며 이상으로 세미나 후기를 마친다.

허종국

특정 태스크만 수행할 수 있는 기존 강화학습의 문제점을 극복하기 위해 Unsupervised Reinforcement Learning (URL)이 등장하였다. URL은 환경에서 주어진 외부 보상 (Extrinsic Reward) 이 아니라 더 효율적인 탐색을 위한 내부 보상 (Intrinsic Reward) 을 정의하여 사전 학습 한 후, 다양한 태스크에서 더 짧은 시간안에 효율적인 fine-tuning이 되는 것을 목표로 한다. 금일 세미나는 URL의 대표적인 알고리즘 5가지를 알아보았다.

1. ICM - Environment Dynamics에 기반하여 Intrinsic Reward를 정의한다. Forward Dynamics Model에서 현재 상태에 대한 임베딩과 행동을 입력받아 다음 상태의 임베딩을 예측한 후, 예측값과 실제값의 편차를 내부 보상으로 사용하여, 잘 학습되지 않은 상태에 도달하는 것을 장려한다. 본 세미나에서는 빠져 있는 부분을 추가적으로 부연 설명하자면, '상태를 직접 예측 하는 것이 아니라 상태의 임베딩'을 예측하는 것이 포인트다. 그 이유는 만약 상태가 이미지인 경우, 이미지의 개별 픽셀을 모두 맞추는 것은 매우 어렵다. 또한 '상태'의 특성 상 에이전트의 행동에서 기인하는 것이 아니라 환경 내부의 무작위성으로 인해 변하는 부분도 있기 때문에, 상태의 모든 정보보다는 '에이전트의 액션으로 인해 변한 환경의 정보'만 인코딩하는 것이 효율적이기 때문에 '상태의 임베딩'을 예측하는 것이다. 그렇다면 어떻게 상태의 임베딩을 효율적으로 잘 인코딩하느냐. 그건 바로 Inverse Dynamics Model을 통해 학습하는 것인데, 현재 상태의 임베딩과 다음 상태의 임베딩을 입력으로 받아 에이전트의 행동을 예측하게 하는 것이다. 이렇게 Inverse Dynamics Model을 학습한다면, 상태의 임베딩은 에이전트의 행동의 인과에 대한 정보만 인코딩하게 된다.

2. Disagreement - ICM과 비슷하긴 하지만 실제값과 예측값의 편차가 아니라 앙상블 모델의 예측값에 대한 분산을 내부 보상으로 사용하는 것이 포인트다. ICM은 Environment Dynamics에 기반한 내부 보상을 활용하는데, Environment Dynamics가 알려지지 않은 Black Box이기 때문에 Policy의 그래디언트가 REINFORCE처럼 high variance estiamtor로 추정된다는 것이 단점이라고 지적한다. 논문 왈, 'Active Learning'에서 영감을 받았다는데, 참고로 Active Learning 또한 앙상블 모델에 대한 예측 분산이 큰 것을 샘플링하여 레이블링 하는 것이다. 세미나에 빠져 있는 부분을 부연설명하자면 본 논문처럼 내부 보상을 구성하면, ICM과 달리 내부 보상 자체가 미분 가능하기 때문에 액션에 대한 그래디언트를 직접구하여 학습할 수 있다는 것을 장점이라고 설명한다. (근데 필자가 Disagreement 코드를 몇개 보았었는데, 내부 보상 구하는거만 나오고, 액션에 대한 내부 보상의 그래디언트를 구하여 업데이트하는 부분은 찾아볼 수 없었다..내가 조금 잘못 이해한건지 아니면 구현된게 없는건지 모르겠다.)

3. ProtoRL - 사전학습으로 SwAV를 쓴 것이라고 생각하면 편하다. 상태에 대한 임베딩 공간에 대해 Online Clustering을 실시하고, 어떤 상태에 대한 Embedding과 Prototype 주변의 Embedding 샘플에 대한 knn distance를 내부보상으로 사용한다. 즉 그냥 임베딩 공간을 SwAV로 잘 학습하고, 새로운 상태가 기존 상태에 거리가 멀면 (이질적이면) 새롭게 보는 상태니까, 그러한 상태에 도달하도록 장려하는 방법론이다.

4. CIC - 기깔나게 잘 설명한 것 같다. 이전 방법론들과 달리 Skill-Conditioned Policy를 사용하는데, 이를 위한 Preliminaries 설명에 대한 예시가 매우 잘 되어 있던 것 같다. Skill 이란 Agent가 일관된 방향으로 행동하게 하는 일종의 제약조건이라고 생각하면 편할 것 같다. Skill이 달라짐에 따라 Agent가 행동하는 궤적 (Trajectory)가 달라지게 되는데, CIC는 Trajectory가 다양해지도록 학습하는 것이 목표다. 이를 위해 Mutual Information 기반의 Lower Bound를 설정하는데, 요약하자면 1. Skill과 Trajectory가 잘 매칭되게 하고, 2. Trajectory의 Entropy 를 최대화하자는 것이다. 이렇게 하면 Skill의 다양성 또한 커지게 된다. Skill과 Trajectory의 매칭을 위해 Contrastive Loss를 변형하여 사용하였으며, Entropy 최대화를 위해 Particle-based Entropy Estimate를 사용한다.

5. MOSS - 개인적으로 이 논문은 좀 꿀빤 논문이라고 생각이 든다. CIC에서 에피소드마다 앞에 절반은 Intrinsic Reward가 최대화 되도록하고 (Exploration), 뒤에 절반은 Intrinsic Reward가 최소화 되도록하는 것(Exploitation)이 포인트라는데, 이것만 가지고 fine-tuning 성능이 어떻게 비약적으로 상승하는지 솔직히 잘 납득이 안간다. 나중에 논문을 보면서 추가적인 트릭이 더 있는지 살펴볼 예정이다.

민성이가 세미나를 만든다고 많이 고생한 것 같다.

배진수

비지도학습 기반의 강화학습에 관한 세미나를 청취하였다. 비지도학습 기반 강화학습은 기존 지도학습(?) 기반의 강화학습의 문제점을 보완하기 위해 연구되는 방법론으로, 같은 도메인 안에서 여러 태스크에 높은 일반화 성능을 확보하고자 환경에 대한 탐색 보상을 내부 보상으로 설계한 방법론이다. 세미나 청취 이전에는 내부 보상과 외부 보상에 대한 개념을 잘 알지 못했는데, 민성이가 명쾌하고 설명해주어 앞으로는 해당 개념에 대해 까먹지 않을 것 같다. 내부 보상 설계의 가장 큰 목적은 에이전트가 환경을 다양하고 효율적으로 탐험하게 하는 것으로, 여러 가지 방법이 존재하는데 금일 세미나에서는 지식 기반, 데이터 기반, 스킬 기반의 각 대표 기법들을 소개해주었다. 특히, 지식 기반의 비지도 탐험 방법론들은 우리 연구실 여러 연구원들이 연구하는 것과 많이 닮아있어, 본 세미나를 청취해보면 향후 연구 미팅에서 다른 분들의 연구를 쉽게 이해할 수 있을 것 같다. 녹화 품질부터 세미나 장표 및 내용까지 민성이가 정말 많이 정성을 기울여 만든 것 같다. 그리고 알고 있는 내용들도 입학 이후로 정말 풍부해진 것 같은데, 전문성을 가지고 본 연구 분야에서 연구 성과 잘 마무리할 수 있길 기도하며 세미나 후기를 마치도록 한다.