- 2021년 4월 13일 오후 12:53
- 조회수: 2805
INFORMATION
- 2021년 4월 16일
- 오후 1시 ~
- 온라인 비디오 시청(YouTube)
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
강화학습은 매우 복잡하고 전략적인 게임 환경과 같은 순차적 의사결정 문제에서 지능형 에이전트를 구축하는데 큰 성공을 거두었다. 이 에이전트들은 게임 환경의 약 10 ~ 50년, 45,000년의 데이터를 사용하여 성장하였다. 하지만, 실생활(real-world) 관점에서는 환경에 대한 모든 정보를 알 수 없으며(model-free) 수십, 수만 년의 데이터를 사용하는 것은 매우 비실용적(학습 소요 시간, 데이터의 비효율성)이다. 본 세미나에서는 실생활 관점에서 강화학습의 학습 소요 시간을 줄이고 데이터의 효율성을 높이기 위한 연구 2개를 소개하고자 한다. 또한 2개의 연구에서 사용한 representation learning과 강화학습의 기본적인 개념을 소개한다.
참고 문헌
발표자 후기
금일 세미나 주제는 State Representation Learning for Reinforcement Learning 이였다. 강화학습은 매우 복잡하고 전략적인 게임에서 큰 성공을 거두었지만 아직까지 실용적인 측면에서 문제가 존재한다. 따라서, 강화학습에서 발생하는 문제를 해결하기 위해 최근 활발히 연구되고 있는 Self-Supervised Learning를 접목한 연구 2개를 소개하였다. 세미나에서는 2개의 연구에서 사용한 Self-Supervised Learning 기법과 강화학습의 기본적인 개념을 언급하였다. Self-Supervised Learning은 일반적으로 Classification, Segmentation, Object Detection 등 Downstream task에 전이학습하여 최종 결과를 보여주곤 했다. 소개한 두 연구는 강화학습과 Self-Supervised Learning을 결합하여 One-stage (without 전이학습)로 문제를 해결하였다. 최근 연구는 학습 방식 간의 전이학습 및 결합 등이 대세를 이루고 있는 것 같다. 다른 연구원들도 기존 학습 방식의 문제점을 살펴보고 논리적 타당성을 갖추어 새로운 연구를 해보는 계기가 되었으면 좋겠다.
청취자 후기
강화학습은 학습 과정에서 변동성이 매우 심하다. 일반적인 Computer Vision 이나 NLP Task에선Loss function 이 자연스럽게 떨어지지만, 강화학습의 Objective(Episode Total Reward) 는 학습을 매우 오래 하여도 편차가 매우 심하다. 따라서 어떻게 변동성을 줄이고 안정적으로 agent를 학습시킬 수 있을까라는 주제로, Attention Mechanism 이나 SSL 등 다양한 방법론과 접목을 한 논문이 나오고 있다.
오늘은 그 대안으로 Value Based Model 중 하나인 Efficient Rainbow 에다가 SSL 방법론인 MoCo와 BYOL 을 접목한 CURL과 SPR 에 대해 알아보았다. 두 방법론 모두 이미지 데이터(환경의 프레임)을 저장하고 sampling하기 때문에, Experience Replay를 활용한다. CURL의 경우는 MoCo와 동일하게 같은 이미지에서 나온 두 개의 augmentation 쌍을 positive pair로 칭하고, 나머지를 negative pair로 정한다.
하지만 특이하게도 SPR의 경우는 t+k 시점의 frame stack과 t 시점의 frame stack의 representation 이 같도록 학습을 진행한다. 이 부분이 살짝 의문이 들었다.
1. 왜 BYOL처럼 t 시점의 frame stack에 다른 augmentation 을 진행하여 하지않았나?
2. 아마 k step td target을 계산하기 위한 t+k 시점의 state의 representation 을 잘 예측하기 위해서가 아닐까?
논문을 보지 않고 30분 세미나로만 완벽하게 이해하고자 하는 것은 과욕이지만, 그래도 이러한 의문점을 가지고 논문을 보고싶다는 호기심이 생기게 되었다.
세미나를 준비하느라 고생하신 영재형께 감사의 말씀을 드린다.
이번 세미나는 "State Representation Learning for Reinforcement Learning"이라는 주제로 진행됐다. 강화학습은 복잡하고 전략적인 게임 환경과 같이 복잡한 의사결정을 내려야 하는 환경에서도 잘 동작하는 에이전트를 구축하는 데 큰 성공을 거두었다. 하지만 해당 연구들은 대용량의 데이터를 활용했으며 실생활에서는 에이전트를 학습시키기 위한 대용량의 데이터를 구하는 것은 매우 어려운 일이다. 따라서 강화학습을 실생활에 적용하기 위해 학습 소요 시간을 줄이고 샘플의 효율성을 늘리는 연구들이 진행되고 있다. 오늘 세미나는 self-supervised learning(SSL)을 강화학습에 접목해 샘플의 효율성은 높이는 연구들이 소개되었다. 첫 번째로 소개된 CURL은 강화학습에 MoCo를 적용한 방법론이다. 각 timestep별 experience가 저장된 replay buffer로부터 데이터를 샘플링하여 학습을 진행한다. Query encoder로부터 나오는 representation vector로 강화학습의 loss function을 계산하고 MoCo의 contrastive loss를 계산해 최종 loss는 두 loss를 더해서 강화학습과 SSL을 한 번에 학습하게 된다. CURL은 26개의 Atari 2600 게임을 활용해 성능을 평가했으며 7개의 게임에서 가장 우수한 성능을 냈다. 두 번째로 소개된 SPR은 전체적으로 CURL과 같지만 MoCo대신 BYOL을 활용했다는 차별점이 있다. SPR 역시 CURL과 동일하게 Atari 게임을 통해 성능을 평가했으며 CURL보다 더 좋은 성능을 보였다. 이번 세미나를 통해 강화학습에 SSL이 어떻게 접목될 수 있는지에 대해 살펴보아서 의미 있는 세미나였다. 세미나를 위해 고생해준 영재형에게 감사의 뜻을 전한다.
이번 세미나는 "State Representation Learning for Reinforcement Learning"을 주제로 진행되었다.
State Representation Learning for Reinforcement Learning은 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 기법을 활용하는 것을 의미한다. 본 세미나에서는 Representation Learning을 활용한 것을 소개하였는데, Representation Learning은 이미지, 텍스트 등과 같은 데이터를 숫자 형태로 기술하도록 학습하는 것이다. 이를 기반으로 비지도 학습 중 Self-Supervised Learning을 소개하였다.
Self-Supervised Learning은 크게 사용자 정의에 따른 Pretext Tasks, Contrastive Learning, Non-Contrastive Learning으로 나눌 수 있다. Contrastive Learning 중 하나인 MoCo는 이미지로부터 서로 다른 data augmentation을 진행 후 각각 Query Encoder와 Key Encoder를 거쳐 두 개의 벡터를 얻어 이를 Positive examples로 지정하여 가까워지도록 Attract 하고, Memory Queue에 있는 것을 Negative Example로 지정하여 멀어지도록 Repel 하게 되며, 이 연산 과정을 Momentum Update라고 한다. SimCLR의 경우 Memory Queue 대신 Batch Size를 활용한다. Non-Contrastive Learning인 BYOL의 경우 Positive pair만 정의하게 되는데, Online Network와 Target Network 두 개념을 활용하여 계산을 하게 된다.
강화학습은 Environment에 따라 Agent가 Action을 취하게 되고, Action에 따라 보상을 주며 최대한의 보상을 받는다는 목표를 달성하는 방법을 의미한다. 여기서 5가지 원소(S, A, P, R, γ)를 활용하고 이를 나열한 것을 Episode라고 한다. 가치 기반의 학습, 정책 기반의 학습, 앞선 두 방식을 함께 활용한 학습하는 방식들이 있다.
이러한 강화학습 개념들을 바탕으로 스타, 도타 등을 수많은 Experience를 기반으로 해결해나가는 연구들이 많이 진행되고 있다. 그 중 Combination of Reinforcement Learning and Representation Learning와 Data-Efficient Reinforcement Learning with Self-Predictive Representations 논문에서는 실생활에 적용할 수 있을만큼의 experience를 데이터로 활용 할 수 없다는 점이 의문점으로 제기하였으며, 이를 학습 소요 시간을 줄이고 샘플의 효율성을 높이기 위하여 강화학습에 Self-Supervised Learning을 결합하여 데이터 의존성을 일부 해결하였다.
이번 세미나를 통해 강화학습과 SSL의 결합을 통한 성능 향상을 다른 두 가지 이상의 분야의 방법론을 활용하여 논리적인 타당성을 확보할 수 있는 연구를 하면 재밌겠다는 생각을 하게 되었다.
좋은 세미나를 진행해주신 영재형께 감사의 말씀을 전합니다.
이번 세미나는 State Representation Learning for Reinforcement Learning을 주제로 진행되었다. 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 기법을 결합하는 시도들이 연구되고 있는데, 그 중에서 이번 세미나는 Self-supervised learning을 강화학습에 접목한 연구들을 소개해주었다. 먼저 Representation learning은 데이터를 숫자 형태로 기술하도록 학습하는 것을 말하며 학습 방법에 따라 Supervised, Unsupervised, Reinforcement learning 등으로 학습할 수 있다. 그 중에서도 Unsupervised learning은 레이블이 없는 입력 데이터만으로 데이터 자체의 좋은 표현을 학습하는 것이며, Self-supervised learning 쪽으로 최근 많은 연구가 되고 있다. Self-supervised learning으로는 지난 다른 세미나에서도 소개가 되었던 Contrastive learning(MoCo, SimCLR), Non-contrastive learning인 BYOL 등의 방법론이 있다. 강화학습은 환경과 상호작용을 하며 목표를 달성하는 에이전트를 다루는 학습 방법이라고 할 수 있는데, 다른 학습 방법과 다른 점은 바로 상호작용하는 환경의 존재 여부라고 할 수 있겠다. 이러한 강화학습은 복잡하고 전략적인 게임 환경에서 큰 성공을 나타내었는데 이는 수많은 비용을 들여 10~50년, 많게는 45,000년의 Experience를 수집하고 사용하여, 환경과 상호작용하는 충분한 학습이 이루어졌기 때문이다. 하지만 현실 문제의 관점에서는 이러한 수만 년의 Experience를 얻는 것은 불가능에 가깝기 때문에, 강화학습에 Self-supervised learning을 접목하여 데이터 자체에 대한 좋은 Representation을 학습하는 방법이 연구되고 있다. 첫번째로 소개된 방법론인 CURL은 강화학습에 Contrastive learning으로 MoCo를 사용한 모델 구조를 제안하였다. 따라서 MoCo에서와 동일하게 Query encoder와 Key encoder 네트워크로 구성되며, 강화학습과 Self-supervised learning을 동시에 수행하는 One-stage 방식이라는 특징이 있다. 두번째로 소개된 SPR은 CURL에서와 달리 Self-supervised learning으로 BYOL을 사용하였고, Self-predictive representations 기법을 제안하였다는 특징이 있다. 평소에 잘 접하지 않던 강화학습 내용이라 모든 개념을 이해하기에는 어려움이 있었지만, 중요한 것은 강화학습 분야에서의 문제점을 극복하기 위해 Self-supervised learning과 같은 다른 분야의 방법론을 접목하여 해결을 시도한 것이라고 할 수 있겠다. 좋은 내용으로 세미나를 준비해준 이영재 연구원에게 감사의 말을 전한다.
금일 세미나는 강화학습과 representation learning을 결합한 주제로 영재형이 진행해주셨다. 오늘날 강화학습의 성공 요인 중 하나로는 수많은 대용량 데이터가 존재하는데, 현실적으로 게임 환경에 대한 자세한 특징들을 모두 파악하기는 힘든 상황이다.(=수많은 강화학습용 데이터 수집이 어렵다) 금일 세미나는 환경에 대한 모든 특성들을 이해하지 못하였더라도(데이터를 충분치 수집하지 않았더라도), 좋은 성능을 낼 수 있기 위해 Self-supervised learning과 강화학습을 접목한 것에 대해 다루어졌다. 강화학습에 대한 개념이 탄탄치 않았지만, 기초적인 내용들 짚고 넘어가주셔서 고마운 세미나였으며, 추가적으로 자가지도학습에 대한 개념도 같이 리마인드 해줘서 이해하기 편한 세미나였다. 새로웠던 부분은 기존 자가지도학습 활용 방안과는 달리 one-stage 방식(RL과 SSL을 동시 수행)을 채택하였다는 부분이였다. 강화학습이 왜 one-stage 방식을 채택하였는지가 궁금하였고, 채택 방식이 다른 방법론에서도 합리적이라면, 나 또한 적용해보는 것이 좋을 것이라 생각하였다. 멋진 세미나 준비해주신 영재 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.!
금일 세미나는 "State Representation Learning for Reinforcement Learning"을 주제로 진행되었다. 이는 강화학습에서 발생하는 문제점을 보완하고자 다른 학습 기법을 결합하는 방식을 의미한다. 강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로, 미래에 받을 보상의 합을 최대화하도록 학습한다. 하지만, 실생활에서 볼 때 대부분은 환경에 대한 모든 정보를 알 수 없으며, 이에 대한 충분한 데이터를 수집하는데에 수많은 비용이 발생한다는 문제점을 갖고 있다. 해당 문제점을 해결하기 위하여 Self-supervised learning을 결합시키는 연구들이 등장하였다. CURL (Contrastive Unsupervised Representations for Reinforcement Learning) 연구는 가치 기반으로 학습하는 Efficient Rainbow 방법론을 MoCo (Contrastive Learning)와 함께 사용하였으며, 강화학습과 Self-supervised learning을 동시에 수행하는 One-Stage 방식에 해당한다. Data-Efficient Reinforcement Learning with Self-Predictive Representations 논문에서 소개된 방법론은 Efficient Rainbow 방법론에 BYOL (Non-Contrastive Learning) 방식을 함께 적용하였다. 이번 세미나를 통하여 강화학습과 Self-supervised Learning 방법을 함께 결합하여 모델을 구성하는 방식들에 대하여 알아볼 수 있었으며, 강화학습 분야 뿐만 아니라 다른 연구 분야에서도 서로 다른 학습 방식을 결합하여 문제 상황을 해결하는 것에 대하여 새로운 관점으로 바라보는 자세가 필요하다고 생각하였다.
이번 세미나는 "State Representation Learning for Reinforcement Learning"이라는 주제로 진행되었다. 주제를 풀어보면 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 방법들을 결합한 것을 의미한다. 여기서 Representation Learning은 이미지, 텍스트 등의 데이터를 숫자 형태로 기술하도록 학습하는 방식을 말하며, 이러한 방법론은 대표적으로 Supervised Learning, Reinforcement Learning, Unsupervised Learning이 있다. 이 중 Unsupervised Learning의 한 갈래인 Self-Supervised Learning의 대표적 방법론을 소개한다.
강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로 정의할 수 있는데, 미래에 받을 보상의 합을 최대화하는 정책을 찾는 것이 핵심이다. 다른 학습 방법과의 차이점은 상호작용하는 환경의 존재 여부이며, Markov Decision Process(MDP)를 기반으로 의사결정이 이루어진다는 점이다. 강화학습의 몇 가지 문제점 중 환경과 상호작용하며, Experience를 수집하는데 수많은 비용이 발생하고, 학습 소요시간이 길고, Sample의 효율이 떨어진다는 점이 있다. 이런 문제점을 개선한 해결방안으로 Unlabeled Data를 사용하여 데이터 자체에 대한 좋은 Representation을 학습하는 방법인 Self-Supervised Learning을 결합한 연구를 소개한다. 소개된 방법은 Self-Supervised Learning의 MoCo를 사용한 CURL 방법과 BYOL을 사용한 Self-Predictive Representations(SPR) 방법이 있다.
Self-Supervised Learning과 Reinforcement Learning 방법 각각에 대해서는 지난 세미나를 통해 접해보았으나, 두 방법론이 결합되어 기존의 강화학습의 문제점을 개선시킬 수 있다는 점에서 의미가 깊었다. 세미나를 준비해주신 영재형께 감사의 말씀을 전한다.
이번 세미나는 State Representation Learning for Reinforcement Learning을 주제로 진행되었다. 가장 먼저 Representation Learining이란 이미지, 텍스트 등과 같이 숫자 형태가 아닌 데이터를 숫자 형태로 표현할 수 있도록 학습하는 것이며 학습 방법에 따라 표현 결과가 달라진다. State Representation Learning for Reinforcement Learning은 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 기법을 결합하는 방법을 의미한다. 강화학습이란 환경과 상호작용하며 목표를 달성하는 agent를 다루는 학습 방법이며 강화학습의 목적은 주어진 환경 상태에서 agent가 좋은 보상을 얻을 수 있는 행동을 취하는 것이다. 강화학습이 그 외 다른 학습 방법들과 가지는 차이점은 상호작용하는 환경이 존재한다는 것과 다른 학습 방법들과는 다르게 input X가 아니라 강화학습에 맞는 데이터가 필요하다는 것이다. 강화학습은 복잡한 게임 환경과 같은 순차적 의사결정 문제에서 지능형 에이전트를 구축하는데 큰 성공을 거두었지만 실생활 관점에서는 아직 한계점이 존재한다. 강화학습을 실생활에 적용하기 위해서는 학습 소요 시간을 줄이고 sample-inefficiency가 개선되어야 한다. 이러한 개선점에 대해 진행된 연구들의 대표적인 예로 CURL, SPR이 있으며 이 연구들은 기존 방법론들보다 좋은 결과를 보인다. 이번 세미나는 강화학습 외에도 다양한 개념이 많이 다루어졌는데, 아직 관련 지식이 부족해서 자세한 내용을 이해하기에는 어려움이 있었다. 한 가지 학습 방법이 아니라 여러 학습 방식을 결합해서 새로운 방법론을 만들어내기 위해서는 다양한 방법론에 대한 이해가 탄탄하게 갖춰져있어야 할 것 같다고 느꼈다. 아직은 다른 분야에 비해 유난히 어렵게 느껴지는 분야가 강화학습인 만큼 관련 지식이 어느 정도 갖추어진 상태에서 이번 세미나를 다시 들으면 더 좋을 것 같다.
이번 세미나는 'State Representation Learning for Reinforcement Learning'이라는 주제로 진행되었다. 강화 학습은 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동을 선택하도록 학습하는 것이다. 강화학습은 복잡하고 전략적인 게임 환경과 순차적 의사결정 문제에서 좋은 성능을 보였지만, 실생활 관점에서 대부분의 환경은 모든 정보를 알 수 없다. 따라서 실생활에서 강화학습을 적용할 시 학습 소요시간이 길고 Sample의 효율성이 떨어진다는 문제점을 가진다. 이를 해결하기 위해서는 학습 소요시간을 줄이고 Sample의 효율성을 높이는 것이 중요한데, 이처럼 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 기법을 결합하는 여러 방법 중 본 세미나에서는 Self-supervised learning 방법을 결합한 방법론에 대해 소개해주었다. 두 가지 방법론 중 먼저 CURL은 일반적인 Self-supervised learning처럼 전이학습을 수행하는 것이 아니라 강화학습과 Self-supervised learning 방법으로 MoCo를 결합하여 이를 동시에 수행하는 one-stage 방식을 사용한다. 그에 반해 두 번째로 소개해준 SPR은 Self-supervised learning 방법으로 BYOL을 결합하여 사용한다. 강화학습 분야는 아직 생소한 분야이기도 하고, 관련 개념이 많이 부족하여 세미나 전부를 이해하기에는 어려웠던 것 같다. 그럼에도 강화학습의 개념부터 Self-supervised learning을 결합하게 된 배경, 그리고 방법론까지 잘 짜여진 틀로 인해 전체 맥락을 쉽게 이해할 수 있었다. 좋은 세미나를 준비해주신 영재오빠께 감사의 말씀을 전하고 싶다.
이번 세미나는 강화 학습에 대한 기본 이해부터 시작해서, 문제점을 개선하기 위해 다른 학습 기법을 결합하는 state Representation Learning for Reinforcement Learning대한 주제로 진행 되었다. Representation learning은 이미지나 text와 같은 정보를 숫자형태로 기술하도록 학습하는 것인데, 이번 세미나에서는 주요하게 설명할 논문에 대한 이야기를 하기 전에 두가지 학습방법을 먼저 설명한다.
1) label정보가 없는 unsupervised learning중에서 스스로 supervision을 만들어가며 학습하는 Self-Supervised learning을 먼저 알아보았다. Moco와 SimCLR는 서로다른 augmentation을 진행해서 query / key encoder를 통해 anchor기준 positive는 가깝게, negative는 멀어지도록 학습하는 방식이나 Memory Queue와 Batch size를 사용한다는 점에서 차이점이 있었다. BYOL은 negative없이 positive끼리 비교하는 방식으로 진행하는 것으로 Non-constrastive learning으로 분류되었다.
2) 강화학습은 환경에서 agent가 선택하는 action에 따라 reward를 받는데, 최종적으로 이 reward를 최대화하는 action의 "policy"을 찾아가는 학습방식이다. 이는 value / policy 중 어느 것에 기준을 두고 학습하느냐, Experience를 update하느냐, 아니면 저장하면서 꺼내어 사용하느냐에 따라 다양한 연구가 진행되고 있었는데, 단순한 게임만이 아닌 지능형 전략시뮬레이션 게임에서도 굉장히 좋은 성능을 낸다는 것이 흥미로웠다.
위 두가지 학습방법론에 대한 개념을 토대로 두가지 State Representation Learning for Reinforcement learning에 대해 CURL, SPR을 소개해주셨다.
CURL은 Query와 Key 인코더를 가지고 있고, 각 timestep별로 experience를 replay buffer에 저장하고, 특히 Query 인코더에서 추출한 feature vector를 강화학습에 사용한다는게 특징으로, MoCo와 RL이 결합된 형태였고, Self-Predictive Representations (SPR) 는 augementation을 통해 나온 두 positive pair를 강화학습 및 SSL에 이용하는 방식으로 BYOL과 RL이 결합된 형태라고 할 수 있다. 즉 앞서 설명한 두가지 학습방법을 섞어 사용했을 때 상당한 성능을 낸다는 것이다.
모델의 성능과 효율성을 둘다 고려했을 때, 여러 모델을 합쳐서 사용한다는 것은 손쉬워보이면서도 상당히 까다로운 것 같다. 각 모델이 가지고 있는 특징과 메커니즘의 의미를 전체적으로 정확하게 알아야 제대로 해낼 수 있지 않을까 생각한다. 복잡한 모델에 대한 설명을 하기 위한 기나긴 과정을 듣기좋게 하나하나 뜯어서 쉽게 설명해주신 이영재 연구원님께 감사함을 전한다.
이번 세미나는 영재형이 ‘State Representation Learning for Reinforcement Learning’이라는 주제를 가지고 진행하였다. State Representation Learning for Reinforcement Learning이란 강화학습에서 발생하는 문제점을 보완하기 위해 다른 학습 기법(Representation Learning)을 결합한 방식이다. 강화학습의 문제점으로는 실생활 관점에서 대부분의 환경은 모든 정보를 알 수 없다는 점이며 환경과 상호작용을 수집하기에는 많은 시간과 비용이 발생함으로 불가능에 가깝다고 볼 수 있다. 이런 점을 해결하기위해 unlabeled data를 사용하여 pretext task, contrastive learning으로 데이터의 좋은 representation만을 학습하는 방법인 Self-Supervised Learning 방법을 결합하여 위의 불가능한 문제들을 해결하였다. 강화학습만의 한계점을 발견하여 이를 보완하기 위해 self supervised learning 방법을 사용하여 해결했다는 점이 흥미로웠고 요즘 많이 사용되는 self supervised learning에 대해서도 공부할 수 있어서 유익한 세미나였다. Reinforcement Learning, Self supervised learning에 대해서 자세하게 설명해준 영재형에게 감사하다는 말을 전하고 싶다.
이번 세미나는 영재형이 State Representation Learning for Reinforcement Learning이라는 주제로 발표를 진행하였다. 이번 주제는 강화학습에서 발생하는 문제점을 보완하기 위해서 다른 학습 기법을 결합한 것으로 모델이 표현학습을 진행하는 과정을 자기자도학습을 적용하여 좀 더 효율적으로 학습할 수 있도록 하였다. 우선 강화학습은 환경과 상호작용을 하면서 에이전트가 목표를 보다 효과적으로 달성할 수 있도록 하며 자기지도학습은 레이블 정보가 없는 상황에서 별도의 학습 목표를 지정해 데이터 자체의 좋은 표현을 학습하도록 하는 방법론이다. 강화학습을 실생활에 적용한다고 했을 때 생각해볼 수 있는 문제점은 환경에 대한 모든 정보를 가질 수 없으며 시뮬레이션 환경처럼 다양한 환경을 빠르게 경험할 수 없다는 점이다. 따라서 이를 극복하기 위해서는 학습 소요 시간을 줄이고 샘플의 효율성을 높이는 것이 중요해지며 이 부분을 자기지도학습을 통해서 해결하고자 한다. 이와 관련하여 진행된 연구 중 하나가 Contrastive Unsupervised Representations for Reinforcement Learing이다. 해당 모델은 contrastive learning을 할 때처럼 두 개의 인코더를 사용하며 서로 다른 증강기법을 적용해서 나온 이미지를 각각 positive sample, negative sample로 지정하게 된다. 이 때 Query 인코더에서 나온 feature vector는 강화학습과 자기지도학습에 사용을 하게 되며 각 학습에서 계산된 loss는 서로 다른 가중치를 두어서 하나의 loss 값으로 만든다. 다만 이 논문의 흥미로운 점은 보통의 contrastive learning은 인코더를 학습하여 후에 downstream task를 정의하는 two-stage 방식을 취하는 반면에 CURL은 이를 동시에 진행하는 one-stage 방식을 취한다는 점이었다. 한편 BYOL이라는 non-contrastive learning 방식을 사용한 방법론도 소개를 해주셨다. Data-Efficient Reinforcement Learning with Self-Predictive Representations라는 논문은 CURL과 전반적으로 비슷한 학습 방식을 취하지만 해당 논문에서는 SPR 기법을 제안하여 샘플 효율성을 더욱 향상시키고 있다. 이 방법은 transition 모델을 추가하여 미래의 요약된 상태정보를 예측하는 방식으로 자기지도학습 부분의 loss를 계산하게 된다. 강화학습과 자기지도학습 모두 한 번에 소개하기 어려운 주제임에도 간결하고 쉽게 설명을 준비해주신 영재형에게 감사의 말을 전한다.