- 2023년 2월 24일 오전 9:57
- 조회수: 13737
REFERENCES
INFORMATION
- 2023년 2월 24일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
발표자 후기

강화학습을 신입생부터 연구해 오면서 지금까지 강화학습이 어떻게 발전해오고 있는지 다시 한 번 리마인드하게 되었다. 내가 느낀 강화학습은 초반에는 방법론에 대한 연구가 활발했다면 현재는 실세계에 적용하기 위해 어떻게 문제를 해결하는지에 집중되어 있는 것 같다. 우리 연구실은 Computer Vision 분야에서 레이블이 없는 데이터를 활용하기 위한 Self/Semi-Supervised Learning과 같은 Representation Learning을 주로 다루고 있다. 강화학습은 Representation Learning을 활용하여 문제를 해결하는 연구부터 Generalization, Multi-Task, Data Efficiency 등을 해결하는 다양한 연구들이 이루어지고 있다. 이러한 연구들을 이번 세미나를 통해 모든 연구원들에게 공유해주고 싶었고 조금이나마 관심을 갖길 바라는 마음에 준비하게 되었다. 강화학습 화이팅!
청취자 후기

최근 Digital Twin(제조 프로세스를 3D 가상공간 안에 실시간 시각화하는 시스템)를 업무를 담당하면서 관심을 가지면 좋겠다고 생각했던 분야가 강화학습이었습니다. 마침 이번 세미나를 통해 강화학습의 다양한 분야를 알 수 있어서 감사하게 생각합니다. 크게 5 가지로 나누어 소개하였으며 아래과 같습니다.
(1) SSL 등 Representation Learning을 활용하여 학습 성능을 향상하는 연구
(2) 학습 환경과 다른 환경에서의 성능 향상 연구
(3) 시뮬레이션 환경을 통한 상호 작용 없이 학습할 수 있는 방안 연구
(4) 다양한 task를 동시에 활용하여 성능을 높이는 연구
(5) 게임과 같이 여러 에이전트를 동시에 제어하는 연구
관심 분야 위주로 정리를 하면,
(1)은 우리 연구실에서도 많은 연구원들이 관심 갖고 있는 SSL를 강화 학습에 접목하여 성능을 올리는 연구입니다. MOCO와 BYOL 알고리즘을 활용한 논문을 소개하였는데 BYOL 이후로도 후속 연구가 활발하기 때문에 상호작용이 필요한 강화학습 방법과 전이학습을 활용하는 SSL을 어떻게 접목할지를 전 세계의 많은 연구원들이 고민하고 있을 것 같은 생각이 들었습니다.
(3)은 과거 강화학습은 상호 작용이 필수였기 때문에 현장 적용까지 아직은 많은 시간이 걸릴 것이라는 생각에 강화학습 자체에 큰 관심을 두지 않았는데, 누군가는 이러한 단점을 극복하기 위해 오프라인의 데이터 만으로 학습하는 방법을 고민해왔다는 점에서 놀랍게 느껴졌습니다.
마지막으로 (5)는 일상에 가장 가까운 접근 방식이 아닐까 생각합니다. 제조의 경우에도 조립/물류 등 다양한 로봇과 작업자들의 상호 작용을 통해 제품이라는 결과를 얻을 수 있기 때문입니다. 마지막으로 소개한 RODE 알고리즘에서는 action representation을 군집화하여 role마다 행동을 설정할 수 있다고 설명하였는데 최근에 공장 내에 부품과 반제품을 운반하는 물류 장치도 자율 주행을 활용하기 위한 기초가 마련되고 있어서 꼭 적용해보면 좋겠다는 생각이 들었습니다.
오늘 최적화를 지향하는 강화 학습의 여러 연구가 소개되면서 어느 세미나보다도 많은 수식을 본 것 같습니다. 본 세미나 한편으로 모두를 이해하기는 어려웠지만 강화 학습을 공부하기 위한 로드맵을 간접적으로 경험할 수 있어서 유익했고 같은 연구실에서 강화학습을 매우 잘 아는 연구원이 있다는 사실 만으로도 큰 힘이 되는 것 같습니다(많이 물어볼께요!). 준비하시느라 고생 많으셨습니다.

2013년 DQN의 등장 이후 심층 강화학습(Deep Reinforcement Learning)이 발전 되어왔다. 이후 DDPG, PPO, A3C, SAC 등 단일 에이전트 강화학습이 Atari/Mujoco 등 게임이나 로보틱스 환경에서 우수한 성능을 보여주었으나, 기존 강화학습에서 데이터 효율성/환경 변화에 따른 성능 하락/에이전트 간 상호 작용 등 새로운 문제에 직면하게 되었다. 이러한 문제들을 해결하기 위해 Off-line RL/Representation Learning for RL/Preference-based RL/ Multi-task RL/Generalization for RL/ Multiagent RL 등 다양한 분야가 파생되었다. 금일 세미나에서는 이러한 분야들에 대해 간단히 어떠한 연구가 진행되었는지 소개하였다.
Representation Learning for RL : CURL/SPR/SGI
MoCo/BYOL 등 이미지 분야의 자가지도학습(Self-Supervised Learning)과 강화학습을 적용하여 상태 정보를 효율적으로 추출하기 위한 연구
Generalization for RL : RAD/SODA
학습하는 환경과 테스트하는 환경이 변하더라도 성능 하락이 발생하지 않도록 Data Augmentation 을 적용하여 강건한 성능을 이루기 위한 연구(이때 학습환경과 테스트 환경이 다르다는 의미는 Multi-Task와는 다른 의미로 배경 변화에 대한 일반화가 주 목적인듯 하다.)
Off-line Reinforcement Learning : CQL
데이터 효율성과 환경과의 상호작용이 필요하다는 기존 RL의 단점을 극복하기 위해 사전에 수집된 데이터를 가지고 에이전트를 학습하기 위한 연구
Multi-Task Reinforcement Learning : Distral
하나의 에이전트를 통해 다양한 태스크의 환경을 수행하고자하는 연구
Multi-Agent Reinforcement Learning : QMIX/RODE
여러 에이전트가 협업하며 하나의 태스크를 수행하는 연구. 각 에이전트는 자신 주위의 부분 정보밖에 관찰할 수 없으며, 보상은 개별 보상이 아닌 단일 보상이 주어지는 상황을 가정. 학습은 여러 에이전트가 글로벌한 상태 정보와 전역 보상을 가지고 수행하되, 행동은 개별적으로 수행하는 CTDE 패러다임을 기본으로 함
본 세미나를 준비하느라 고생하신 영재형께 감사의 말씀을 전한다.

이번 세미나는 심층 강화학습의 트렌드라는 주제로 진행되었다. 지난 학기 강화학습 과목을 수강하면서 굉장히 흥미롭고 재밌는 분야라는걸 느꼈었고, 현재도 개인 연구로 강화학습을 도전하고 있는 만큼 관심있게 세미나를 청취할 수 있었다. 본 세미나에서는 총 5가지의 연구 트렌드를 소개 하였는데 연구 주제를 탐색하면서 한번씩 봤던 논문들이 있어서 반가웠고 다시한번 심층 강화학습의 세부 연구 분야에 대해서 정리도 하고 잊어버렸던 방법론들을 다시 공부할 수 있어서 매우 유익하였다. 특히 지금은 시뮬레이터 없이 주어진 데이터로 강화학습을 사용하려는 연구를 진행하고 있는데 세번째로 소개한 부분을 보면서 참고 자료와 배경 내용을 알 수 있어서 좋았다. 특히 관련 연구를 진행하면서도 탄탄한 이론적 바탕 없이 실험만 돌리려는 경향이 강했는데 대표적인 방법론인 CQL도 알게되었고 해당 방법론을 아직 읽어본적 없어서 바로 해당 논문을 공부하려 한다. 특히 CQL 방법론을 7단계로 나누어서 단계적으로 설명했는데 쉽게 이해되지는 않아 앞으로의 공부가 더 많이 필요하다는 사실을 다시금 느낄 수 있었고 논문을 읽으면서 해당 섹션을 참고하면 많은 도움이 될것 같다. 마지막으로 Multi-Agent RL관련 논문을 볼때 구체적인 코드나 모델 구성이 나와 있지 않아서 도대체 어떻게 Agent 끼리 정보를 공유할 수 있는가 궁금했었는데 이번 세미나에서 설명하는 아키텍처를 통해서 조금 더 이해할 수 있었던것 같고 RODE라는 논문도 추후 읽어보려 한다. 강화학습이라는 분야는 다른 딥러닝 방법론에 비해서 비교적 진입장벽이 있는것처럼 느껴지는데 강화학습을 적용하면 해결 할 수 있는 것들이 굉장히 많은것 같다. 특히 실생활에서 우리가 접하는 다양한 문제점이나 Task를 해결하는데 매우 효과적인 방법론인 만큼 더욱 열심히 공부를 해야겠다. 한 분야의 트렌드를 알기쉽게 설명하느라 고생한 이영재 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 강화학습 여러 연구 분야에 관해 소개되었다. 총 5 가지 연구 분야에 관해 소개가 되었는데 그 순서는 아래와 같다.
1. Representation Learning for Reinforcement Learning
2. Generalization in Reinforcement Learning
3. Offline Reinforcemnet Learning
4. Multi-Task Reinforecment Learning
5. Multi-Agent Reinforcement Learning
1번과 5번 연구 분야는 개인 연구를 진행하고 있어 관련 논문을 살펴본 적이 있었는데, 본 세미나를 통해 상기할 수 있어 좋았던 것 같다. 특히, SPR과 CURL 논문을 여러 번 살펴보면서 주의 깊게 살펴보았던 부분을 영재 형이 잘 설명해주어 굉장히 만족스러웠다. 그 외에 2,3,4 번 연구 분야는 들어본 적이 있지만 실제로 관련 논문을 살펴 본적이 없었다. 관련 연구 분야가 어떤 느낌인지 그 느낌을 잠깐이나마 느껴볼 수 있었다. 그중에서 가장 관심이 갔던 분야는 Multi-task RL 분야인데 아무래도 현재 연구 이후 Meta-RL에 관심을 두고 있다 보니 자연스럽게 관심이 갔던 것 같다.
매번 강화학습 세미나를 볼 때마다 쉽지 않음을 느끼고 열심히 해야겠다는 생각을 다시 한번 갖게 해주는 것 같다. 본 세미나를 준비하느라 고생하신 영재 형에게 감사드리며 이상으로 세미나 후기를 마친다.

강화학습에 대한 5가지 최신 연구 트렌드 세미나를 청취하였다. 최신 연구 트렌드를 이해하기 앞서, 강화학습에 대한 기초 개념도 함께 소개되어 있었고, 이를 바탕하여 왜 이런 연구가 최신 연구로 자리 잡게 됐는지 상세하게 알아갈 수 있어 유익했다. 개인적으로 에이전트와 환경 사이의 지속적인 상호작용 없이도 효율적인 정책 학습 방안(Offline RL)과 하나의 글로벌 정책 학습을 통해 여러 환경에 적용 가능한 강화학습 모델 확보(Multi-Task RL) 연구가 가장 인상 깊었다. 현실 세계에서 발생하고 있는 다양하면서도 복잡한 모든 상황들을 시뮬레이터로 확보하기 어렵다고 생각하여 Offline RL 연구의 의미가 중요하다 생각했고, 사람스러운 강화학습(Strong AI) 모델 확보를 위해서는 Multi-Task RL와 같은 연구가 메인 기저가 될 것이라고 느껴졌기 때문이다. 방대한 분량의 연구 트렌드를 일목요연하게 잘 정리해주신 영재 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다. 강화학습 연구자분들 화이팅!!

이번 세미나는 Research Trend of Deep Reinforcement Learning에 대하여 설명을 하였다.
강화학습은 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 것을 말하며 행동을 취할 때마다 외부 환경에서 보상(Reward)이 주어지는데, 이러한 보상을 최대화 하는 방향으로 학습이 진행되는 것을 말한다. 즉 주어진 환경과 상호작용하며 목표를 달성하는 Agent를 다루는 학습 방법이다.
이번 세미나에서는 최근 심층강화학습 연구 트렌드 총 5 가지 연구 분야에 대하여 설명을 해준다.
1. 데이터 또는 샘플의 효율성을 향상시키기 위한 연구
- Representation learning for Reinforcement learning
- 데이터 효율성을 향상시키기 위해 Self-Supervised learning을 강화학습과 결합
- CURL: Efficient Rainbow(가치 기반 학습) + MoCo(Self-Supervised learning)
- SPR: Efficient Rainbow(가치 기반 학습) + BYOL(Self-Supervised learning)
- SGI: 앞선 방식과 달리 Two-Stage 방식이며, SPR+Inverse modeling+Goal-Conditioned RL으로 구성
2. 서로 다른 환경에서의 일반화 성능을 향상시키기 위한 연구
- Generalization in Reinforcement learing
- 데이터 증강 기법, 표현 학습 등을 통해 데이터 효율성 및 일반화 성능 향상
- RAD: 오직 상태 데이터에만 데이터 증강기법 적용
- SODA: 데이터 증각 기법을 적용한 상태로부터 정책을 직접 학습하는 것이 아닌 표현학습과 강화학습을 분리하여 학습
3. 에이전트와 환경과의 상호작용 없이 정책을 학습하기 위한 연구
- Offline Reinforcement learing
- 추가적인 데이터 수집 없이 기존에 수집된 데이터 내에서 정책을 효율적으로 학습
- CQL: 실제 Q-value 보다 정책의 Q-value값이 낮아지도록 유도하여 과대 평가 문제 해결
4. 하나의 글로벌 정책 학습하여 여러 환경의 문제를 해결하기 위한 연구
- Multi-Task Reinforcement Learning
- 데이터 효율성, 학습 안정성 항상을 위해 Multi-task 학습으로 서로 다른 환경에도 적용할 수 있는 글로벌 정책을 학습하도록 함
- Distral: 한 시나리오의 정책에서 얻은 Action 또는 Representation을 Distilled Policy로 Distill한 다음 다른 시나리오 Task-Specific Policy로 전송되는 방식
5. 여러 에이전트가 협동하여 문제를 해결하기 위한 연구
- Multi-Agent Reinforcement Learning
- 주어진 환경에서 두개 이상의 에이전트가 협업 또는 경쟁을 통해 높은 보상을 얻을 수 있는 정책을 학습하는 것
- QMIX: Q-value 기반 알고리즘이며, CTDE패러다임을 따르기 때문에 에이전트는 자신의 관측 정보에만 의존, 독립적으로 실행
- RODE: 에이전트들이 행동하는 Action에 대한 적절한 Role을 배정하여 효율적인 협력 및 학습을 하도록 함
지난 학기 때 강화학습에 대하여 수강을 듣고 나서 많은 관심이 생긴 분야여서 이번 세미나를 집중해서 들을 수 있었다. 회사에서 설비를 점검하다 보면 강화학습을 적용하면 좋겠다는 느낌을 많이 받았었다. 하지만 해당 분야의 장벽 때문에 쉽게 접근을 하지 못하였으나, 이전 김재훈 연구원의 세미나와 이영재 연구원의 세미나를 통해서 최신 연구분야에 대해서 전반적으로 배울 수 있어 강화학습에 대한 어려움을 많이 낮출 수 있었다. 또한, 강화학습은 환경과의 학습이 중요하고 필수적이라고 생각을 하여 현업에는 적용하기 힘들 것이라고 생각을 하였으나, 3번째 연구를 통해서 해결 할 수 있다는 것을 깨달았다. 이번 세미나를 통해서 강화학습의 연구분야를 상세히 배울 수 있었고, 기회가 된다면 강화학습에 대한 연구를 진행할 때 해당 세미나를 다시 한번 더 참고 하여 방향성을 잡을 수 있을 것 이라고 생각한다. 유익한 세미나를 준비하느라 고생한 이영재 연구원께 감사의 말씀을 전한다.

강화학습은 기본적으로 환경, 에이전트, 행동, 보상으로 이루어져 있으며, 주어진 환경에서 에이전트가 좋은 보상을 얻을 수 있도록 좋은 행동을 취하는 것을 목표로 한다. 기존 강화학습은 실제 환경의 수많은 상태와 행동 조합을 다루기 위해, Q-learning과 deep learning이 결합된 Deep Q Networks(DQN)을 기점으로 많은 발전을 이루었다.
이번 세미나에서는 실제 환경을 다루고자 하는 심층 강화 학습(Deep Reinforcement Learning)에서 한 층 더 나아가 샘플 효율성 및 일반화 성능 향상, 멀티 태스크, 멀티 에이전트 시나리오 등 현실에서 접할 수 있는 문제들에 대한 연구 동향을 소개하였다.
1. Representation Learning for Reinforcement Learning
CURL/SPR/SGI : 강화학습에 self-supervised learning을 결합하여 데이터 효율성을 향상시킴과 동시에 강화학습 환경 상태에 대한 좋은 표현을 학습하는 것이 목표
2. Generalization in Reinforcement Learning
데이터 증강 기법, 표현 학습 등을 통해서 데이터 효율성 및 일반화 성능 향상을 목적으로 함
- RAD : 사용되는 데이터(Experience)에 데이터 증강 기법을 적용, 상태 데이터에 증강 기법을 적용한 것으로 다른 강화학습 알고리즘들과 결합이 가능함
- SODA : 정책을 직접 학습할 때, 데이터 증강 기법이 오히려 악영향을 줄 수 있음. 정책을 직접 학습하지 않고, 데이터 증강 기법을 적용한 상태로부터 표현학습과 강화학습을 분리하여 정책을 학습
3. Offline Reinforcement Learning
환경과 에이전트가 상호작용하며 얻는 online 데이터를 수집하기 위해서 많은 시간과 비용이 든다. 추가적인 데이터(online 데이터) 수집없이 기존에 수집된 데이터 내에서 정책을 효율적으로 학습하는 것을 목표로 한다.
Offline RL에서는 offline 데이터를 수집하는 정책과 online 상에서 학습하는 정책 간 distribution shift 등의 이유로 Q-Value가 과대평가 되는 한계점이 존재한다.
- CQL: 실제 Q-Value보다 정책 Q-Value 값이 낮아지도록 유도하여 Q-Value 과대평가 문제를 해결
4. Multi-Task Reinforcement Learning
서로 다른 환경에도 적용할 수 있는 global policy를 학습하도록 하여, 멀티 태스크 학습 시 서로 다른 태스크의 gradient가 학습에 부정적으로 간섭하는 것을 해결한다.
- Distral: 특정 시나리오에서 학습한 task-specific policy에서 얻은 action과 representation을 shared policy로 distill한 뒤, 다른 시나리오에 task-specific policy로 전송하는 방식
5. Multi-Agent Reinforcement Learning
# Single agent 방법론은 joint action space가 개체의 숫자 및 각각 개체가 취할 수 있는 행동에 지수적으로 비례하여 증가한다.
Multi agent 시스템의 경우에는 agent들이 개체마다 patially observable특징을 갖으며, 각 에이전트들이 자가적인 판단을 할 수 있는 decentralised system을 구축하는 것이 효율적이다. 학습 측면에서는 여러 에이전트가 global 상태 정보와 보상을 가지고 수행하는 것이 효율적이다. 따라서 CTDE 패러다임이 MARL에서 주류로 자리잡고 있다. 주어진 환경에서 여러 에이전트가 협동하여 높은 보상을 얻을 수 있는 정책을 학습한느 것을 목표로 함.
- RODE: (a) 학습 초기 action representation 산출, (b) 에이전트별로 Role을 배정하는 role selecetor, (c) 배정된 role을 통해 에이전트별로 최종 action을 선택
이번 세미나를 통해서 강화학습에 대한 기초 개념을 바탕으로 최근 어떤 연구가 주류로 자리 잡았는지에 대해 상세히 알 수 있었다. 개인적으로는 고정된 데이터셋만으로 효율적인 학습을 하는 3번 Offline RL 분야가 가장 인상 깊었다. 상호작용할 수 있는 환경 부재 및 한정된 데이터셋만을 이용하여 현실의 복잡한 상황들을 의미있게 학습한다는 것이 중요하다고 생각했다. 추후에 Offline RL 분야 시발점이 되는 논문도 리딩해보고, 어떠 개념과 이론을 바탕으로 한정된 조건 속에서 현실 문제를 풀고자 했는지도 함께 알아보고 싶다. 최근 강화학습 트렌드를 이해하기 쉽게 설명하준 영재형에게 고맙다는 말을 전하며 세미나 후기를 마친다.