- 2021년 3월 14일 오후 9:00
- 조회수: 3234
INFORMATION
- 2021년 3월 12일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
강화학습 발전으로 인해 다양한 도메인에서 강화학습 기술이 사용되어지고 있다. 하지만 강화학습 에이전트는 환경에서 학습이 잘되어도 전혀 경험허지 못한 태스크나 환경에서는 에이전트가 전혀 학습이 안된 것처럼 이상한 행동을 보이게 된다. 이는 에이전트의 적용에 대한 치명적인 문제이고 이를 해결하기 위해 Meta Reinforcement Learning이라는 분야가 메타 러닝과 강화학습이 결합하여 에이전트가 새로운 환경이나 태스크에서도 일반적인 성능을 보일 수 있도록 하는 연구들이 많이 나오고 있다. 이번 세미나에서는 이 분야의 다양한 연구들을 살펴보고 인사이트를 가지는 시간을 가져보도록 한다.
참고 문헌:
[1] Duan, Y., Schulman, J., Chen, X., Bartlett, P. L., Sutskever, I., & Abbeel, P. (2016). Rl $^ 2$: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779.
[2] Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. Z., Munos, R., ... & Botvinick, M. (2016). Learning to reinforcement learn. arXiv preprint arXiv:1611.05763.
[3] Gupta, A., Mendonca, R., Liu, Y., Abbeel, P., & Levine, S. (2018). Meta-reinforcement learning of structured exploration strategies. arXiv preprint arXiv:1802.07245.
[4] Wang, R., Lehman, J., Clune, J., & Stanley, K. O. (2019). Paired open-ended trailblazer (poet): Endlessly generating increasingly complex and diverse learning environments and their solutions. arXiv preprint arXiv:1901.01753.
[5] Ha, D. (2019). Reinforcement learning for improving agent design. Artificial life, 25(4), 352-365.
[6] Florensa, C., Held, D., Geng, X., & Abbeel, P. (2018, July). Automatic goal generation for reinforcement learning agents. In International conference on machine learning (pp. 1515-1528). PMLR.
[7] Raileanu, R., Goldstein, M., Yarats, D., Kostrikov, I., & Fergus, R. (2020). Automatic data augmentation for generalization in deep reinforcement learning. arXiv preprint arXiv:2006.12862.
발표자 후기
금일 세미나 주제는 Reinforcement Learning for Generalization로, 선정 배경은 강화학습이 학습된 환경의 제약에서 벗어나서 일반적인 성능에 대한 연구들이 많이 되고 있는 이 시점에서 다양한 접근방법들의 연구들이 있다라는 것을 알게 되었고 이를 정리하고 싶었다. 그래서 총 6가지의 관점에서 대표적인 접근을 한 논문들이 강화학습 학습과정의 핵심원리를 설명하고 각 어디 부분에 기여점과 주요 아이디어가 있는지를 어필하는데 최대한 집중하였다.
강화학습에 대해서 처음 듣는 신입생분들을 위해서 기초 개념부터 다소 어려운 메타 강화학습 알고리즘들의 디테일한 내용보다는 개념적인 접근을 통해 쉽게 전달할려고 최선을 다했다. 강화학습에 대한 관심과 본인의 연구를 하면서 강화학습 그리고 메타강화학습의 다양한 아이디어들이 좋은 인사이트나 디딤돌이 되는 세미나였으면 하는 조그마한 바람이 이루어지길 기대하며 세미나 후기를 마무리한다.
청취자 후기
금일 세미나는 "Reinforcement Learning for Generalization" 이라는 주제로 억이형이 발표해주었다. 강화학습이란 에이전트가 주어진 환경 내 상태에서 보상을 최대로 할 수 있는 액션을 취하기 위한 의사 결정을 학습하는 것이다. 즉, 에이전트가 주어진 에피소드의 시작부터 종료 시점까지 일어나는 모든 상황으로부터 보상을 최대화할 수 있도록 하는 것이 강화학습의 목적이다. 최근 이슈가 되고 있는 연구들을 살펴보면 이제 강화학습은 우리가 흔히 알고 있는 알파고와 같이 게임에서만 사용하는 알고리즘이 아니라고 생각된다. AutoML 분야에서 주어진 데이터에 적합한 딥러닝 구조를 생성하기 위한 Neural Architecture Search(NAS) 나 모델에게 최적의 데이터 증강 기법을 제공하기 위한 AutoAugment들은 모두 강화학습의 이론을 이용하여 개발된 알고리즘이다. 이렇게 최근에 다양한 연구 분야에서 활용되고 있는 강화학습에는 짚고 넘어가야 할 문제점들이 있는데 그 중에서 억이형은 학습과정에서 사용되었던 환경 밖에 모르는 에이전트는 테스트 시점에서는 좋은 성능을 내지 못하는 부분에 대해서 세미나를 준비해주었다. 그 중에서도 메타 러닝과 강화학습을 접목하여 강화학습의 일반적인 성능을 올리는 학습 방법에 대해서 자세하게 설명해주었다. 메타 강화 학습의 접근 방식은 크게 6가지 Policy, Action, Agent Design, Task, Reward, State로 구분할 수 있다고 한다. 각 접근 방식에 따른 대표적인 방법론들과 해당 방법론의 주요 아이디어에 대해서 핵심만 잘 설명해주었다. 개인적으로 6가지 접근 방식 중 State 관점에서 다양한 환경 내 state에 augmentation을 적용하는 것과 data regularization 기법을 결합하여 일반화 성능을 향상시키는 방법론에 대해 설명이 인상 깊었다. 해당 방법론은 각 state 마다 밴딧 알고리즘을 통해 적합한 augmentation까지 적용한다고 한다. 해당 방법론을 소개한 논문에서는 각 게임마다 잘되는 augmentation 기법들까지 소개해주었다. 이 부분에서 개인적으로 들었던 생각은 일반적으로 augmentation은 이미지 기반의 여러 알고리즘들이 존재하는데 각 게임 환경에 적합한 augemtnation을 고민해서 적용해보면 좋은 성능을 보이지 않을까 생각하였다. 하지만 금일 세미나의 마지막 결론 부분에서 Sutton 교수님의 말씀으로 우리의 domain knowledge 나 handcrafted code들을 알고리즘에 집어 넣는 것에 대해 문제점을 이야기해주신걸 보고 금일 세미나의 주제처럼 특정 게임 환경에 대해 어떻게 하면 성능을 향상시킬 수 있을지가 아닌 전반적인 모델의 일반화 성능을 향상 시킬 수 있는지에 대해 고민할 수 있는 태도를 가져야겠다고 생각이 들었다. 오늘도 새롭게 알게된 이론들에 대해 자세하고 이해하기 쉽도록 설명해준 억이형에게 감사하다고 전하고 싶다.
오늘 억이형이 Reinforcement learning for generalization을 주제로 세미나를 진행했다. 모든 기계학습 방법론은 만약 테스트 시점에서 데이터나 환경이 변한다면 구축된 학습 모델(또는 에이전트)가 정확한 성능을 보이기 어렵다. 이럴 때 적용할 수 있는 방법이 Meta learning이고, generalization (일반화) 성능을 확보한다고도 말한다. 강화학습(reinforcement learning, RL)은 특정 환경 내 최적의 정책을 수행하는 에이전트를 구축하는 학습을 말하며, Meta RL은 학습 시점과 테스트 시점에 대해 최적의 정책이 다른 경우에 적용 가능한 방법론이다. 테스트 시점에 달라지는 대상으로는 정책 뿐 아니라 액션, 과업, 에이전트, 리워드, 상태인지에 따라 Meta RL 방법론이 나뉜다. 오늘 각 대상별 대표방법론 하나씩을 소개해주었다. 디테일한 알고리즘을 이해하긴 버거웠지만 강화학습 기본적인 구성요소와 RL을 위한 meta learning의 필요성 및 대상들을 전반적으로 연구 흐름을 살펴볼 수 있었다.
이번 세미나는 Reinforcement Learning for Generalization을 주제로 진행되었다. 강화학습이란 action의 주체인 agent가 환경으로부터 상태 정보를 받아 action에 대한 reward를 얻는 연속적인 의사결정을 의미하며 agent는 최종 시점의 reward가 최대화되도록 학습한다. Markov Decision Process(MDP)는 agent가 성공적인 action을 수행하기 위한 학습 방법이며 상태변환확률, 할인율, 누적 보상, Markov Property 등 여러 요소가 있다. 그중 Markov Property는 미래는 과거의 정보가 아닌 현재 시점의 정보에만 의존한다는 속성으로 학습의 효율성을 높여준다. 기존 강화학습은 학습 시 만나보지 못한 환경에 대해서는 agent의 성능이 떨어진다는 문제점이 있는데 이를 해결하고 성능을 개선하는 방법으로 메타 강화학습(Meta Reinforcement Learning)이 있다. 메타 강화학습을 통해 agent는 동일한 환경에서 다양한 플레이가 가능해지고 경험하지 못한 환경에서도 좋은 성능을 기대할 수 있다. 메타 강화학습의 접근 방법은 크게 6가지(Policy, Action, Agent, Task, State, Reward)가 있으며 agent의 학습 방법을 개선하거나 task 별로 적절한 goal을 설정하는 등 다양한 방법을 통해 학습 방법을 개선할 수 있다. 개인적으로 다른 분야보다 강화학습에 대한 개념이 많이 부족했고 알고 있는 내용이 굉장히 추상적이라고 생각했는데 이번 세미나를 통해 내가 기존에 알고 있던 내용을 다시 확인하고 더 넓은 범위까지 접할 수 있었다. 간단한 시각 자료와 함께 설명해 주셔서 강화학습의 기본적인 설명이 필요한 사람들이 이해하기에도 좋았던 것 같다.
금일 세미나 주제는 강화학습의 일반적인 성능을 높이는 것으로 억형이 진행해주셨다. 강화학습 세미나는 오랜만이여서 잘 이해할 수 있을까 걱정이였는데, 강화학습 개요와 MDP 개념을 리마인드 해줘서 걱정은 바로 해소되었다. 세미나를 통해 강화학습 일반화 성능이 어떤 상황에서 떨어지는지와 극복 방법에 대한 연구 흐름을 살펴볼 수 있었다. 훈련 과정의 게임 환경과 추론 과정의 게임 환경이 달라질 때 Agent의 일반화 성능이 떨어진다는 점이 흥미로우면서도 모든 기계학습 방법론이 비슷한 문제 상황들을 공유하고 있다는 것을 알게 되었다. 금일 소개된 강화학습 일반화 성능 유지 방법은 메타 러닝에 기반한 것들과 MDP 요소들을 augmentation하는 것들이였다. 특히 메타 러닝에 기반한 것들의(LSTM policy , outer loop) 관점은 본인 연구에도 녹여보고 싶은 생각이 들어 고마웠다. 흥미로웠던 연구 분야를 폭 넓게 소개해주신 억형에게 감사드리며 세미나 후기를 마치도록 한다.
이번 세미나는 "Reinforcement Learning for Generalization"이라는 주제로 진행되었다. 강화학습은 에이전트가 환경과의 상호작용을 통해 보상을 얻고 보상을 최대화하는 방향으로 학습을 진행하여 원하는 태스크를 학습해나가는 과정을 의미한다. 기존의 강화학습 방법론들은 학습되는 환경에서만 잘 동작하고 테스트 시점에서 환경이 변화하면 성능이 떨어지는 단점이 존재한다. 이를 개선하기 위해 메타러닝과 강화학습을 접목하여 일반화 성능을 올리는 메타강화학습에 관련된 연구가 최근 많이 진행되고 있다. 이번 세미나에서는 메타 강화학습의 다양한 접근법에 관해서 소개되었으며 크게 policy, action, agent, task, state, reward를 별도로 학습해 일반화 성능을 향상 시켰다. Policy, action, agent를 학습하는 연구들은 태스크가 변화할 때 각 태스크에 맞는 정책, 탐색 방법, 에이전트를 학습하는 방법으로 일반화 성능을 높였다. Task를 학습하는 연구에서는 쉬운 태스크부터 어려운 태스크로 변화시켜가면서 학습을 진행했으며 state를 학습할 때는 다양한 data augmentation 기법을 통해서 다양한 state에 대해 학습을 진행했다. 마지막으로 reward를 학습하는 방법에서는 별도의 GAN을 통해 태스크마다 서로 다른 보상을 부여하는 방식을 사용했다. 이번 세미나를 통해서 메타강화학습이라는 분야에 대해 처음 접했으며 관련된 최신 연구들을 살펴볼 수 있어서 의미 있는 세미나였다. 세미나를 위해 고생해준 억형에게 감사의 뜻을 전한다.
이번 세미나는 Reinforcement Learning for Generalization을 주제로 진행되었다. 강화학습에 대한 기본원리부터 설명을 들을 수 있었는데, 정말 기본적인 개념만 알고 있던 상태여서 설명이 매우 도움이 되었다. 강화학습은 환경과 상호작용을 하는 에이전트가 상태를 보고 액션을 하여 그에 대한 응답으로 보상을 얻게 되는 연속적인 의사 결정이라고 할 수 있다. 이 때 에이전트의 목적은 보상을 최대로 얻는 것이 되는데, 강화학습에서는 Markov decision process(MDP)를 사용하여 의사 결정을 하게 된다. MDP는 상태(State), 액션(Action), 상태변환확률(State transition probability), 보상(Reward), 할인율(Discount factor)의 개념으로 이루어지며, 각각에 대해 간단한 예시와 함께 설명이 되어 개념적인 이해를 할 수 있었다. 이러한 강화학습은 에이전트가 학습한 환경이 테스트 시점에 바뀌게 될 때 성능을 내지 못할 수 있다는 단점이 존재한다. 예를 들어 이미지 정보를 상태로 받아 학습한 에이전트는 학습한 이미지에서만 성능을 낼 수 있을 것이며, 테스트 시점에 갑자기 바뀌어 버린 배경에서는 성능을 내지 못할 수 있다. 이러한 단점을 극복하기 위한 방법이 Meta Reinforcement Learning 이다. 즉, 메타 강화학습은 기존에 알려진 메타 러닝과 강화학습을 접목하여 강화학습의 일반적인 성능을 올리는 학습 방법이라고 할 수 있다. 메타 강화학습은 강화학습을 이루는 요소 중 어떤 요소를 대상으로 하느냐에 따라 다양한 접근 방법이 있는데, 총 여섯 가지 접근 방법에 대해 소개가 되었다. 그 중 에이전트 자체를 환경에 맞게 변형하여 학습시키는 방법과 환경을 쉬운 것부터 어려운 것까지 조절하여 학습시키는 방법이 흥미로웠다. 이번 세미나에서는 강화학습에 대한 기본 개념부터 시작하여 메타 강화학습의 다양한 접근 방법까지 정말 많은 내용을 준비해주신 것 같다. 덕분에 강화학습의 기본개념을 다시 한번 익히고 메타 강화학습에 대해서도 알게 되었다. 강화학습이 게임분야 외에도 실제 산업현장에서 활용될 수 있는 사례가 없을지도 궁금해진다. 세미나 준비해주시느라 고생하셨을 조억 연구원님께 감사의 말씀을 전한다.
오늘 세미나는 'Reinforcement Learning for Generalization'이라는 주제로 진행되었다. 강화학습의 정의, 전통적 강화학습의 문제점을 비롯해 이런 문제점을 해결하기 위한 Meta 강화학습 알고리즘에 대해 설명해주셔서 나에겐 아직 생소한 분야인 강화학습을 접해볼 수 있는 좋은 시간이었다.
강화학습은 환경과 상호작용하는 에이전트가 누적보상이 최대가되도록 액션을 취할 수 있게 학습하는 것이다. 하지만 전통적 강화학습은 테스트 시점에서 학습시킬때 사용한 이미지와 다른 정보를 가진 이미지를 사용하거나, 또는 성공확률이 바뀌는 등의 상황이 발생하면 성능을 내지 못한다는 문제점이있었다. 반면 메타 강화학습은 경험하지 못한 환경에서도 좋은 성능을 낼 것을 기대해볼 수 있다. Policy, Action, Agent Design, Task, State, Reward등의 관점에서 접근하여 학습 성능을 높이는 방법들을 소개해주셨는데 완벽하게 이해가 가지는 않았지만, 강화학습에 대해서도 관심을 가지게 된 계기를 마련해준 세미나였다. 열심히 준비해주신 연구원님께 감사의 마음을 전하고 싶다.
이번 세미나는 Reinforcement learning에 대한 주제로, 기초적인 개념에서부터 환경이 바뀌었을 때 성능이 하락하는 것에 대한 문제를 해결하기 위해 meta learning을 적용해보는 컨셉에 대해 전체적으로 설명되었다. 강화학습은 agent가 현 상태에 대해 판단에 다라 reward가 주어지고, 이 reward들이 가치함수(기대값)에 반영되며, 이로인해 누적되는 보상이 최대가 되도록 선택을 학습해가는 방식이다. 다만 이때 agent가 학습한 환경 자체가 변했을 때, 기존에 가지고 있는 reward data와는 맞지 않게 되므로, 성능이 하락하는 문제가 있었다.
세미나에서는 이런 상황에 대해, meta learing을 적용하여 6가지 포인트의 개선점을 토대로 어떤 컨셉으로 성능을 향상시켰는지에 대해 설명하였다. 환경 변화 정보를 학습하기 위한 loop 추가, task별 다른 raward를 주는 방식 등이 있었으나 흥미로운건, 환경에 맞춰 진화하는 agent 방식이라던가, 환경을 더 hard하게 조성하여 개선 parameter를 찾는 방식은 가시적으로 볼 수 있어 더 흥미로웠던 것 같다. 문제 상황에 대해 어떤 parameter를 추가하고 또 어떤 방향으로 optimize시켜야 하는지, 현상에서 수학적인 코딩으로 연결하는 것은 늘 고민되는 문제지만, 이번 세미나에서는 그런 부분에서 어떤 step으로 잡아가면 될지 많은 생각을 하게 도와준 세미나 였다.
이해하기 쉽게 설명해주신 조억연구원님께 감사의 말씀을 전한다.
금일은 Reinforcement Learning for Generalization을 주제로 세미나가 진행되었다. 본 세미나에서는 강화학습의 기본 원리를 이해하고 메타 강화학습을 통해 기존 강화학습의 한계점을 극복하는 방안에 대한 설명을 들을 수 있었다. 먼저 강화학습의 기본 개념인 환경(Environment), 에이전트(Agent), 상태(State), 액션(Action), 점수(Reward)에 대한 개념 설명을 듣고, 강화학습의 목표인 에이전트가 최종 시점에서 점수를 최대화하는 방식에 대해 설명을 들을 수 있었다. 전통적인 강화 학습에서 환경은 블랙 박스이고 에이전트가 행한 액션과 그에 대한 점수 및 상태만 알 수 있다. 이 경우 학습된 환경 밖에 모르는 에이전트는 전혀 보지 못했던 환경(Test)에서는 성능을 내지 못하는 경우가 발생한다. 예를 들어, 같은 게임에서 이미지의 배경만 변화하더라도 이미지 정보가 바뀌었기 때문에 모델을 Training해서 얻었던 성능을 Test에서 얻지 못하게 된다. 이에 따라 등장한 것이 메타 강화학습이다. 메타 강화학습에서는 같은 환경에서 다양한 플레이가 가능하고 경험하지 못한 환경에서도 좋은 성능을 발휘해 일반화 성능을 높이는 것을 목표로 한다. 세미나 후반 부분에서는 이러한 메타 강화학습과 관련된 컨셉들에 대해 공부해 볼 수 있었다. 각 컨셉들은 전통적인 강화학습 방식에서 정책(Policy), 액션, 에이전트, Task, 상태, 보상 중 특정 몇 부분을 변경해 다양한 환경에서도 강화학습이 잘 학습될 수 있도록 한다. 현상태 이전 액션과 점수를 같이 넣어서 환경 자체도 학습하는 방식, 에이전트와 관련된 파라미터 정보도 함께 학습하여 상황에 맞게 에이전트를 학습시키는 방식, 쉬운 환경부터 어려운 환경까지 커리큘럼 러닝으로 학습시키는 방식, 게임과 상태에 적합한 Augmentation을 적용하여 학습하는 방식 등이 존재한다. 이번 세미나에서는 강화학습에 기본 개념을 다시 한번 설명 듣고 강화학습의 한계 및 극복 방안에 대한 다양한 컨셉을 설명 들을 수 있었다. 특히 초반 부분은 우리에게 익숙한 게임을 기반으로 개념들을 설명을 들을 수 있어 이해하기에 좋았다. 그리고 메타 강화 학습에 대한 핵심 컨셉들을 알 수 있어 강화학습의 최근 동향에 대해 전반적으로 한번 훑을 수 있어서 좋았다. 강화학습의 최근 동향에 대해 잘 설명해주신 억 형에게 감사함을 표한다.
오늘 세미나는 "Reinforcement Learning for Generalization"을 주제로 진행되었다. 강화학습이란 에이전트가 환경과 상호작용을 하며 취하는 행동에 따라 받는 보상의 결과물을 최대가 되도록 학습하는 과정이다. 에이전트가 시작 시점부터 종료시점까지의 보상값들을 최대화 하는 연속적인 과정으로 이루어지기에, 강화학습에서는 Markov decision process인 MDP를 활용하여 학습을 진행하게 된다. 이러한 MDP는 상태변환확률/할인율/누적보상 등 다양한 요소로 이루어져 있다. 하지만 기존의 강화학습의 경우에는 학습과정에서 경험해보지 못한 환경에 대해서는 성능이 저하되는 문제가 발생한다. 이를 보완하기 위한 방법으로 메타 러닝과 강화학습을 접목시켜서 성능을 올리는 방법으로 메타강화학습을 활용하게 된다. 메타강화학습의 요소에 따른 다양한 접근방법이 있는데, Policy, Action, Agent, Task, State, Reward의 6가지 관점에 대하여서 소개해주셨다. 그 중에서도 Agent의 관점에서 주어진 환경에 따라서 Agent를 새롭게 디자인하여 학습을 진행하는 관점과 Reward 관점에서 다양한 task별로 다른 목표를 부여하여 학습을 진행하는 내용들이 흥미로웠다. 강화학습에 관련된 내용들은 거의 처음 접해보아서 많은 개념들이 새로웠지만, 강화학습의 기초부터 시작하여 성능을 향상시키기 위해 이루어지고 있는 현재의 연구들에 대한 소개까지 많은 내용을 배울수 있었던 세미나였다. 좋은 세미나를 준비해주셔서 감사하다는 말씀을 전하고 싶다.
이번 세미나는 억이형이 ‘Reinforcement Learning for Generalization’이라는 주제로 진행하였다. 먼저 강화학습이란 환경과 상호작용을 하는 에이전트는 상태를 보고 액션을 하며 액션에 대한 보상을 받는 연속적인 의사결정이라고 볼 수 있다. 강화학습에서 가장 많이 사용하는 process로는 markov decision process를 가장 많이 사용하는데 이는 연속적 의사 결정 문제를 해결하기 위해 사용된다. Markov decision process에서는 미래가 과거에 영향을 받지않고 오직 현재의 정보에만 의존하기 때문에 학습에 효율적이다. 학습된 환경에서의 에이전트는 실제 테스트 시점에서는 성능을 내지 못한다. 이러한 성능의 한계를 타파하기 위해 현재는 메타러닝과 강화학습을 접목한 방법론이 나오게 되었다. 메타러닝의 큰 특징은 테스트 시점에 경험하지 못한 task를 빠르게 해결하기 위해 model weight를 어떻게 update할 것인지에 대해 해결책을 마련해 주었다. 메타강화학습을 통해 각 주어진 task에 맞는 exploration을 각각 부여하여 다양한 task에 좋은 성능을 낼 수 있게 되었다. 이번 세미나를 듣고 다시 한번 강화학습에 대해 공부할 수 있었으며 강화학습에 메타러닝을 접목한 메타강화학습에 대해서도 자세한 설명을 해준 억이형에게 감사하다는 말을 전하고 싶다.
금주 세미나는 Reinforcement Learning for Generalization을 주제로 억오빠가 진행해 주셨다. 강화학습은 환경(environment)와 상호작용을 하는 에이전트(agent)는 상태(state)를 보고 액션(action)하며, 그에 대한 응답으로 보상(reward)를 얻는 연속적인 의사결정이다. 이때 에이전트의 목적은 전체 프로세스동안 보상을 최대로 얻는 것이며, 강화학습에서는 Markov decision process(MDP)를 사용하여 의사결정을 하게 된다. MDP는 상태(state), 액션(action), 상태변환확률(state transition probability), 보상(reward), 할인율(discount factor)로 구성되며 reward를 받은 최종시점에서부터 멀어질수록 리워드의 가중이 적어지게 된다. 강화학습이 발전함에 따라 강화학습 에이전트는 학습 환경에서 주어진 상황이 아닌 태스크에 대해서는 좋은 성능을 내지 못한다는 한계점이 지속적으로 제기되어왔다. 최근, 이러한 단점을 극복하기 위한 방법론으로 meta learning과 접목시킨 meta reinforcement learning이 제안되고 있다. meta reinforcement learning은 develop 대상에 따라 대표적으로 여섯 가지 접근법이 있다. 본 세미나에서는 전반적인 meta reinforcement learning이 어떠한 방식으로 개선이 되는지에 대해 공유해 주셨다. 금일 세미나를 통해 강화학습의 기초적인 개념에서부터 최근 meta reinforcement learning의 흐름까지 전반적으로 다룰 수 있어서 흥미로웠다. 강화학습은 진입장벽이 높은 연구라고 생각하는데 억오빠로부터 매번 강화학습에 대해 이해하기 쉽게 소개받을 수 있어서 더욱 의미 있다고 생각한다.
이번 세미나는 "Reinforcement Learning for Generalization"의 주제로 진행되었다. 강화학습이란 주어진 환경 속에서 에이전트가 상태 정보를 기반으로 행동을 결정한 후, 행동을 기반으로 보상을 받는 연속적인 의사 결정 과정에 해당한다. 이러한 강화학습은 학습할 때의 환경만 잘 파악하며 테스트 시점에서 환경의 변화가 주어졌을 때 좋은 성능을 보이지 못한다는 단점을 갖고 있다. 해당 문제점을 개선하기 위하여 연구되는 분야가 메타 러닝과 강화학습을 접목시킨 'Meta Reinforcement Learning'이다. 이번 세미나를 통하여 메타 강화학습에서 진행되는 총 6가지의 접근 방법에 대하여 알아볼 수 있었다. Policy를 학습하는 분야는 환경의 변화 자체도 함께 학습하게되며, Action에 대한 연구들은 주로 주어진 태스크에 따라 Exploration 별 노이즈를 부여하여 다양한 태스크에서도 좋은 성능을 내도록 학습된다. 이 외에도 환경에 적응하는 에이전트를 학습하거나 다양한 환경을 제공하고, 다양한 태스크마다 다른 Goal을 학습하는 등 Agent, Task, State, Reward에 대한 다양한 연구 분야가 존재한다. 이번 세미나를 통하여 강화학습의 기본적인 개념부터 메타 강화학습이라는 새로운 분야까지 모두 알아볼 수 있었다. 구체적인 내용까지 모두 알기에는 어려운 내용이었지만 전반적인 연구 동향을 파악할 수 있는 의미있는 시간이었다.
Testing phase 의 Environment가 Training phase의 Environment 와 다르면 Training Environment 에서 학습한 Agent 는 제 성능을 발휘하지 못한다. Environment 가 달라진다는 것은 도메인 자체가 완전히 바뀌는 것이 아니라, 같은 게임이지만 배경 색이나, 내부 파라미터가 변화하는 것을 의미한다. 이렇게 Environment가 변하는 환경에서 robust 하고 general 하게 agent 를 학습시키는 것이 Meta RL의 목적이다. 이러한 Meta RL 을 적용하면 두 가지 이점이 존재한다고 한다. 첫번째는, 같은 환경에서는 보다 더 다양한 플레이를 할 수 있고, 두번째는, 경험하지 못한 환경에서 좋은 성능을 보인다는 것이다.
이러한 Meta RL의 방식은 Agent, Environment, Policy 등의 강화학습의 요소에 변화를 주어 다양한 Methodology가 존재한다. 그 중 Reward나 State Transition 확률 분포가 달라질 경우, 이에 대한 변화도 Outer Loop로 따로 학습하기 위해 LSTM cell 을 쓰는 RL2, 쉬운 환경부터 어려운 환경 순으로 agent를 curriculum learning 방식으로 학습하는 POET 가 상당히 재밌는 아이디어인 것 같다. 특히 강화학습에 Curriculum Learning을 접목한 방식은 지난 2020 가을 ICML 에서 본 적있는 Growing Action Spaces 에서도 본 적이 있는데, POET와 GAS 가 어떤 차이가 있는지 탐구해보는 계기가 될 것 같다.
일반적인 강화 학습의 관점에서 벗어나 다양한 분야를 접목시킨 방식이 많이 나오고 있는 듯 하다. Self-Supervised Learning과 강화 학습을 합친 CURL 등, 특정 분야의 한계를 뛰어넘기 위해서는 다양한 분야에 대한 안목을 넓혀 접목시키는 것이 중요한 것 같다.
세미나를 준비하느라 고생하신 억이형께 감사의 말씀을 드린다.
이번 세미나는 "Reinforcement Learning for Generalization"의 주제로 억이형이 진행해 주었다. 강화학습은 에이전트와 환경이 상호작용을 하며 얻는 보상을 최대화하는 액션들을 각 상황마다 선택하는 방향으로 이루어 진다. 강화학습을 직접 공부해 본 적이 없어서 어떻게 에이전트가 한 시점에서의 가장 큰 보상을 선택하는게 아닌 게임시작부터 마지막까지의 보상을 최대화하는 방향으로 학습하는지 궁금했었는데 세미나 초반에 게임을 예시로 들어 설명해주어서 쉽게 이해할 수 있었다.
기존의 강화학습 방법론에는 문제가 있는데 테스트 과정에서 에이전트가 새로운 환경을 만나게 되면 성능이 좋지 않다는 것이다. 즉, 일반화에 대한 문제점이 있다. 이 문제점을 해결하기 위해서 메타러닝을 도입한 메타 강화학습 방법론이 등장했다. 메타 강화학습 방법론은 에이전트, 환경, 정책 등에 변화를 주어서 학습의 일반화 성능을 끌어 올린다.
이러한 메타 강화학습에는 두 가지 장점이 있는데 첫 번째는 같은 문제를 다양한 방법으로 해결할 수 있다는 것이고 두 번째는 경험하지 못한 환경에서 좋은 성능을 낼 수 있다는 것이다.
이번 세미나를 통해서 강화학습의 전반적인 개념에 대해 알게 되었다. 또한 기존 컴퓨터비전에서 사용하던 데이터 증강 기법을 적용해서 강화학습의 성능을 향상시킬 수 있다는 점에서 다양한 분야의 방법론들을 알맞게 적용하는 것이 큰 도움이 될 수 있다는 것을 느꼈다.
좋은 세미나를 준비해주신 억이형에게 감사드리며 세미나 후기를 마친다.
이번 세미나는 억 형님이 강화학습에 대해 알려주셨다.
강화학습은 알파고에 적용된 알고리즘 중 하나의 알고리즘이라는 정도만 알고 있었는데, 환경과 상호작용하는 에이전트의 상태를 보고 액션하며, 그에 대한 응답으로 보상을 얻는 연속적 의사 결정이란 것을 알게 되었다.
정의만으로 이해하기 힘든 상태와 액션 그리고 보상에 대한 내용을 간단한 마리오 게임을 예시로 강화학습 프로세스별 원리를 상세히 설명해 주셔서 전체는 아니지만 기초원리를 습득할 수 있었다.
또, 학습된 환경밖에 모르는 에이전트가 테스트 환경에서 제 성능을 내지 못하는 문제를 개선하는 Meta Reinforcement Learning의 6가지 접근 방법에 대해서도 설명해 주셨는데 내용을 전부 이해하지는 못했지만 새로운 방법에 대한 정보를 얻을 수 있었다.
강화학습이란 흥미로운 연구 분야에 대해 쉽게 설명해 주신 억 형님에게 감사드린다.
이번 세미나는 "Reinforcement Learning for Generation"을 주제로 진행되었다.
Reinforcement Learning Agent의 목표는 처음 시작하는 시점부터 종료 시점까지 일어나는 모든 에피소드에서 받을 보상 값을 최대로 끌어올리는 것이다. 본 세미나에서는 가치 함수를 활용한 예제를 통해 간단한 Reinforcement Learning algorithm을 이해할 수 있었는데, Agent가 정책에 따라 환경에서 오는 상태 정보를 받고 동작에 따른 보상을 주고 보상이 가장 큰 쪽으로 학습을 진행한다. 하지만 기존의 Reinforcement Learning은 학습되는 환경이 아닌 경우 정상적인 Learning이 어렵다. 이를 해결하기 위해 나온 Meta Reinforcement Learning이 있는데, test 시점에 경험하지 못한 task를 빠르게 해결하기 위한 목적으로 model weight를 Reinforcement Learning 방식으로 update 해줌으로써 여러 문제를 해결하였다. 이외 Reinforcement Learning algorithm이 다양한 방법론과 결합된 형태로 발전하고 있다는 것을 알게 되었다.
세미나를 통해 멀게 느껴졌던 Reinforcement Learning을 공부할 수 있는 좋은 기회였고, 다양한 예제들을 통해 이해할 수 있었습니다. 더불어 마지막 격언을 통해 Meta Learning이 참 중요하다고 생각이 들었습니다.
끝으로 세미나 준비를 위해 고생해주신 억이형님께 감사의 말씀을 전합니다.
금일 세미나는 reinforcement learning for generation을 주제로 진행되었다. Reinforcement learning은 환경과 상호작용을 하는 에이전트가 상태를 보고 액션을 하고 이에 대해 보상을 얻는 연속적 의사 결정이다. 에이전트는 처음 시작 시점부터 종료 시점까지의 모든 에피소드에서 받을 보상을 최대로 끌어올리는 것을 목표로 한다. 기존의 강화 학습은 학습되는 환경 밖에 모르기 때문에 테스트 시점에서 성능이 낮다는 문제점이 있다. 이를 해결하기 위한 방안으로 메타 러닝과 강화 학습을 접목한 메타 강화 학습이 있다. 일반적인 접근 방식에는 policy, action, agent design, task, state, reward가 있다. 각 접근 방식에 따라 기존 강화 학습의 성능을 높이는 여러 알고리즘이 존재한다.
기존에는 강화 학습에 대한 이해가 부족하고 접할 기회가 많이 없었는데 이번 세미나를 통해 강화 학습의 기본적인 내용들과 전반적인 연구들을 접할 수 있었다. 꼼꼼하게 세미나를 준비해주신 연구원님께 감사의 말씀을 전한다.
이번 세미나는 ‘Reinforcement Learning for Generalization’ 주제로 억오빠가 진행하셨다. 강화학습의 기본 원리부터 기존의 강화학습의 문제점을 보완한 메타 강화학습까지 알아볼 수 있었다. 강화학습은 환경(Environment)과 상호작용을 하는 에이전트(Agent)가 상태(State)를 보고 액션(Action)을 결정하고 보상(Reward)를 얻는 방식으로 학습된다. 하지만 기존의 강화학습은 테스트 시점에서 환경이 달라지거나 성공 확률이 달라지지는 등 학습 과정에서 보지 못한 환경에 대해서는 성능이 저조해진다는 단점을 가지고 있다. 이러한 점을 보완하기 위한 메타 강화학습은 Policy, Action, Agent 디자인, Task 등 강화학습의 다양한 단계에서 변주를 주며 연구되고 있다. 이 중에서 학습 과정에서 변화하는 다양한 MDP를 적절히 학습하기 위해 ‘커리큘럼 러닝’의 개념이 활용된 연구와 각 State 마다 적절한 Augmentation이 존재한다는 가정하에 좋은 일반화 성능을 도출한 연구가 인상 깊었다. 다른 Computer vision 분야에서 시작된 Augmentation 기법을 적용함으로 강화학습의 문제점을 해결한 점을 통해 연구에 항상 도전적으로 임하고자 하는 결심을 다시 한번 생각할 수 있는 계기였다. 어려울 수 있는 내용에 대해 간결하고 명쾌하게 설명해주신 억오빠에게 감사의 말 전하고 싶다.
이번 세미나는 'Reinforcement Learning for Generalization'이라는 주제로 진행되었다. 강화학습이라는 분야는 알파고 때문인지 많이 들어봤지만 정작 자세히 공부해보지 못해 가깝지만 멀게 느껴졌었다. 하지만 본 세미나를 통해 강화학습부터 메타강화학습까지 기본적인 개념들 및 새로운 연구들을 찬찬히 짚어볼 수 있어 좋은 기회였다고 생각된다. 강화학습이란 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 기존 강화학습은 학습과정에서의 환경이 학습이 끝난 이후 테스트 시점에서 변경될 시 좋은 성능을 보이기 어렵다는 문제점을 가진다. 이를 해결하기 위해 등장한 메타강화학습은 메타 러닝과 강화학습을 접목하여 강화학습의 일반적인 성능을 올리는 학습방법이다. 메타 강화학습은 Policy, Action, Agent Design, Task, State, Reward 등 다양한 접근방법이 존재하며 이를 통해 학습 방법을 개선시킬 수 있다. 메타러닝에 관해 최근 관심이 생겼는데 이를 강화학습과 접목시켜 연구가 진행되고 있다는 점이 신기했다. 흥미로운 주제로 친절한 세미나를 준비해주신 조억 연구원께 감사의 말씀을 전하고 싶다.
강화학습이란 환경(Environment)과 상호작용을 하는 에이전트(Agent)는 상태(State)를 보고 액션(Action)하며, 그에 대한 응답으로 보상(Reward)을 얻는 연속적 의사 결정하는 학습 패러다임이다. 이때 에이전트 목표는 처음 시작하는 시점부터 종료시점까지 일어나는 모든 에피소드에서 받을 보상값 최대로 끌어올리는 것이며, 달리 말하면 환경의 Stochastic State Transition에 따른 Reward Distribution 어떻게 '잘' 학습하느냐과 관건이다. 최근에는 하나의 환경뿐만 아니라 각기 다른 환경에서도 일반화된 최적Policy를 찾는 방법론인 Meta Reinforcement Learning이 소개되었는데, 그 중 6가지 대표 방법론들이 발표되었다. Meta Reinforcement Learning이라고 해서 아예 모르는 내용이 나올 줄 알았는데, 상당 부분 기존 Data Augmentation 세미나에서 소개되었던 기법들과 비슷한 목적과 테크닉을 공유하여 '모델 일반화 성능의 개선'의 맥락에서 기존 여러 세미나들을 상기할 수 있는 좋은 시간이었다. 이해하기 쉬운 자료 준비해준 억이형에게 감사의 말을 전한다.
금주 세미나는 "Reinforcement Learning for Generalization" 으로 진행되었다.
강화학습의 기본 원리는 환경(Environment)과 상호작용을 하는 에이전트(Agent)는 상태(State)를 보고 액션(Action)을 하고, 그에 대한 보상(Reward)를 얻는 연속적인 의사결정이다. 여기서 에이전트의 목표는 처음 시작 시점부터 종료 시점까지 일어나는 모든 에피소드에서 받을 보상값을 최대로 끌어올리는 것인데, 이에 기반이 되는 개념이 Markov Decision Process(MDP)이다. 특히, 학부 때 수강했던 전공 과목 중 가장 인상깊었던 Stochastic process에서 Discrete-time Markov chain의 내용을 담고 있었기에 흥미로웠다.
강화학습의 전통적인 문제점으로 제시되는 학습되는 환경 이외의 환경으로 바꿜 시에 성능이 떨어진다는 점에서 해결책으로 제시된 Meta 강화학습에 대해 이어 소개한다. 메타 강화학습에서 agent는 다양한 플레이가 가능해지며, 환경이 바뀌더라도 좋은 성능을 보여준다. 이에 총 6가지(Policy, Action, Agent, Task, State, Reward) 방법을 통해 성능을 높이는 구조이다.
강화학습은 늘 어려운 연구분야로만 인식해왔다. 이번 세미나를 접하면서 흥미로운 분야임을 느꼈으나, 여전히 낯선 느낌은 지울 수 없었다. 그러나, 주요 원리가 추계적 과정을 비롯하여 다양한 학문의 개념들이 복합적으로 응용되고 있는 분야임을 알 수 있었다. 발표자의 이전 세미나 자료를 통해 강화 학습에 대한 기본적인 보충 공부를 한 후, 메타 러닝에 대해 다시 학습하면 좋을 듯 하다.
어려운 강화학습을 친근하게 설명해주신 조억 연구원님께 감사하다는 말씀을 전한다.
강화학습은 한 생명체가 새로운 환경에 놓였을 때 시행착오를 통해 그에 적응해 가는 과정을 가장 잘 모사한 방식인것 같다. 긴 진화 역사의 산물인 생명체의 학습방식이야말로 가장 완벽한 학습방식이라고 생각하는 나에게 강화학습은 항상 호기심의 대상이었다. 이번 세미나에서는 강화학습의 기초와 더불어 메타러닝이 결합된 최근의 이론까지 접해볼 수 있었다. 메타강화학습은 기존 강화학습이 제한된 훈련환경 내에서만 성능을 보이던 문제를 지적하며 다른 환경에서도 일반화 할 수 있는 방법론이다. 이에 대한 여러가지 방향의 접근법들을 훑어볼 수 있어서 좋았으며, 마지막 슬라이드의 문구는 내가 항상 가져왔던 생각을 잘 표현해 주어서 공감이 많이 되었다. 어려운 분야를 쉽게 전달해 주신 억이형에게 감사드립니다.
금일 세미나는 “Reinforcement Learning for Generalization”에 대한 주제로 억이형이 발표했다. 강화학습은 연속적인 의사 결정 문제를 해결하기 위해 Markov decision process (MDP)의 환경을 활용하여 진행하며 누적 최종 보상 합을 최대화하는 방향으로 학습한다. 하지만 사용하는 환경(environment)은 정확한 정보를 모르는 상황이 대부분이다. 따라서 학습하고자 하는 에이전트(agent)는 수많은 시행착오를 통해 성장하게 된다. 이에 학습 시간은 매우 오래 걸리는 단점과 사용하는 정보(transitions)의 효율성이 떨어지며 학습 환경에서 주어진 상황이 아닌 테스크에 대해서 성능 저하가 발생하게 된다. 이러한 단점을 해결하기 위해서 최근 연구 트렌드는 meta-learning, self-supervised learning 등을 강화학습과 결합하여 해결책을 찾아간다. 특히, meta-RL은 크게 6가지 접근법으로 다양한 문제 상황을 풀 수 있고 가장 매력적인 부분은 경험하지 못한 환경에서도 좋은 성능을 낼 수 있도록 학습한다는 것이다. 최근 Meta-RL, SSL-RL 부분을 연구하고 있는데 다시 한 번 살펴볼 수 있는 좋은 시간이었다.
이번 세미나는 억이형이 Reinforcement Learning for Generalization이라는 주제로 세미나를 진행하였다. 강화학습에서 의사결정하는 모델인 에이전트는 처음 시작하는 시점부터 종료시점까지 일어나는 모든 에피소드에서 받을 보상 값을 최대로 끌어올릴 수 있도록 학습이 된다. 이 때 에이전트는 action을 취하고 이에 대한 state와 reward를 받으면서 환경의 상태전이확률과 제공되는 보상 값에 대한 확률분포를 추정하게 된다. 하지만 이렇게 학습을 마친 에이전트는 환경의 구성요소가 일부 변경되는 경우, 예를 들어서 이미지의 배경이 달라지거나 여러가지 확률분포가 변경되는 경우 기존의 강화학습 모델은 좋은 성능을 내지 못한다. 이를 해결하고자 메타강화학습이 나오게 되었다. 메타강화학습은 메타러닝과 강화학습을 접목하여 강화학습의 일반적인 성능을 끌어올리는 학습방법으로서 크게 세 가지 종류로 나뉜다. 우선 1)메모리를 가지는 모델의 경우, RNN의 은닉층을 이용하여 다양한 task를 기억하며 학습을 진행하게 된다. 2) 메터러닝 알고리즘을 활용하는 델의 경우, test 시점에 경험하지 못한 task를 빠르게 해결하기 위한 목적으로 model weight를 업데이트하게 된다. 3) 다양한 MDP를 고려하는 관점에서는, 에이전트가 학습하는 동안 다양한 환경을 접했을 때 마주하는 서로 다른 MDP에 대해서 어떻게 학습할지를 고민한다고 한다. 이로써 기대할 수 있는 효과는 메타강화학습으로 학습된 에이전트는 같은 환경에서는 다양한 플레이 패턴을 보여줄 수 있고 경험하지 못한 환경에서는 좋은 성능을 유지할 수 있다는 점이다. 메타강화학습을 강화학습 학습 구성요소 중 어느 곳에 적용할 것인가에 따라서 방법은 굉장히 세분화 된다. Policy, action, agent design, task, state, reward 모든 곳에 적용을 해볼 수 있다. 이번에 진행하는 프로젝트 중에는 이와 관련한 연구가 있는데 억이형의 발표 덕분에 주제에 대한 접근이 보다 수월해진 느낌이었다. 많은 내용이 들어있음에도 쉽게 이해할 수 있도록 발표를 준비해주신 억이형에게 감사의 말을 전한다.
이번 세미나는 '환경이 변화할 때 강화학습을 어떻게 적용시켜야 하는가?'에 관한 주제로 진행되었다. 강화학습은 특정 환경 혹은 시뮬레이터를 사용해서 다양한 시나리오에 대해서 Agent를 학습시키고, 연속적인 의사결정을 통해 reward를 최대화하는 것을 목적으로 한다. 분류 모델이 현재 학습한 클래스 정보에 한정지어서 분류가 가능한 것처럼, 강화학습도 시뮬레이터의 특징이 test 단계에서 바뀐다면 성능 저하가 당연하게 일어난다. 당연한 현상이지만 매우 큰 단점 혹은 위험이기도 하다. 이를 해결하기 위한 방법론들을 연구하는 분야가 Meta Reinforcement Learning이다. 강화학습을 구성하는 다양한 요소인 policy, action, agent, task, state, reward에 적절한 변형을 하거나 변화하는 환경에 맞춰서 새롭게 정의를 함으로써 문제를 해결하고자 한다. 개인적으로 실제 상황을 그나마 robust하게 대응했다고 생각하는 방법은 task 부분이었다. Paired Open-Ended Trailblazer (POET) 논문에서는 쉬운 환경 뿐만이 아니라 어려운 환경을 일부러 만들어서 학습을 더욱 강건하게 진행을 한다. Test 단계에서 환경이 바뀐다는 것이 문제점인 것은 맞지만, 완벽하게 다른 환경이 주어지지는 않을 것으로 생각한다. 그렇기 때문에 기존 환경에서 완전히 벗어난 것은 아니지만, 더 복잡한 새로운 환경에서도 성능을 유지하는 것을 목표로 한다. Meta RL에서 사용하는 접근방법이 다양한 만큼 세미나에서 다룬 내용이 방대했다. 어려울 수 있는 내용들 중에서 핵심적인 부분에 집중적으로 설명해주어서 한결 이해가 쉬웠다.