고려대학교 DMQA 연구실

2022 IEEE-9th ICIEA - 김재훈

2022년 4월 19일 오후 5:02
조회수: 2713

Reviewed by

김재훈

[학회 후기]

이번에 참가한 2022 ICIEA는 온라인과 오프라인을 병행하는 하이브리드 방식으로 개최가 되었다. 중국 하이난에서 컨퍼런스가 진행되었으며 아직까지 중국을 방문하기 어려운 상황이었기 때문에 발표는 온라인으로 진행을 하였다. 맨 마지막에 있는 technical session에 배정이 되었고 대부분의 발표는 시계열 데이터를 다루거나 혹은 범죄 분석과 같이 현실 세계 문제를 다룬 주제가 많았다. 기존의 모델을 새롭게 개선해보는 발표도 있었고 필리핀의 범죄 현황을 심층적으로 분석하는 발표도 있어서 흥미롭게 들을 수 있었다. 또 같은 연구실의 경선 누나도 같은 세션에서 발표하였기 때문에 반갑기도 하였다. 이번에 발표한 주제는 강화학습을 보다 효율적으로 학습하기 위해서 non-contrastive learning을 접목하는 방법론에 대한 것이다. 영어로 처음 발표를 해보면서 영어로 슬라이드를 구성하거나 말의 템포를 조절하는 등에서 더 많은 노력을 기울여야겠다고 느꼈다. 다음 해외학회는 오프라인으로 참석해서 현장감도 느끼고 또 부족했다는 느낌없이 더 좋은 발표를 진행하면 좋겠다.

[발표 후기]

1. Non-Contrastive Representation for Reinforcement Learning in Atari

강화학습은 연속적인 의사결정문제에서 최대한의 보상을 얻는 문제를 수행한다. 강화학습은 행동, 상태, 보상으로 구성되어 있으며 에이전트가 처한 상태에서 선택하는 행동에 따라서 차후 상태와 보상이 달라지게 된다. 이러한 과정에 주로 문제가 되는 것은 학습이 효율적이지 못하다는 점이 있다. 이는 주로 심층 강화학습에 해당되는 문제로 off-policy 방식의 모델에서 발생한다. 이를 극복하기 위해서 다양한 방법들이 연구가 되었는데 그 중 하나는 환경으로부터 직접 나오는 외재적 보상 이외에 환경의 역동성을 이용해서 사용자가 직접 수행할 업무를 제시하여 부여하는 내재적 보상을 사용하는 것이다. 이를 통해서 외재적 보상이 희소하게 들어오더라도 내재적 보상을 통해서 에이전트를 학습할 수 있게 된다. 또한 순환신경망 기반의 보조 학습 문제를 추가함으로써 에이전트가 게임을 플레이할 때 시간적인 문맥을 보다 잘 이해할 수 있도록 아키텍처를 구성하였다. 마지막으로 에이전트가 게임의 상태를 이해하기 위해서 사용하는 인코더의 학습 프레임워크를 BYOL(non-contrastive learning) 방식으로 학습하도록 함으로써 특징을 효과적으로 추출하도록 하였다. 제안된 방법론은 Atari 2600의 26개의 게임 환경을 통해서 성능을 평가하였으며, 비교 모델에 해당되는 CURL, DrQ, RCRL보다 우수한 성능을 보였다. 향후에는 순환신경망 부분을 좀 더 개선해서 성능을 높여보고자 한다.

질문 1: 제안방법론에서 언급한 BYOL 이외에 다른 non-contrastive learning 모델도 사용 가능한지?

답변: 네 가능합니다. 다만 BYOL을 선택한 이유는 기존에 해당 모델을 사용해서 좋은 결과를 냈던 논문이 있기도 하며 다른 non-contrastive learning 모델들(ex. SwAV)과 비교할 때 성능에 대비해서 모델이 가볍고 작은 배치 사이즈에서도 잘 작동하기 때문입니다.

질문 2: 강화학습에서 모델을 업데이트할 때 사용하는 데이터는 어떻게 수집하는지?

답변: 강화학습 에이전트가 게임을 플레이하면서 게임 환경의 state, action, reward를 수집하고 모델의 파라미터를 업데이트하는 단계에서 수집한 데이터로 배치를 구성하여 학습을 진행하게 됩니다.

Conference