고려대학교 DMQA 연구실

2021 INFORMS Annual Meeting - 이영재

2021년 11월 11일 오후 2:51
조회수: 264

Reviewed by

이영재

[학회 후기]

이번 2021년도 INFORMS는 온라인과 오프라인 병행하여 학회가 진행되었다. 이번 INFORMS는 미국 캘리포니아주 애너하임에서 열렸으며 해외 학회에 참석할 수 있는 좋은 기회였다. 하지만, 아쉽게도 코로나 팬데믹으로 오프라인 학회 참가는 무산되었다. 아쉬움을 뒤로한 채, 이번 발표 세션은 미국 시간 기준으로 했을 때 한국에서 새벽 6시 45분부터 시작하는 세션이었다. 이번 학회 발표의 경우에는 사전에 발표를 녹화하여 녹화 영상을 틀어주는 시스템이었다. 하지만, 내용이 조금 추가된 나는 직접 영어로 발표하게 되었고 많은 사람들이 내 발표를 들어주었다. 이 외에도 온라인으로 참석하였기 때문에 다른 사람들의 연구를 자유롭게 들을 수 있는 장점이 있었다. 이번 큰 학회에서 많은 기술적인 부분을 배워가고 이런 아이디어도 나올 수 있구나 하는 좋은 학회였다. 다음 기회에는 꼭 해외에 직접 참가하여 오프라인으로 발표하는 경험과 또 다른 문화를 배우고 싶다.

[발표 후기]

1. Self-Supervised Representation Learning for Off-Policy Deep Reinforcement Learning

강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로 연속적인 의사결정을 수행한다. 특히, 강화학습의 최종 목표는 미래에 받을 보상의 합을 최대화하는 정책 파이를 찾는 것이다. 하지만 고차원 이미지에서 직접 문제를 해결하도록 에이전트를 훈련시키는 것은 어려운 것으로 입증되었다. 최근에는 위와 같은 문제를 해결하기 위하여 자가 지도 학습을 강화학습과 결합하여 해결하는 연구가 있다. 본 연구에서는 강화학습의 샘플 효율성과 학습의 안정성을 향상시키기 위한 자기 지도 학습 결합 연구를 제안한다. 제안 방법론은 세가지 요소로 구성되어 있으며 첫번째는 정책 외 알고리즘을 사용한 Model-free 강화학습이다. 두번째는 게임 환경의 시공간적 정보를 고려한 대조학습, 마지막으로 자동 데이터 증강 기법을 적용한 대조 학습 방법으로 구성되어 있다. 우리는 이 세가지 구성요소를 동시에 학습하기 위해 end-to-end 학습 방식을 고려했으며 Atari 2600의 26개 게임 환경으로 평가하였다. 결론적으로 제안하는 방법론은 각 게임마다 적합한 데이터 증강 기법을 선택할 수 있도록 하여 학습의 안정성을 높였을 뿐만 아니라 시공간적 정보의 대조학습을 활용하여 샘플 효율성을 향상시켰다.

질문1: 비교 방법론과 제안 방법론의 학습 시간을 비교했을 때 Computational Cost가 어떻게 되는지?

답변: 비교 방법론보다 Computational Cost가 비슷하다.

질문2: 57개의 게임 중에서 왜 26개의 게임만 정했는지?

답변: 기존 연구에서는 26개의 게임을 선택하여 평가했기 때문에 동등한 비교를 위해서 26개 게임을 적용했다.

Conference