고려대학교 DMQA 연구실

2022 IEEE-9th ICIEA - 이영재

2022년 4월 19일 오후 4:08
조회수: 2778

Reviewed by

이영재

[학회 후기]

이번 2022년도 ICIEA는 온라인과 오프라인 병행하여 학회가 진행되었다. 이번 ICIEA는 중국 하이난에서 열렸다. 코로나 팬데믹으로 아쉽게도 오프라인으로 참석하지 못하였다. 이번 발표 세션은 중국 시간 기준으로 한국에서 오전 11시부터 시작하는 세션이었다. 이번 세션은 Computer Vision 분야의 세션이었고 나를 포함하여 총 8명이 발표하였다. 발표 내용은 대부분 이미지를 활용한 딥러닝 프레임워크를 소개해주었다. 기존에 알던 내용들을 다시 한 번 복습할 수 있는 기회도 있었고 처음 접해본 개념들도 공부할 수 있었다. 나는 이미지 기반 환경과 상호작용하며 에이전트를 컨트롤하는 강화학습 문제점을 해결하기 위한 연구를 소개하였다.

[발표 후기]

1. Vision Transformer-Based Self-Supervised Representations for Deep Reinforcement Learning

강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로 연속적인 의사결정을 수행하는 알고리즘이다. 특히, 강화학습의 최종 목표는 미래에 받을 보상의 합을 최대화하는 정책 파이 함수를 찾는 것이다. 하지만 고차원 이미지에서 직접 문제를 해결하도록 에이전트를 훈련시키는 것은 어려운 문제로 입증되었다. 최근에는 위와 같은 문제를 해결하기 위하여 자기 지도 학습을 강화학습과 결합하여 해결하는 연구 사례가 존재한다. 본 연구에서는 강화학습의 샘플 효율성과 학습의 안정성을 향상시키기 위한 자기 지도 학습 결합 연구를 제안하였다. 제안 방법론은 세가지 요소로 구성되어 있다. 첫번째는 정책 외 알고리즘을 사용한 Model-Free 강화학습이다. 두번째는 게임 환경의 시공간적 정보를 고려하기 위한 자기 지도 학습 프레임워크이다. 세번째는 환경의 Dynamics를 학습하기 위한 자기 지도 학습 프레임워크 기반의 Inverse Dynamics modeling이다. 특히, 기존 연구와 다른 점은 학습하고자 하는 신경망 인코더이다. 기존에는 합성곱 신경망 인코더를 학습했다면 본 연구에서는 Vision Transformer 인코더를 사용하였다. Vision Transformer는 합성곱 신경망과 달리 정보를 추출하는 연산 방식이 다르고 High-Level Features (위치, 장애물, 아이템 등)들을 효과적으로 추출할 수 있는 방법론이다. 우리는 Vision Transformer 인코더 및 세 가지 구성요소를 동시에 학습하기 위해 End-to-End 학습 방식을 고려했으며 Atari 2600의 26개 게임 환경으로 평가하였다. 결론적으로 제안하는 방법론은 CURL, DrQ보다 높은 성능을 보였지만 SPR보다는 낮은 성능을 보였다. 향후에는 기존 방법론보다 성능을 향상시키기 위해 새로운 방안을 고안할 계획이다.

질문 1: Vision Transformer 인코더가 전통적인 합성곱 신경망보다 어떤 면에서 효과적인지?

답변: 강화학습 에이전트에게 중요한 정보인 현재 상태 내 위치, 장애물, 아이템과 같은 High-Level Feature를 효과적으로 추출할 수 있다.

질문 2: 강화학습 알고리즘에는 Value-Based와 Policy-Based 알고리즘이 있는데 어떤 알고리즘을 사용했는지?

답변: 현재 연구에서는 Value-Based 알고리즘을 사용하였다.

질문 3: Value-Based 알고리즘 중에 어떤 것을 사용하였고 현재 연구에 맞게 수정한 파트가 있는지?

답변: Value-Based 중 Rainbow 알고리즘을 사용하였고 내부 기술적인 부분은 수정하지 않고 그대로 사용하였다.

Conference