- 2021년 11월 12일 오후 2:28
- 조회수: 257
이영재
[학회후기]
추계대한산업공학회에는 어느덧 3번째 참가하게 되었다. 이번 학회는 코로나로 인하여 온라인으로 진행되었다. 온라인 학회는
듣고 싶은 발표를 자유롭고 쉽게 참석할 수 있지만 현장감이 떨어지는 단점이 있다. 또한, 발표에 대한 질문이 오프라인에 비해서는 다소 소극적이어서 아쉬움이 많이 남는다. 이번 학회에서 가장 인상 깊었던 부분은 강화학습을 적용한 연구사례들이 지난 학회보다 기하급수적으로 늘어난 것
같다. 그래서 강화학습을 주제로 발표하는 세션에 적극 참석하여 다른 연구원들은 어떻게 강화학습을 풀고
있는지 확인해볼 수 있었다.
[발표후기]
1.
오프 정책 심층 강화학습을 위한 자기 지도 표현 학습
강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로 연속적인 의사결정을 수행한다. 특히, 강화학습의 최종 목표는 미래에 받을 보상의
합을 최대화하는 정책 파이를 찾는 것이다. 하지만 고차원 이미지에서 직접 문제를 해결하도록
에이전트를 훈련시키는 것은 어려운 것으로 입증되었다. 본 연구에서는 강화학습의 샘플 효율성과
학습의 안정성을 향상시키기 위한 자기 지도 학습 결합 연구를 제안한다. 제안 방법론은 세가지
요소로 구성되어 있으며 첫번째는 정책 외 알고리즘을 사용한 Model-free 강화학습이다. 두번째는 게임 환경의 시공간적 정보를 고려한 대조학습, 마지막으로
자동 데이터 증강 기법을 적용한 대조 학습 방법으로 구성되어 있다. 우리는 이 세가지 구성요소를
동시에 학습하기 위해 end-to-end 학습 방식을 고려했으며 Atari 2600의 26개 게임 환경으로 평가하였다. 결론적으로 제안하는 방법론은 각 게임마다 적합한 데이터 증강 기법을 선택할 수 있도록 하여 학습의
안정성을 높였을 뿐만 아니라 시공간적 정보의 대조학습을 활용하여 샘플 효율성을 향상시켰다.
질문 1: 이미지에 적합한 Data
Augmentation 기법을 다양한 게임에 적용했을 때 편차가 있을 것으로 생각이 되는데 연구 사례가 있는지?
답변 1: 최근 연구에서는 게임에 기하학적인 Data Augmentation을 적용했을 때 일부 게임은 잘 맞지만 다른 게임에서는 State, Action에 대한 정보가 틀어지는 경우가 발생한다고 보고했다.
질문 2: Data Augmentation과 게임에 대한 상관관계
연구가 있는지?
답변 2: 상관관계를 직접 보고한 연구 사례는 없지만 게임에 대한
적합한 Data Augmentation을 찾기 위해 수많은 시행착오 또는 학습을 거듭하며 자동적으로
찾아주는 알고리즘들이 개발되고 있다.
[청취후기]
1.
스마트 그리드에서의 전기 자동차 충전을 위한 멀티 에이전트 심층 강화학습 기반 스케줄링(박건우, 문일경, 서울대학교
산업공학과)
전기 공급의 문제가 심각해짐에 따라 스마트 그리드 방식이 최근 나오게 되면서 문제가 어느정도 해결되었다. 하지만 여전히 발생하는 전기 공급의 문제를 본 연구에서는 멀티 에이전트 강화학습을 적용하여 해결한 사례다. 강화학습은 상호작용해야 하는 환경이 있어야 하기 때문에 본 문제에 대한 환경을 직접 구축하였다. 에이전트는 전기 자동차이며 행동은 5가지로 이루어져 있고 보상은
도메인 지식에 알맞게 공식화하였다. 본 연구에서 사용한 멀티에이전트 방법론은 COMA를 사용하였다. 에이전트의 수는 2개, 행동은 5가지로 이루어져
있는 환경은 멀티 에이전트 방법론으로 풀기에는 소규모 테스크에 속하지만 점차 확장하여 증명하는 향후 연구가 있다면 매우 흥미로운 연구가 될 것으로
기대한 발표였다. 또한, COMA 외에 Discrete action space에서 SOTA 성능을 달성하는
Q-MIX 기반의 알고리즘들도 적용하여 비교하는 실험도 재미있을 것 같다.
2.
Safe Semi-Supervised
Contrastive Learning for Out-of-Distribution Data (곽민구,
김성범, 고려대학교 산업경영공학과)
본 연구는 Unlabeled 데이터가 존재하는 상황에서 Class 분포의 Mismatch / Out-of-Distribution
(OOD) 문제를 해결하고자 하였다. 제안 방법론은 기존의 Semi-Supervised Learning 방식과는 다르게 Unlabeled
Data 만을 사용하여 데이터의 내재된 좋은 표현을 학습할 수 있도록 Self-Supervised
Learning 중 Contrastive Learning을 활용하였다. 추가로 Labeled data에서
anchor와 동일한 긍정 예들에 대한 손실 함수를 추가하였다. 이 때 발생하는 과적합
문제는 추가 손실 함수에 스케줄링이 가능한 가중치를 곱하여 학습 후반에는 Unlabeled data 만을
사용하여 학습할 수 있도록 구성하였다. 실험 결과에서만 봐도 기존의 지도학습, Semi-Supervised Learning 방법론들보다 제안 방법론이 우수한 것을 증명하였다.