고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 이영재

2019년 11월 7일 오후 3:10
조회수: 469

Reviewed by

이영재

2019년 10월 27일부터 11월 2일까지 서울 코엑스에서 개최한 2019 ICCV (International Conference on Computer Vision)학회에 다녀왔다. ICCV는 세계적으로 유명한 학회로 서울에서 개최한 것은 나에게 둘도 없는 기회였다. 이번 기회를 발판 삼아 컴퓨터 비전의 연구 흐름을 전반적으로 알아볼 수 있었다. 컴퓨터 비전의 연구는 이미지 데이터를 CNN (Convolutional Neural Network)에 적용하여 예측 및 분류 모델을 구축하는 것이다. 최근에는 빠른 탐지 시간, 정확한 예측 및 분류에 초점을 두어 방법론을 개발하고 있으며 인간의 삶의 질을 향상시키는 방향으로 나아가고 있다. 나 또한 컴퓨터 비전 분야를 연구하고 있는 학생으로써 이번 학회에서는 어떤 연구가 세부적으로 진행되고 있는지 궁금했다. 올해 ICCV 학회를 참석하면서 핵심이 되는 것은 설명 가능한 딥러닝, 강화학습을 이용한 연구, Generative Adversarial Network (GAN)를 이용한 연구가 되었던 것 같다. 이번 학회를 통해서 얻고자 했던 것은 컴퓨터 비전의 연구 동향, 강화학습을 이용한 연구, 연구 아이디어의 핵심이었다.

1. SinGAN: Learning a Generative Model from a Single Natural Image

이 연구는 나에게 충격을 주는 연구였다. 발표자의 발표력, 상대방에게 짧은 시간 안에 전달하고자 했던 전달력 및 발표 자료는 상상 이상이었다. 이 연구를 통해서 나는 GAN에 대해 관심이 생겼을 뿐만 아니라 아직까지도 신선한 충격에 헤어나오질 못하는 것 같다. 연구에서 소개하는 SinGAN은 단일 이미지를 가지고 GAN 모델을 학습시키는 것이다. 이 때 얻고자 하는 것은 고품질의 이미지와 다양한 샘플 이미지들을 얻는 것이다. 초반에는 “왜 컴퓨터 비전에서 GAN을 선보였을까?”라고 생각했는데 후반에 GAN의 모델 구조를 컴퓨터 비전에서 많이 사용하는 피라미드 구조로 적용했다는 것을 보고 나의 물음은 사라졌다. 제안한 모델은 Generator에 노이즈와 이전에 예측한 이미지를 가지고 피라미드 구조식의 학습을 진행한 것이다. 또한 Discriminator에서는 실제 이미지를 가지고 학습시키며 Generator와 같이 피라미드 구조식의 학습을 진행하였다. 단일 이미지로 제안 모델에 학습 시킨 후, 결과는 현실적이고 다양한 이미지, 고해상도의 이미지들을 얻을 수 있고, 다른 스케일의 이미지 또한 얻을 수 있었다. 이 연구는 결과도 재미있었지만 아이디어가 단순하면서도 멋있었다. GAN에 대한 깊은 지식이 없어 처음 이해하는데 어려웠지만 오히려 나에게는 자극이 되었고 이번 기회를 통해 GAN에 대해서도 공부해야겠다는 다짐을 가졌다.

2. VideoBERT: A Joint Model for Video and Language Representation Learning

이 연구는 포스터 세션에서 발표한 내용으로 텍스트와 유튜브와 같이 레이블이 없는 데이터를 이용해 텍스트에 맞는 이미지를 예측하는 것이 핵심이었다. VideoBERT는 실제 학습할 때 마스킹 텍스트 데이터와 비디오의 이미지가 된다. 여기서 텍스트, 이미지 따로 학습시킬 수 있지만 이에 비해 텍스트와 이미지를 교차하여 학습시키는 것을 제안하였다. 이를 통해서 텍스트 문장의 흐름을 파악하여 마스킹된 부분을 예측하고 문장의 뜻과 비슷한 이미지를 도출하도록 하였다. 처음 포스터 설명할 때 의아해 했지만 결과에서는 흥미로웠다. 일부를 마스킹한 하나의 문장을 고정시키고 이에 대해서 단어를 예측하는 것과 이에 관련한 이미지를 도출한다는 것이 굉장히 인상깊었다. 나에게 BERT는 NLP 분야에서 단어를 벡터화 시키는데 높은 성능을 보이는 모델로만 알았었다. 이 틀을 깬 것이 이번 포스터 세션이 아닐까 싶었다. 정말 아이디어의 무궁무진함을 다시 한 번 느끼고 고정된 생각의 틀을 깨고 넓은 시야에서 볼 수 있도록 노력해야겠다는 다짐을 했던 세션이었다.

3. Imitation Learning for Human Pose Prediction

이 연구는 사람의 역동적인 동작을 모델링하고 예측하는 것이었다. 최근 컴퓨터 비전에서는 이러한 문제를 풀기 위해 많은 노력을 기울이고 있다. 이 연구는 GAN 모델에 강화학습을 적용해서 문제를 풀고자 했다. 나의 주된 연구 분야는 강화학습으로 굉장히 반가운 연구였다. 하지만 GAN에 대한 짧은 지식으로 인해 아쉬웠지만 발표자의 친절한 설명 덕분에 굿을 외쳤던 연구였다. 이 연구의 핵심은 Generative Adversarial Imitation Learning이다. 모델의 구조는 GAN이면서도 학습은 강화학습을 적용해 사람의 역동적인 동작을 모델링함과 동시에 잘 예측을 하도록 하였다. 강화학습에서는 Actor-Critic 방법론이 있는데 이를 GAN에서 Generative가 Actor, Discriminator가 Critic으로 하여 학습을 진행한 것이다. 따라서 GAN의 모델 구조이지만 강화학습 중 Actor-Critic 방법론을 적용해서 결론을 도출하게 된 것이다. 여기서 Generator (Actor)에 들어가는 데이터는 사람의 역동적인 동작 (State)가 되어 Generator (Actor)로부터 행동을 도출한다. 이렇게 도출한 행동 (Action)과 실제 행동 (State)을 Discriminator (Critic)의 인풋이 되어 최종적으로 보상 (Reward, Critic Score)를 얻게 된다. 이렇게 얻은 점수로부터 Generator (Actor)는 Discriminator (Critic)의 방향에 따라 학습을 진행하게 된다. 결국 Generator (Actor)는 사람의 역동적인 행동을 잘 예측하도록 학습을 진행하게 되며 최종 보상을 얻는다. 강화학습을 GAN 모델에 적용하여 학습시킨 아이디어가 단순하면서도 자극이 되었다. 나 또한 다양한 지식을 습득하여 강화학습 연구에 힘을 가하고 좋은 연구를 위한 다짐을 했다.

이번 학회에서 느낀 점은 우리 연구실도 충분히 할 수 있다는 생각을 했다. 기본적인 역량이 충분한 연구원들이 있고 서로 시너지 효과를 이룰 수 있다고 생각했다. 이번 학회에서는 AI에 굉장히 유명한 Google, Facebook, Stanford, Amazon 연구팀 등이 많이 있었고 굉장히 자극이 되었던 학회였다. 우리 연구실도 이에 걸맞은 연구들을 하고 있고 멋진 결과들이 도출되고 있다. 다음 기회가 있다면 충분히 견주어 볼 수 있다는 생각을 했으며 가능성이 높다고 판단했다. 뿐만 아니라, 두려움보다는 도전 자체도 의미가 있다고 생각한다. 그래서 나 또한 이에 못지 않게 열심히 좋은 연구를 위해 달려야 한다는 다짐을 했고 부딪혀 보고 싶다. 정말 나에게 좋은 기회이자 자극이 되었고 연구를 위한 트리거가 된 학회였다.