2019 10 27일부터 1주일동안 서울 코엑스에서 2019 ICCV(International Conference on Computer Vision)학회가 열렸다. 해당 학회는 Computer Vision 학회 중 명성이 높은 학회로 많은 연구자들이 논문을 제출하고 발표를 진행하고자 연구를 한다. 올해는 한국에서 학회를 개최했기 때문에, 가까이서 좋은 연구들을 접할 수 있는 기회였다. 전 세계적으로 연구하고 있는 Computer Vision(CV) 분야의 내용을 들을 수 있어 행복했고, 경이로움을 느꼈다. 이러한 기회를 주신 교수님께 감사하다는 말씀을 전하고 싶다. 이제 연구와 관련하여 느낀 부분을 작성하고자 한다.

 

1. 나의 시야는 매우 좁았고, 나에게는 새로웠지만 해당 분야에서 꾸준히 연구되고 있는 분야는 많았다.

 해당 학회를 참석하기 전에는 CV의 주요 분야는 Image Segmentation, Object Detection에 국한된다고 생각하고 있었다. 하지만 위에서 언급한 분야의 3D 분야인 Visual Tracking 뿐만 아니라, Crowd Counting이라는 분야, Point Cloud등 많은 분야가 있었다. 가장 새로웠던 분야는 Crowd Counting분야였다. Crowd Counting이란 이미지 속에 사람이 몇 명이나 있는지를 예측하는 문제 분야이다. 다시 말하면 해당 분야에 대한 예측 모형의 입력 변수와 출력 변수는 각각 이미지와 이미지 속 사람의 수였다. 해당 분야에 관심을 가지는 이유는 현재 진행중인 프로젝트 때문이었다. 해당 프로젝트는 무인비행체(UAV)로 농작물 재배 중인 밭을 촬영하여 수확량을 예측하는 문제이다. 이 프로젝트 문제 상황을 Crowd Counting으로 접근해보면 어떨까라는 생각이 들었다. 이러한 과정을 진행하기 위해서는 많은 과정을 되돌아가야 하기에, 당장에 적용하기는 어렵지만 추후 연구해 볼 만하다는 생각을 했다. 이미지 내에 존재하는 여러 농작물을 분류하고, 농작물 별로 수확량을 예측할 수 있다면 국가적 차원에서 매우 유용할 것이라는 생각이 들었다. 우선 이를 진행하기 위해서 기존 연구 방법론에 대한 공부와, 이미지에 대해 어떻게 정답을 생성하는 지에 대한 파악이 우선되어야 할 것이다.

 

2. 모든 연구가 실제 산업 현장에서 필요로 하고 이를 적용 가능해야 하는가?

 이번 학회에서 Generative Adversarial Network(GAN)에 관한 연구도 많이 볼 수 있었다. 특히 목요일 오전 Oral Session 중 하나는 갠판(GAN )이라 불릴 만한 정도로 많은 연구들이 있었다. 학회에 참석하기 전에 GAN을 어떤 분야에서 적용 가능할 수 있을까라는 생각을 가지고 있었다. 왜냐하면 범주 불균형(Class Imbalance)가 있는 문제 상황에서 GAN을 이용해 데이터를 생성하였지만, 실제 현장에서는 생성될 수 없는 데이터가 생성될 수 없는 경우가 존재하지 않을 수 있다. 또한 GAN을 이용해서 문장을 생성해도 인간이 이해할 수 없는 문장이라면 GAN을 이용해 데이터를 생성하는 것이 인간과 관계 있을까라는 생각을 하고 있었다. 하지만 이 역시 좁은 시각이었다. GAN을 이용해 패션 산업에 접목한 연구를 보았다. GAN에 대한 입력 변수와 출력 변수는 각각 가방의 테두리만 있는 이미지와 가방의 테두리 내에 색깔이 칠해진 이미지였다. 이를 이용해 가방의 모양 디자인은 이쁘게 잘 하는 디자이너가 색깔에 대해 도움을 받을 수 있을 것이라는 생각이 들었다. 또한 Best Paper를 받은 SinGAN(Single Image GAN) 역시 단일 이미지에 대해 변화를 줌으로써, 각종 변화를 발생시키는 네트워크 구조였다. 이를 이용해 움짤 같은 gif파일 생성할 수 있었다. 뿐만 아니라 저화질 이미지를 입력하여 고화질 이미지로 출력 할 수도 있었다. 저화질을 고화질로 만드는 Super Resolution 문제 역시 CV에서 중요한 문제였는데, 이를 잘 해결한 모습이 인상적이었다. 마지막으로 기존의 생각을 가지고 DMQA 연구실에 Visitor로 있었던 SDS 정용현 프로님과 대화에서도 많은 생각을 할 수 있었다. 스타크래프트 연구에서 보이지 않는 정보를 예측하는 것은 매우 중요한 문제이다(Clear the Fog). 특정 플레이어가 게임을 진행 할 때, 스스로 정찰을 하여 본 부분과 정찰하지 않아 보이지 않는 부분이 존재한다. 보이지 않는 부분과 실제 전체 지도를 GAN에 입력하여 인공지능 봇이 보이지 않는 부분을 예측할 수 있게 하여 더 많은 정보를 가지고 게임을 하도록 하였다. 좁디 좁은 시각에만 갇혀 있었던 것을 깨닫게 해주었다. GAN 역시 계속 관심을 가지고 지켜 볼 만한 분야임에는 틀림 없음을 알 수 있었다.

 

3. 이제는 이미지나 영상 하나만 가지고 좋은 논문을 쓰기 어려운 시기이다.

 목요일 오후 Oral Session에서 많이 느낀 부분이다. 예전에는 이미지 속에서 객체를 잘 찾고(Object Detection, OD), 픽셀 별로 잘 분류하는 것(Image Segmentation)만 해도 논문을 쓸 수 있었다. 해당 부분이 논문으로 이어지는 것이 어렵다는 것이 아니라, 연구의 추세가 바뀌었다는 것을 많이 느낄 수 있었다. 예를 들어 OD에서 전이학습을 이용해 Backbone을 구성하고 이와 Region Proposal Network(RPN)을 이용해 Feature map 상에서 객체를 탐지했다. 작은 사이즈의 Feature map에서 입력 이미지 사이즈로 변환하는 것이 과거에 주로 했다면, 현재는 Feature map에 존재하는 Bounding Box(BB)들에 대해 이를 그래프로 변환하는 연구도 많았다. 또한 Graph를 생성하는 과정에서 강화학습 개념을 도입해 Agent들이 직접 graph를 그리는 연구도 있었다. 추가적으로 그래프를 딥러닝 구조에 입력하여 풍경(Scene)을 생성하는 연구도 있었다. 해당 네트워크에는 graph 개념과 Graph 합성곱 연산(GCNN)Image SegementationGAN까지 포함되어 있었다. 해당 연구들은 이미지와 관련한 주된 연구들이라고 한다면, Feature map상에 존재하는 BB를 이용하여 텍스트와 연관 관계를 기술하는 연구들도 많았다. 이미지와 텍스트 분야를 동시에 연구해, 결합해보고자 했던 생각을 하고 있었는데, 나의 생각을 더 확고하게 해주는 계기가 되었다.