고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 조윤상

2019년 11월 3일 오후 5:56
조회수: 601

Reviewed by

조윤상

2019년 10월 27일부터 11월 2일까지 일주일간 서울 코엑스에서 개최된 2019 ICCV (International Conference on Computer Vision) 학회를 다녀왔다. 바로 이전 주에는 INFORMS 학회를 다녀왔는데 설렘을 다스리기도 이전에 학회를 참여했다. 세계적으로 유명한 학회에 개인연구발표 없이 참여하는 것으로 마음이 편안함과 동시에 즐거움을 머금고 학회에 참가했다. 국제학회에 연속적인 참여로 영어 발표 듣기에 대해 부담감은 덜해졌지만, 그만큼 자극은 배가되어 연구와 학습의 의지를 두 배로 다짐하게 된 계기였다. 산업공학, 데이터 마이닝 학회는 꽤 참여했는데 컴퓨터 비전 학회는 처음이다. 나를 포함한 대부분의 연구원들은 컴퓨터 비전(Computer Vision)이라는 용어를 접했을 때 다음과 같이 간단히 생각할 것으로 짐작한다. "여러 데이터 형태 중 하나인 Image 데이터, CNN(convolutional neural network)에 적용하여 예측모델을 구축하면 되겠다" 라는 말로 쉽게 정의할 것이다. 하지만 그 세부적으로 들어가 새롭게 문제를 정의하고 효율적으로, 정확하게 방법론을 개발했으며 더 나아가 인간의 삶의 질을 향상시킬 수 있는 연구결과까지 논하고 있었다. 컴퓨터 비전 분야에서는 어떤 연구가 세부적으로 이루어지고 있을 지 궁금했는데 정말 다양하고 면밀했다. 이 매력적인 ICCV 학회의 키워드는 다음 세가지로 정의할 수 있었다. #Explainable AI, #Multimodal Learning, #Generative adversarial network 이 세가지 분야가 서로 어우러진 방법론과 이를 다양한 Visual 데이터에 응용하였다. 이번 학회에 참가하여 수확하고자 하는 내 목표는 (1) 현재 진행중인 Visual 데이터 연구에 적용할 아이디어를 얻어오자, (2) 그들에게 현재 진행중인 연구 내 연구를 알려주고 의견을 들어보자, 이 두가지였다.

1. U-CAM: Visual Explanation using Uncertainty based Class Activation Maps

그 동안 XAI 관련 연구에 관심있던 나는 이번 학회에서 반가운 연구를 많이 만났는데 그 중 가장 인상깊었던 연구다. Visual Question Answering 연구에 적용하는 방법론으로 질문(Text)과 보기(Image)가 주어졌을 때, 이미지 내 답변을 위한 중요 구역이 어느 곳인지 강조하는 U-CAM (Uncertainty based Class Activation Map) 방법론을 제안하였다. 예를 들어, “주어진 이미지는 어느 종류의 동물인지?” 라는 Text 데이터가 주어졌을 때, 동물 모습을 담은 Image에서 동물의 위치를 높은 값으로 강조할 수 있는 방법론이다. 딥러닝 모델 해석을 위한 대표적인 접근으로는 확률적으로 ‘Uncertainty’를 추정하거나, Grad-CAM, Attention 등 Visual explanation 접근이 있다. 그리고 본 연구는 이 두가지를 통합한 방법론으로 ‘Certainty Map’을 제안하였다. 즉, 이미지 내 중요한 부분을 강조할 수 있는 방법론은 꽤 나와있는데, 이 중요한 부분을 나타내는 Class Activation Map에서 불확실성을 없앤 ‘Certainty Map’을 만들었다. Cross Entropy Loss와 Uncertainty Loss를 결합하여 애매한 부분은 없애고, 확실하게 중요한 부분을 강조해 준다, 그리고 Visual QA 분야에 적용하였고, 실험적으로 유의성을 검증했다… Wow를 연발했다. (1) Text와 Image (질문과 보기)를 연결 짓는 Multimodal 문제, (2) 중요한 부분을 강조해주는 이미지 설명 문제, (3) 불확실한 부분을 없애는 성능 향상 문제를 해결했다. 여러 방법론을 세련되게 통합하고, 논리적으로 설명하는 것이 매우 인상깊었다. Poster session이었는데 저자와 많은 이야기를 나누었다. Sensor signal 데이터를 이미지로 변환하고, regression 문제에 CAM을 적용했다는 내 연구도 말해주며 어떻게 생각하냐는 의견을 물었는데 좋은 접근으로 생각하고 “Very interesting!”이라는 답변을 들어 신이 났다. 현재 진행하고 있는 연구를 어떤 식으로 논리를 풀어나갈지, 장단점을 어떻게 특정 지을지 많이 참고할 수 있는 논문으로 생각한다. 표현한 방식과 특장점을 잘 정리한 점을 잘 참고하여 내 연구에 녹일 수 있도록 공부해야겠다.

2. Learning Relationships for Multi-View 3D Object Recognition

하나의 정답(class)에 다양한 각도 바라본 이미지 관계를 잘 학습하고자 하는 연구다. 전투기를 다양한 관점(view)에서 찍은 이미지가 있다고 하자. 그 다양한 관점의 이미지를 잘 통합 및 예측하고자 하는 데 목표가 있다. 이러한 문제 상황에서는 View 1에서 전투기 날개가 이미지 (3, 3) 에 위치했다고 할 때, View 2에서는 (5, 5) 에 있다는 점을 Model에 잘 알려주어야 한다. 그에 집중할 수 있도록 CNN 내 Reinforcing block and Integrating block을 제안하였다. Multi-view image 내 region to region relationship을 학습하고자 한 것이다. Wow를 연발했다… 최근 진행하고 있는 다양한 각도로 찍은 자동차 이미지를 예측하는 프로젝트를 수행하고 있었는데 적용해 볼 수 있을 것 같다. 이 저자 역시 poster session에서 만났는데 긴장한 모습과 함께 성심성의껏 설명해주는 모습이 인상적이었다. 나와 같은 대학원생이었는데 관심 가져주어 고맙고 프로젝트 잘되기 바란다며 진심으로 응원해 주었다. 다음에는 내 연구를 설명해주는 자리를 만들고 싶다.

3. Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data

한 물체(object)를 회전으로 찍은 이미지들의 차이(Rotational ambiguities)와 불확실성(uncertainty)을 탐지하는 연구다. 관심있는 관점에서 찍은 물체를 기준으로 다른 관점에서 찍은 물체의 애매한 정도를 정의하였다. 그리고 인상깊었던 점은 애매한 정도를 수치화 하기 위해 다른 가이드라인이나 레이블(annotation과 supervision없이)을 지정해 주지 않았다는 점이다. 기존 방법론은 CNN 등 딥러닝 방법론 위주에 설명이었지만 본 연구는 물체 인식 이후 지도학습없이quantification(수치화) 하고 성능을 검증한 면이 새롭다는 점을 강조하였다. 자세한 방법론을 이해하기 위해 논문을 살펴봐야겠다. 최근 다양한 관점으로 찍은 이미지로부터 틀어진 각도를 계산해야하는 문제를 접했는데 본 방법론을 적용할 수 있을 것으로 생각한다. 본 방법론으로부터 애매한 정도를 수치화 하고, 각도라는 label로 지도학습에 적용할 계획이다.

이번 학회에서 가장 큰 느낀 점은 우리 연구실도 컴퓨터 비전 학회에 실컷 발표해볼 법 하다는 것이다. 이러한 세계적인 학회에서 발표를 하기 위해 서는 우선 “채택”되어야 한다. 이번학회에서 채택된 연구를 보면 그 저자들은 Google AI, Facebook, Stanford CS231n 연구팀 등 들으면 아는 조직에 소속되어 있다. 때로는 그들이 그냥 잠깐 수행 해본 연구(?) 도 많은 청중이 주목한다. “그들은 어떻게 주목받을 수 있는 것일까?” 라는 생각을 많이 했다. 내 생각에 그 이유는 그들이 이 분야를 선도하고 있는 소위 “대가”라는 점이다. “그럼 어떻게 대가가 되었을까?” 생각해보았다. 그들은 대가가 되기 이전 이런 세계적인 학회에 자신들의 연구결과를 발표해왔다. “그럼 그들은 어떻게 이런 학회에서 발표해왔을까?” 라는 질문을 던졌다. 나는 그들이 수행하고 있는 연구결과를 ‘영어’로 정리하고, 컴퓨터 비전 학회 논문 모집 공고에 출품하는 것에 시작된다고 본다. 이런 점에서 우리 연구실도 무리가 전혀 없음을 확신한다. 우리 연구실에서 진행하고 있는 여러 프로젝트를 생각해보자. 문제 상황을 정의하고, 그 문제를 풀기 위해 방법론을 개발한다. 유의미한 결과를 도출하고 그 결과를 프로젝트 보고서로 정리한다. 나는 그 대가들이 수행하고 있는 연구 보고서를 ‘영어’로 작성하고, 컴퓨터 비전 학회 논문 모집에 제출했다고 생각한다. 우리도 제출하고자 하는 ‘생각’이 있으면 다를 바 없다고 생각한다. 내가 우리 연구실에서 수행한 연구결과를 3년간 지켜본 결과, 꽤 유의미하고 신선한 것이 많았기 때문이다. 하지만 그게 가장 어려운 부분인 점을 잘 알고있다. 그리하여 일단 부딪혀 보는 것이 중요하다고 생각한다. 네이버, KAIST, 서울대학교 등 한국인 발표도 꽤 살펴볼 수 있었는데 그들은 이 ‘생각’을 했다. 우리는 이 분야 “대가”가 되기 위해 이 자리에 모여있다. 우선 나부터 개겨보아야겠다.