고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 백인성

2019년 11월 9일 오전 7:37
조회수: 555

Reviewed by

백인성

지난 10월 27일(일)부터 11월 2일(토) 일주일 간 서울 코엑스에서 ICCV 2019가 개최되었다. 개인적으로는 시애틀에서 개최 된 INFORMS2019 학회를 다녀온 이후 가게 된 두번째 해외 학회였다. 먼저 크게 느꼈던 것은 INFORMS 학회와 ICCV 학회 간 차이점이었다. INFORMS 학회 같은 경우 제조업, 이미지, 텍스트 등 다양한 분야에 대해서 통계, 최적화, 머신 러닝 등 다양한 방식을 활용해서 문제를 해결한 여러 주제에 대해 내용을 들을 수 있었다. 반면에 ICCV 학회 같은 경우 국제 컴퓨터 비전 학회(International Conference on Computer Vision)이라는 이름에서 알 수 있는 것과 같이 이미지, 영상 등 Vision에 초점을 맞춘 연구 내용을 주로 들을 수 있었다. INFORMS 학회에서는 넓고 다양한 주제를 접할 수 있었다는 장점이 있었다면, ICCV 학회는 Computer Vision 분야에 대해 조금 더 깊게 연구한 주제들을 접할 수 있다는 장점이 있었다. 그리고 또 하나의 특징은 발표에 더하여 포스터 세션에서도 재미 있는 연구 내용들이 많이 접할 수 있었다는 것이다. 많은 연구자들이 포스터를 두고 활발한 커뮤니케이션을 하는 모습은 매우 인상적이었다. 개인적으로 아쉬웠던 점은 Computer Vision과 관련된 연구를 많이 하지는 못해 상대적으로 지식이 부족했다는 사실이었다. INFORMS 및 ICCV 같은 큰 해외 학회를 다니면서 나 스스로에 대한 부족함을 계속해서 많이 깨닫고 있다. 그리고 이러한 부족함을 깨닫는 것에서 멈추는 것이 아니라 이를 바탕으로 끊임 없이 고민하고 공부해서 성장할 수 있도록 나에게 계속 채찍질을 해야겠다고 생각했다.

1. Domain-Adaptive Single-View 3D Reconstruction – Pedro O. Pinheiro 외 2명

해당 연구는 Adversarial Auto-Encoder를 통해 일반적인 2D 이미지를 3D 이미지로 재구축하는 것이었다. 해당 연구가 진행 된 이유는 3D 형태 이미지에 대한 자료 수집 및 레이블을 얻는 것은 매우 어렵기 때문이다. 따라서 현재는 3D 레이블을 쉽게 얻을 수 있는 합성 데이터에 의존해서 데이터를 수집하고 분석하고 있는 실정이다. 결국 핵심은 자연 2D 이미지를 바탕으로 3D 이미지 형태를 재구축 할 수 있는 모델을 만드는 것이다. 해당 연구에서는 2가지 핵심 포인트가 있었다. 첫번째는 자연 이미지와 합성 이미지 분포 차이를 줄이기 위해 Loss Function에 domain confusion을 부과한 것이다. 두번째는 Reconstruction을 진행할 때, 사실적인 객체 모양의 manifold에 놓여 지도록 하여 ‘현실적인’ 재건이 가능하도록 하는 것이다. 해당 연구에서는 이러한 제약을 통해 훨씬 간단한 아키텍처로 성능을 향상 시킬 수 있었다.

개인적으로 구두 발표 진행 시, 직관적으로 알 수 있었던 한가지 그림이 기억에 남는다. 이미지를 학습 시킨 뒤 다시 Reconstruction하는 과정이었는데 그 과정을 3개의 면으로 그린 것이었다. 3개의 면 중 하나의 나머지 2개 면 사이 아래에 그려 Latent Space를 표현했는데 이전까지 봤던 어떤 것보다 Latent Space를 직관적으로 표현 한 것 같았다. 해당 발표를 통해 다시 한번 전달하려는 메시지를 잘 표현하는 것이 매우 중요하다는 사실도 깨달았다. 개인적으로 2D 이미지를 3D 이미지로 어떻게 Reconstruction 시킬 것인가에 대한 감이 없었는데, 해당 연구를 통해 조금이나마 알게 된 것 같아 기뻤다.

2. Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation – Kiru Park 외 2명

해당 연구는 RGB 2D 이미지로부터 6D 물체 포즈를 추정하기 위해 Pix2Pose라는 새로운 구조를 제시한 것이 핵심이다. 2D 이미지로부터 6D 포즈를 추정하는 것은 occlusion(폐색)과 symmetric(대칭) 문제 때문에 어렵다고 한다. 또한 전문적인 지식이 없다면 정확한 질감으로 3D 모델을 구성하는 것도 어렵다고 한다. 본 연구에서는 이러한 문제를 해결하기 위해 Texture Model 없이 각 객체 픽셀의 3D 좌표를 예측하여 6D 포즈를 추정하는 방법론을 제안한 것이다. 3가지 벤치 마크 데이터 세트에 대한 평가를 진행하였고 타 알고리즘 대비 성능이 좋다는 사실을 밝혀냈다. 개인적으로는 6D 이름을 보고 해당 연구는 어떤 연구일까? 라는 궁금증이 많이 들었다. 내가 들었던 구두 발표시간에서 6D는 대부분 포즈(pose)와 관련된 연구였다. 내가 이해하기로는 6D 문제는 객체의 움직임을 찾아내는 것 같았다.

이러한 연구들을 보며 개인적으로는 큰 충격을 받았다. 개인적으로 나 스스로에게 이미지 Task를 푸는 알고리즘에 대해 얼마나 아냐고 묻는다면 아직 부족함이 많다고 대답할 것이기 때문이다. 하지만 이미 이미지 관련해서 진행 된 선진 연구가 매우 많다는 것을 이번 ICCV를 통해 알게 되었고 나를 돌이켜 보고 반성해보는 계기가 되었다. 앞으로는 수업, 과제, 프로젝트 등을 통해 배우는 것뿐만 아니라 개인적으로 논문을 읽고 이를 코드로 구현하는 것에도 시간을 더 투자 해야겠다고 생각했다. 데이터 분석의 진정한 대가가 되기 위해서 더욱더 많은 시간을 투자하고 노력해야겠다고 다시 한번 생각하게 해준 좋은 학회 시간이었던 것 같다.