고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 이지윤

2019년 11월 11일 오후 12:57
조회수: 405

Reviewed by

이지윤

2019 ICCV (International Conference on Computer Vision) 학회가 7일간 서울에서 진행되었다. ICCV는 computer vision 분야에서 가장 규모 있는 학회 중 하나로 vision관련 저명한 논문을 살펴볼 때 ICCV마크를 쉽게 찾아볼 수 있다. 이렇게 규모 있는 학회가 한국에서 개최된 것은 이례적이기도 하지만, 그만큼 한국에서의 인공지능 연구가 활발하다는 증거인 것 같아 감회가 새로웠다. 최근, 좋은 기회로 다녀온 해외 학회 경험으로 인해 영어 발표를 듣는 것과 외국의 유수 연구원들을 마주하고 대화를 나누는 환경에 대해서 상대적으로 익숙해진 반면 이렇게 다양하고, 훌륭한 연구들이 쏟아져 나온다고 생각하니 나로써는 큰 자극이 된 계기가 되었다. 더불어 첫날 경험한 tutorial session을 참여하면서, 마치 내가 들은 동영상 강의 현장에 와있는 것 같아 설레었던 기억이 있다. ICCV에서 주목해서 들은 키워드는 Explainable(Interpretable), Domain adaptation, Lifelong learning, Transfer learning등이 있다. 또한 GAN과 attention 매커니즘을 활용한 연구들이 다양한 목적을 위해, 다양한 모습으로 제안되었다. 최근 우연히 두 알고리즘에 대해 공부할 기회들이 있어 다행이라고 생각하면서도, 이를 새롭게 연구로 풀어내는 여럿 발표들을 접하며 만감이 교차했다. 오늘날 감정을 시작으로 새로운 연구의 밑거름이 되길 기대한다.

[Understanding Latent Semantics in GANs]

Interpretable Machine Learning for Computer Vision 튜토리얼 세션에서 소개된 연구로 학회 첫날과 마지막 날 모두 운이 좋게 들을 수 있었던 연구였다. GAN기반으로 건축물 데이터 셋을 generate하는 과정에서 학습에 사용된 사진 중앙과 하단에 워터마크까지도 생성하게되는 문제점을 보완하고자 제안된 연구이다. 연구의 목적 자체가 흥미롭기도 하고, 현실적이어서 청중들이 집중하기 유쾌했던 연구였을 것이다. 해당 연구에서는 generator의 각 node들의 역할을 back tracking하여 어떠한 부분이 제거하고자하는 워터마크를 생산하는지를 확인한다. 노이즈 생성하는 노드들을 turn off하게되면, 본 의도대로 보다 선명한 사진을 생성하는 generator가 제안된다. 이러한 아이디어를 확장하여, 이후에 연구진은 반대로 의도하는 node를(일종의 condition) turn on하여 기존에 없던 창문 혹은 잔디밭 등을 새롭게 추가하여 생성하였다. 이미지에는 인문, 풍경, 더 나아가 하위 도메인이 상당수이다. 이런 도메인 별 특정 부분을 제거하거나 생성하는 것을 고려한 generator는 흥미로울뿐더러 활용도도 상당히 높을 것으로 기대한다. 첫 날 튜토리얼을 듣고 어떻게 node를 turn on, turn off하는지 기술적으로 궁금하였는데, 마지막 날 발표에서도 기술적인 내용에 대해서는 크게 언급해주지 않아 이 부분은 별도로 논문을 살펴봐야겠다. 해당 연구를 통해 vision분야에서는 specific한 task를 풀기 위함이라기 보다도 흥미를 위해, 의도한 바를 보여주기 위해 진행하는 연구들을 보고, 나도 열린 연구자가 되야겠다는 생각을 할 수 있었다. 더불어 visionㅊ기억에 남는다.

[Smile, be Happy :) Emoji Embedding for Visual Sentiment Analysis]

해당 연구는 twitter에서 제안한 연구로, 포스터 세션을 통해 접하게 되었다. 최근, 챗봇 데이터 기반의 감성분석 프로젝트를 진행하는 데에 인사이트를 얻기 위해 감성분석 연구를 찾아보다가 우연히 접하게 되었는데 연구가 그야말로 너무 귀여웠다. 해당 연구에서는 이미지 데이터에 대해 감성분석을 진행하고자 하는 과정에서 이미지 데이터에 대한 감성 레이블의 부재로부터 물음표를 던지며 시작한다. 실제로 이미지 데이터 학습을 위해 구축된 대용량 데이터 이미지넷은 주로 사물 이미지이며, 굳이 감정을 부여하자면 중립감정이다. 이렇게 대다수 중립에 imbalanced된 데이터는 이미지의 감성을 분석하고자하는 task의 학습 셋으로 부적절하다. 따라서 트위터 팀은 트위터에 업로드하는 이미지와 동시에 이모티콘 태그를 수집하고, 이모티콘 태그를 레이블로 활용하고자 했다. 이모티콘(이모지)은 단순히 긍정, 중립, 부정뿐 아니라 더욱 다양하고 풍부한 감정에 대해 표현이 가능하다는 점에서 레이블 그 이상의 효과를 갖는 정보라고 생각한다. 추후 논문을 찾아보니 이모티콘 간의 상관관계와 이미지들을 mapping시킨 figure들이 있는데, 납득가능한 유의미한 결과들이 보여지는 것이 흥미로웠다.

[Overcoming Catastrophic Forgetting with Unlabeled Data in the Wild]

지난번 세미나 주제로 공부했던 lifelong learning 그리고 해당 연구분야에서 해결하고자 하는 최우선 문제인 catastrophic forgetting에 대한 연구로, 기다리던 포스터 세션이다. 해당 연구는 방대한 lifelong learning task중에서도 class가 증가하는 class incremental learning문제상황을 가정하고 있다. 크게 2개의 step으로 연구가 진행되었다. 먼저, unlabeled data를 confidence-based sampling한다는 것. 두번째로 Global distillation을 진행한다. 개략적으로 새로 입력된 데이터에 대해서 confidence를 확인하여 out-of distribution여부를 확인하고, 서로 다르게 모델링을 진행함으로써, 새로운 레이블(task)를 분할하고 관리하여 catastrophic forgetting을 해소하였다. 최종적으로 단일모델로써 관리하기 위해 knowledge distillation방법론을 활용하게 된다. 지난 세미나를 준비하면서 lifelong learning영역에 대해 느낀점은 여러 테크닉을 이해하기 위해 수식적 이해, 여러 기술들에 대해 공부할 수 있는 기반을 마련해준다는 것이었다. 좀더 면밀히 공부하여 이러한 문제 상황을 내 연구로 끌고 갈 수 있도록 고민해보아야겠다.