고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 정승섭

2019년 11월 7일 오전 10:15
조회수: 484

Reviewed by

정승섭

학회 느낌 및 깨달은점 : 이번에 서울 코엑스에서 ICCV(International Conference on Computer Vision) 가 개최되어 2019년 10월 27일부터 11월 2일까지 일주일간 ICCV 학회를 다녀왔다. 사실 이런 큰 학회는 처음이라 기대도 되었고 또 수많은 영어 발표이기에 잘 들을 수 있을까 하는 걱정을 가득 담고 학회를 참가하였다. 일요일날부터 시작 하였는데 도착하자마자 사람들이 엄청나게 줄을 서서 입장을 하려는 모습에 나도 모르게 긴장이 되었다. 전세계에서 이 학회가 얼마나 큰 학회인지 확실히 알수 있었다. 이 많은 사람들이 컴퓨터 비젼이라는 학문에 관심이 많고 또 적극적으로 질문 하는것 부터 시작해서 정말로 많은 oral session 이 짧은시간(5~8분) 에 끝내고 다음논문이 진행되는것에서 정말로 많은 나라에서 연구가 되고 있음을 몸으로 느꼈다. 이번 학회를 통해 컴퓨터 비전에서 전세계 사람들이 현재 어떤분야에 적극적으로 참여하고 있고 연구되는지 듣게 되어 좋았다. 너무 아쉬웠던 것은 영어가 부족하다는것을 알고 있고 공부를 계속 해야 한다는 것도 알고 있는데 그동안 시작을 안해서 듣기 읽기가 너무 부족했더는 것이다. 내 자신이 너무 창피함을 확실히 느끼게 되었다. 또한 정말로 많은 내용이 진행되었는데 이중에서 내가 알고 있는 부분이 너무 적어서 해야 할 것들이 태산이다 라는것을 알게되었다. 머리로 단순히 부족하다는 것을 알고 있던거랑 몸으로 느끼는 것이랑 완전 차원이 다름을 알게 되었다. 부족한 것은 그냥 "아 내가 공부를 별로 안해서 모르는구나" 로 넘어가면 안된다는것을 깨닫게 되는 기회가 되었다.

학회 경험 : 이렇게 큰 학회를 처음 경험하는 것이라서 여러 세션이 같은시간에 한꺼번에 진행된다는 것을 목차를 보고 알고는 있었는데 실제로 가서 보니 어떤것을 들어야 할지 고민이 되었다. 이래서 듣고 싶은것을 미리 선택해서 들어야 한다는 사소하지만 중요한 학회 경험을 하게 되었다. 오랄발표장에서는 5~6분 단위로 한 연구가 끝나고 그다음 연구를 바로 발표하였는데 정말 빠르게 진행되는것에 충격을 받았다. 포스터 세션에서 그나마 찬찬히 포스터를 보면서 질문 할 수 있는 기회가 있어서 생소한 경험을 하였다. 내가 만약 좀 더 자세히 알고 있는 연구들이 있었다면 참 도움이 되었을 텐데 그러한 연구를 하지 못했던것이 참 아쉬웠다. 논문을 많이 공부하고 내가 하고 싶은 연구분야를 확고히 해야 겠다는 생각을 많이 하게 되었다.

학회에서 큰 카테고리로 발표가 진행 되었다. 정말 많은 연구들이 발표되고 포스터로 전시 되었는데 "3D", "GAN" 등을 이용한 정말 엄청나게 많은 주제들로 진행되었다. 그 중 GAN 을 이용한 연구 중에서 "Everybody Dance Now" 라는 포스터를 보고 제목이 맘에 들어서 자세히 보았다. 해당 연구는 춤을 추는 사람의 소스 비디오를 보고 그 포즈만을 가져와 학습 시키고 학습된 포즈 대 모양 매핑을 적용하여 타겟 피사체를 생성한다. 비디오에서 비디로로 변환하는 방식이기에 시간적으로 일관된 비디오 결과를 위하여 두개의 연속 프레임을 예측하고 타겟의 얼굴이 사실적으로 표현하기 위해 별도로 파이프라인을 도입하였다고 되어 있었다. 실제로 실제 사람이 춤을 추는 모습과 이 데이터에서 포즈를 학습한 것과 나중에 타겟이 학습한 결과를 함께 보여주는 동영상을 보았는데 정말 매우 신기하였다. 또한 이를 이용하여 fake 비디오도 판별 할 수 있는 fake detection 이 가능하고 실제로 유튜브에서 3분이상 춤을 추는 동영상을 학습하고 그걸 합성 비디오로 만들어 구별 해 본 결과 잘 구분한다고 되어 있었다. 최근에 fake 동영상등이 큰 문제가 될것처럼 보였는데 해결방법이 있어 보여서 안심이 되었다.

Deep Learning 분야에서도 많은 발표가 진행되었다. "Deep Elastic Networks with Model Selection for Multi-Task Learning" 라는 포스터를 보고 관심이 생겨 들어 보았다. 제목에서 다중작업학습을 위한 모델 선택이라는 말이 참 좋게 느껴졌다. 해당 연구는 추정기와 선택기로 구성되어 있다. 추정기는 백본 아키텍처 라는 부분이 있고 이 부분은 기존에 잘 학습되어진 resnet이나 VGG 등을 기반으로 하여 계층적으로 구성되어 해당 모델로 여러 종류의 다른 구성의 여러네트워크 모델을 생성한다. 선택기는 입력이 들어오면 제공된 후보 모델 풀(추정기에서 만들어진 모델 들 중에서)에서 동적으로 가장 좋은 모델을 선택한다. 선택기에서 사용되는 모델은 작업의 입력 인스턴스가 제공될 때 후보 모델에 대한 확률분포를추정할 수 있는 몇개의 계층으로 구성된 비교적 작은 규모의 네트워크이다. 이를 통해 다중 작업학습을 진행하면서 같이 학습하고 더 좋은 결과를 뽑아내었다. 논문을 찾아 읽어보고 싶은 내용들 이었다.

총평 : 너무나 많은 발표가 있었고 많이 들었지만 사실 지금 나의 수준에서 제대로 잘 이해한 연구는 없었다. 하지만 확실히 많은 포스터들을 봐보니 저런쪽도 한번 해보면 재밌겠다 라는 생각이 많이 들었다. 기본에 충실한 연구들을 다시한번 논문을 찾아보고 공부해봐야겠다는 다짐을 하게 되었다. 이번 ICCV 를 통해 큰 경험을 하게 된것같다. 컴퓨터 비젼의 세계가 얼마나 넓은지 알게 되었고 어떻게 나뉘며 어떤것들을 봐야하는지 알 수 있었다.