고려대학교 DMQA 연구실

2019 International Conference on Computer Vision - 이민재

2019년 11월 8일 오후 11:30
조회수: 518

Reviewed by

이민재

SinGAN: Learning a Generative Model from a Single Natural Image

요약하자면 SinGAN은 단일 이미지로부터 학습하는 무조건적인(unconditional) 생성 모델이다. SinGAN은 이미지 내 패치의 내부 분포를 잡아내도록 훈련 된 후 이미지와 동일한 시각적 내용을 전달하는 고품질의 다양한 샘플을 생성할 수 있다. SinGAN에는 완전히 컨볼 루션 된 GAN 피라미드가 포함되어 있으며, 각기 다른 크기의 이미지에서 패치 배포를 학습하게 된다. 이를 통해 가변성이 큰 임의의 크기 및 종횡비의 새로운 샘플을 생성 할 수 있지만, 전체 이미지와 트레이닝 이미지의 미세한 텍스처를 모두 유지할 수 있다고 한다. 이전의 단일 이미지 GAN 방식과 달리, SinGAN은 텍스처 이미지로 제한되지 않으며 조건부 (즉, 노이즈에서 샘플을 생성)가 아니다. 실제로 연구에 따르면 생성 된 샘플은 일반적으로 실제 이미지와 혼동된다는 것이 확인되었다고 한다. 끝으로 저자들은 다양한 이미지 조작 작업에서 SinGAN의 유용함을 보여줌으로서, GAN을 통한 이미지 작업의 지평선을 한 번 더 넓혔다고 강조한다.

ATTENTIONRNN: A Structured Spatial Attention Mechanism

이 제안 된 AttentionRNN 층은 공간적 래스터-양방향 래스터-스캔 및 역 래스터-스캔-또는 순서로 공간 값을 순차적으로 예측함으로써 공간적주의 변수에 대한 구조를 명시 적으로 강제한다. 이제는 정보를 선택적/효율적 그리고 효과적으로 선택가능하게 해주는 Attention mechanism은 현대 심층 아키텍쳐의 필수 구성 요소가 되었으며, 나아가 Multi-modal learning 문제에서는 빼놓을 수 없는 요소가 되었다. 하지만, 기존의 prior attnetion 프레임워크는 변수 사이의 구조적인 의종성을 명시적으로 모델링하기 어려워 일관성 있게 attention mask를 예측하기 어렵다. 이러한 문제 상황에서ATTENTIONRNN은 end-to-end trainable하며 어떠한 feed-forward CNN에도 쓰일 수 있는 구조를 제시한다. 제안된 ATTENTIONRNN의 layer은 순차적으로 공간적 마스크에 대해 attention 값을 양방향/역방향 raster-scan 을 함으로써, 구조가 명시적으로 공간적 attnetion 값에 의해 강제되도록 한다. 이 결과로 각 attention값은 지역 이미지와 그 주위 정보뿐만 아니라, 이전에 예측된 attention값에 의존하게 된다. 실험 결과 다양한 인식 작업 및 데이터에 대해 일관된 질적 개선을 보여주었다. 역시 모델로 하여금 어느 부분을 더 가중해서 반영해야 되는지를 학습시키는 attention mechanism은 이제 어떠한 임의의 sequential data에 대해서도 적용해볼만한 가치가 있는 것으로 보인다.

Memorizing Normality to Detect Anomaly: Memory-augmented DeepAutoencoder for Unsupervised Anomaly Detection

Deep autoencoder는 이상치 탐지에 광범위하게 사용되어 왔다. 정상 데이터에 대한 훈련을 먼저한 후, 이상치 threshold를 넘어서는 재구축 오차가 발생되는 데이터를 이상치라고 분류하게 된다. 하지만, 이러한 가정은 모든 상황에서 적용되는 것은 아니다. 사실 때때로 autoencoder가 이상치 마저도 잘 생성할 정도로 general하게 학습되는 경우가 있다. 이런 단점을 해결하기 위해서 memory module로 autoencoder를 보강하는 MemAE를 제안한다. 입력이 주어지면 MemAE는 먼저 인코더에서 인코딩을 얻은 다음 쿼리로 사용하여 재구성에 가장 관련성이 높은 메모리 항목을 검색한다. Test 단계에서는 학습된 메모리는 고정되고, reconstruction은 일반 데이터로부터 가져온 몇 record로 수행됨에 따라, reconstruction error는 작게 나올 것이다. 따라서, 이상치에 대한 재구축 오차는 더욱 강조되어 나올 것이다. 나아가 MemAE는 데이터 유형에 대한 가정이 없으므로 일반적으로 다른 작업에 적용할 수 있다.

[맺음말]

Computer vision은 사람의 오감 중 ‘시각’을 이용하는 직관적인 데이터라 그런지 실험 결과 또한 ‘재미’라는 요소를 가미하여 다양한 연구를 할 수 있는 부분이 많았다. 결과 자체가 ‘시각’이라는 요소로 스스로 explainable한 부분이 연구에 있어서 큰 동기 부여를 줄 것이라 생각했다. 반면, 산업공학의 데이터는 많은 부분 Log data를 다루는데, 결과의 직관적인 해석이 어려운 부분이 자주 발생한다. 데이터 분석을 수행하는 사람이 ‘사람’이라는 것을 감안하면 explainability는 연구의 질/흥미에 영향을 주는 주요 인자라고 생각하므로, log data의 analysis가 한층 의미가 있으려면 위 인자를 동시에 만족시키는 방향으로 연구를 하는게 바람직하다고 생각하였다. 나아가 산업공학이라는게 결국 직간접적으로 ‘인간’에게 유용함을 가져다주기 연구를 한다는 것이라면, 좀 더 실제 생활에 밀접하게 녹아내릴 수 있는 연구*개발을 하여 생활 속에서 ‘부가가치’를 창조하고 싶은 마음이 들었다. 현실적으로 많은 SOTA 모델은 Google, Facebook 같은 범세계적인 기업 연구소 중심으로 선행될 것으로 생각하므로, 내가 할 수 있는 일은 내가 처한 상황에서 해당 도메인에 적용하는 전문가가 되는게 아닐까 싶다. 나아가 Computer Vision(CV) 분야만이 하는 세부 분야가 있기도 하지만, NLP&RL 과 같이 다른 분야와 융합해서 하는 경우가 많았고 각 분야 간 상호참조로 서로 좋아보이는 것은 갖다가 쓰는 것 같다. 진짜 많아도 제출된 논문이 너무 많고, 또 정말 빠르게 바뀐다. 내일 해야겠지 생각을 하다간 그새 누군가가 하고 있을 것을 생각하니, 더더욱 오늘 한 생각은 오늘 행동으로 옮겨야겠다는 경각심이 절로 든다.