[참석 후기]

Naver AI Colloquium이 삼성동 인터콘티네털 호텔에서 열렸다. Naver 회사가 어떤 연구 및 기술에 초점을 맞추고 있는지 알 수 있었으며, 초청 인사들을 통해 Natural Language Processing의 최근 연구 동향을 파악 할 수 있었다. 개인적으로 Natural Language Processing 분야의 연구를 하고 있기 때문에 연구 흐름을 파악하는 것과 미래의 연구 방향에 대해 영감을 얻을 수 있었다. 외부 행사에 초청받아 관심 있는 발표를 경청하고 토의하면서 스스로 성장할 수 있는 색다른 기회였다고 생각한다.

 

[청취 후기]

Cross-media Image Search 

이 발표에서 다룬 내용은 Naver가 현재 검색 엔진으로써 상용화 시킨 알고리즘으로, text와 image를 embedding시켜 질문자의 query에 가장 적합한 답을 해주도록 한다. Text query를 날렸을 때 사용자가 찾는 image를 제공해주는 데에 semantic gap을 줄여주는 것을 목적으로 하며 이미지가 사용자에게 제공되는 순서를 고려하는 ranking-based method이다. Text query가 들어오면 text를 parsing하여 simple stage에서 여러 visual representation을 획득한다. 그 다음, 여러 visual representation을 weighted average 하여 그 visual representation을 대변한 후에, 가장 유사한 image를 가져오는 것이다. 여기서 핵심은 image와 text를 같은 공간에서 embedding하여 그 semantic이 갖게 하는 것인데, 간단하지만 효과적인 방법이었다고 생각한다. 하지만, simple stage에서의 image feature결과에 의존적이기 때문에 최종 이미지 ranking이 유연하지 않을 수 있는 한계점이 있을 것 같다.  

 

DialogWAE: Multimodal Response Generation with Conditional Wassertein Auto-encoder

Chatbot에 주로 사용되는 Dialogue 모델은 query에 대한 answer을 할 때 지나치게 안정성을 찾는다는 점에서 한계점이 있다. 예를 들어, 모델이 query에 대해 알지 못할 때, 가장 안전한 “I don’t know”나 “good”이라는 한정적인 대답을 한다는 것이다. 이 이유는 모델이 학습한 text 데이터의 문맥 ground truth가 다르기 때문인데, 본 모델은 이 각기 다른 ground truth를 반영하기 위해 기존 GAN 모델에서 latent variable과 multimodal prior을 추가한 것에 의의가 있다. 2개의 generator 안에 latent variable을 포함시켜 dialogue의 대화를 생성하고 1 개의 discriminator로 wassertein 거리로 추정하여 생성된 대화를 식별하는 기능을 갖는다. 이 결과, 기존 생성 모델보다 좋은 결과를 보였고, 모호한 query의 의미를 캐치한다는 점에 의의가 있다. 2019년에 ICLR에 개재될 논문이라고 하니 계속 관심을 가져야겠다.