고려대학교 DMQA 연구실

Advanced Image Style Transfer Using Convolutional Neural Networks

2018년 7월 18일 오후 1:08
조회수: 3209

REFERENCES

Advanced Style Transfer using CNN_이지윤.pdf

INFORMATION

2018년 7월 20일
오후 1시 ~
고려대학교 신공학관 218호

발표자:

이지윤

TOPIC

Advanced Image Style Transfer Using Convolutional Neural Networks

OVERVIEW

이번 주 Open DMQA 세미나입니다. 관심있는 모든 분들 편하게 오시면 됩니다.

제목: Advanced Image Style Transfer Using Convolutional Neural Networks

요약: 이미지 데이터를 활용한 딥러닝은 다양한 분야에서 이용되어왔다. 대표적으로 Contents Image와 Style Image의 역할을 하는 두 이미지가 주어졌을 때 Contents Image의 형태와 Style Image의 질감을 조합해 새로운 그림을 그려주는 'Style Transfer'연구가 있다. 하지만 주어진 두 이미지의 특성에 따라 조합을 하는 과정에서 다양한 문제가 발생하며, 이를 보완하기 위한 후속연구들이 활발히 이루어지고있다. 본 세미나에서는 딥러닝을 활용하여 이미지를 분류하는 과정에서부터 Style Transfer의 원리를 구조적으로 설명하며, 조합과정에서 발생하는 왜곡을 줄여주기 위해 기존 Loss function을 확장시킨 'Deep Photo Style Transfer'를 소개한다.

발표자 후기

이지윤

이미지 데이터는 상대적으로 구조가 복잡하고 차원이 큰 특징을 갖고 있는데, 이미지의 공간정보를 유지 하며 학습이 가능하다는 점에서 최근 딥러닝 모델을 기반으로 분석에 사용되고 있고, Image Classification, Image Detection, Semantic Segmentation과 같이 관련 응용 연구가 활발하게 이루어지고 있어 이미지 응용 분야 중 하나인 ‘Style Transfer using Convolutional neural net’에 대해 소개하고, 이후 해당 모델의 한계점을 지적하며 개선한 Style Transfer 방법론들에 대해서도 공유하는 시간을 가졌다. Style Transfer application 연구 방향을 크게 두 경우로 나누어 정의를 해보았다. 첫 번째는 Pre-trained networks를 기반으로 ‘이미지’를 학습, 두 번째는 GAN기반으로 Style Transfer ‘모델’을 학습시키는 경우이다.

(후자의 경우 대표적으로 Pix2Pix, Cycle GAN : 이미지를 Label 혹은 다른 이미지의 Set에 대해 GAN 기반 모델을 학습하여 추후 새로운 입력이미지에 대해 Style을 생성해주는 모델)

금일 세미나에서는 전자인 Pre-trained networks를 기반으로 ‘이미지’를 학습시키는 방법론에 초점을 맞추어 진행하였다.

세미나를 준비하면서 각 목적에 부합하는 Loss function을 구성하는 과정을 이해하기 위해 가장 많은 시간이 할애된 것 같다. 수식을 이해하기 위해서 기본적으로 각 변수들의 의미를 이해해야 하는데, 이 과정에서 CNN의 구조에 대해 더 정확히 이해해볼 수 있는 시간을 보낼 수 있었고, 혼용되던 용어들도 정리할 수 있었다. 간단하게 이해하는 것과 논문들을 한줄 한줄 소화하는 것이 큰 차이가 있다는 것을 느낄 수 있었던 뜻깊은 시간을 보냈던 것 같고, 추후 해당 Application 논문을 수용할 때 보다 빠르게 이해할 수 있을 것 같다는 기대감도 생겼다. 또한 이미지 데이터가 아닌 다른 데이터 구조에서도 Style Transfer연구가 이루어 지고 있는데, 데이터의 특성에 따라 ‘Style’을 어떻게 수식적으로 정의하고 있는지에 대해 추가적으로 알아봐야겠다는 생각을 했다.

청취자 후기

박성호

금주 세미나는 Style transfer learning 및 Multiple image 정보를 활용한 그림 추천에 대한 연구 소개였다. Style transfer Learning은 Pre-trained network 기반 학습기법과 GAN을 이용한 기법으로 구분된다. 본 세미나에서는 Pre-trained network 기반 Style transfer learning에 대한 소개가 이루어졌다. Style transfer learning은 Input으로 Style와 Content 2가지 이미지가 필요하다. 최종 Output은 Style와 Content 두 가지 측면에서 유사해야 하기 때문에 각각의 Loss를 정의하고 두 Loss를 최소화하도록 학습된다. 핵심은 Style를 반영하는 feature map과 Content를 반영하는 Feature map를 정의하는 것이다. Content의 경우 Pre-trained network의 끝에 있는 레이어를 사용하고 Element-wise l2 norm loss를 사용한다. Style의 경우 Extracted 된 여러 개의 Channel 간의 Correlation matrix를 추출하고, Correlation matrix 간의 Loss를 이용해 학습 한다. 인상 깊은 부분은 Feature map의 각 Channel를 Style 그림 특성으로 간주하고, 그림의 전체적인 Style 패턴을 Channel 가 Correlation matrix로 간주한 점이다. 대상이 그림인지 또는 사진인지에 따라 loss function의 달라진다. 발표자는 현재 진행 중인, image+text+meta information을 활용한 그림 추천연구에, style transfer 부분을 추가해서 그림의 정보를 좀 더 다각도로 반영해보고자 하였다. 추가적인 정보를 사용하는 것도 좋지만, 현재의 연구를 추천시스템에서 좀 더 바라볼 필요가 있지 않을까 생각해본다. 현재는 주어진 정보와 가장 유사한 그림을 추천해주는 프로세스를 갖고 있다. 추천시스템 입장에서 기존에 참고한 image+text+meta와 유사한 그림을 추천해주는 것도 좋지만, 추천 받는 소비자의 취향에 따라 만족도가 달라 질 수 있다고 생각한다. 기존의 추천시스템 연구를 좀 더 살펴보고, 한 발짝 뒤에서 연구를 생각해 볼 필요가 있다고 생각한다.

안건이

오늘 지윤이가 “Advanced Style Transfer Using Convolutional Neural Networks”라는 주제로 발표를 진행해 주었다. 개인적으로 매우 뜻 깊은 세미나였다. 기본적으로 내가 세미나를 이해한 바로는 이미지의 Style과 Content를 고려하여 새로운 이미지를 생성해주는 것이 이 논문의 컨셉이다. 먼저 Large Scale의 이미지를 학습한 CNN을 가져온다. 논문에서는 Pre-trained CNN이라고 명하고 있다. Pre-trained CNN에서 끝 단인 FC 부분을 제거하고 Flatten 전에 있는 Feature Map 까지를 가져온다. 그래서 Style을 반영하고 싶은 이미지와 Content를 반영하고 싶은 이미지를 넣어주면 두개의 이미지를 동시에 반영한 새로운 이미지가 생성되게 된다. 먼저 Style을 반영하는 부분을 살펴보면 Style을 반영하기 위해서는 전체적인 Feature를 비교해야한다. 따라서, 논문에서는 각각의 Feature Map의 Channel을 각각 Flatten 하여 새로 만들어질 이미지와 correlation을 같게 만들어준다. 이 Channel의 Correlation을 표현한 매트릭스를 Gram Matrix라고 한다. 이 Gram Matrix와 새로 만들어질 이미지의 Gram Matrix와의 차이를 Loss Function으로 정의하여 Loss를 Minimize 해주게 된다. 다음으로 Content를 반영하기 위해서는 각각 Pre-trained CNN에서 뱉어준 Feature Map을 픽셀 단위로 Loss Function을 계산하게 된다. 이렇게 Style에서 계산된 Loss 와 Content에서 계산 된 Loss를 합하여 최소로 하는 새로운 이미지를 생성하게 된다. 실제로 고흐 Style의 그림과 그냥 건물에 대한 Content 그림을 넣었을 때 새로운 이미지는 고흐 Style의 건물 Content 그림이었다. 매우 흥미로운 결과로 생각 된다. 처음 세미나를 준비하면서 힘든 점도 많았을 텐데 열심히 준비하고 뜻 깊은 논문을 소개해준 지윤이에게 진심으로 고맙다.

채선율

오늘 세미나에서는 image style transfer에 대한 내용을 다루었다. Style transfer란 어떤 사진 혹은 그림이 두 장 있을 때 한 장에 있는 내용은 그대로 두고 다른 사진 혹은 그림의 분위기를 입힐 수 있는 기법이다. 모바일 어플리케이션에서 사진을 찍을 때 필터를 어떤 것을 선택하느냐에 따라 같은 사진이라 하더라도 분위기가 달라지는데, 그 필터를 다른 사진으로부터 가져온다고 생각하면 쉽게 이해할 수 있다. 기준이 되는 이미지를 content image라고 하고 분위기 혹은 화풍을 가지고 오고자 하는 이미지를 style image라고 한다. 학습은 pre-trained CNN을 가지고 하며 classification에 사용되는 마지막 layer를 제거하고 feature map만을 이용한다. Synthesized image 생성 시 사용하는 loss function은 content loss와 style loss로 구성되어 있다. Content loss는 feature map간의 squared error를 사용하고 style loss는 layer-wise하게 feature map의 correlation을 사용하는 것이 특징이다. 이외에 edge detection을 통해 전처리를 하여 성능을 향상시키거나 segmentation을 통해 좀더 input image의 구조를 보존할 수 있는 발전된 style transfer 모델에 대해서도 소개하였다. 끝으로 발표자가 지난 학기에 했던 term project의 내용을 소개하면서 이 project에 style transfer를 어떻게 적용할 것인지에 대해서도 언급하여 흥미로웠다. 평소 관심 있었던 주제였는데 발표자가 해당 모델에 대해서 잘 설명하고 논문에 소개된 수식들도 비교적 자세히 다루었기 때문에 아주 유익한 시간이었다. 다만 term project의 결과물을 개선시키기 위해 style transfer를 적용한다면 어느 부분에 어떻게 적용할 것인가에 대한 더 많은 고민이 필요할 것 같다.

이상민

금일 세미나는 style transfer 기법들에 대해서 살펴보았다. 학습모델이 style을 참고하려는 이미지의 전반적인 painting style을 학습하여, 새로운 이미지에 대해 global structure만을 유지하면서 style을 적용하는 기법들을 통칭한다. 가장 중요한 개념은 gram matrix로 들 수 있다. gram matrix란 flatten feature maps 간 계산한 covariance matrix이다. locality pattern이 아닌, 이미지 내 반복적으로 나타나는 global pattern(화풍? 스타일? 이라는 용어로 표현할 수 있을 것 같다.)을 추출하기 위한 방법이다. 흥미로웠던 문헌연구는 photo style transfer 와 관련된 연구였는데, 그림이 아닌 현실적인 사진을 style transfer 하기 위한 연구였다. 이를 Pohotorealism이라고 하는데 이를 위해 foreground와 background를 구분할 수 있는 loss term을 추가하는 방식이었다. 흥미로운 연구들에 대해서 잘 소개해준 지윤이에게 감사의 인사를 전한다. 개인연구에도 큰 진전과 성과가 있기를 진심으로 바란다.

조윤상

오늘 전체세미나는 'Advanced Style Transfer Using Convolutional neural Networks'라는 주제로 이지윤 연구원이 진행하였다. 먼저 'Style Transfer'라는 개념이 재미있었다. 하나의 실 이미지에 색감과 점도 등의 스타일을 표현할 수 있는 이미지를 같이 학습하여, 실 이미지에 그 스타일을 입히는 방식이다. 우리가 흔히 카메라 앱에서 사용할 수 있는 스타일을 적용할 때 학습된 모델을 기반으로 적용한다고 생각하면 된다. 'Style Transfer'모델을 구축하는 방법은 Pre-trained networkds 기반으로 '이미지'를 학습하는 방법과 GAN(Generative Adversarial Networks)을 기반으로 'Style Transfer'모델을 직접 학습하는 방법이 있다. 오늘 소개해준 내용은 Pre-trained CNN(convolutional neural networks)을 사용한 '이미지'를 학습하는 방법이다. Pre-trained CNN을 이용한 'Style Transfer'는 같은 CNN에 대해 Style Reconstruction, Content Reconstruction 이 두가지 reconstruction을 진행한 것이다. Style Reconstruction에서는 layer가 얕은것에서 깊어질수록 texture를 복원하다가 원래 content정보가 포함이 되는 것이 특징이다. content reconstruction에서는 낮은 수준의 layer에서는 역시 원본이미지와 가깝게 보존하고 기어질수록 약간의 손실이 있을 뿐 거의 원본이미지와 유사하다. 즉, 스타일 특징을 추출하고, 스타일을 적용할 이미지의 특징을 추출한 후 reconstruction loss를 기반으로 학습한 후 그 두가지가 결합된 결과물을 도출하는 방식이다. 이 개념을 적용한 추천시스템 프로젝트 사례도 소개해주었다. 작가 정보와 그림, 그림에 대한 설명(text)를 활용하여 유사한 그림을 추천하는 프로젝트이다. 즉, 글과 이미지의 특성을 잘 추출하여 유사한 작품을 추천하는 방식으로, 이미지를 설명할 때 'Style Transfer'라는 개념을 적용하여 style과 원본이미지 구조를 설명하는 특징을 도출하여 유사 작품을 찾는 방법을 이용한 것이다. 오늘 세미나로 'Style Transfer' 개념과 그를 응용한 사례까지 볼수 있는 흥미로운 시간이었다.

성유연

금일 세미나는 CNN을 활용한 Advanced Image Style Transfer에 대한 주제를 다루었다. 발표자가 비정형 수업 프로젝트에 활용한 소재를 심화시켜 이미지 데이터의 style transfer를 진행하는 논문을 소개했다. 논문의 핵심은 Pre-trained Multiclass CNN 모델의 feature를 부분적으로 활용해서(classification만을 위한 feature 제외) 새로운 그림과 기존 그림의 style이 같도록 학습시키는 것이다. 이미지 데이터의 style은 CNN 모델의 feature map과 feature map의 correlation(gram matrix)으로 사전 정의한다. 결국 기존 그림의 gram matrix와 새로운 그림의 gram matrix의 loss 차를 최소화 시켜 새로운 그림에 기존 그림의 style을 입히겠다는 의미를 갖는 것이다. 논문의 시각화 된 결과를 봐도 style loss를 계산하여 추가하는 아이디어가 성공적이었다는 것을 알 수 있었다. 이미지 도메인에서 신선하게 활용 될 수 있는 분석 리뷰였다고 생각한다.

곽민구

금일 세미나는 CNN을 활용한 Style Transfer에 관하여 진행되었다. Style Transfer에서 기본적으로 사용되는 모델은 ImageNet 등의 데이터로 미리 pre-trained 된 CNN이다. 미리 학습된 모델을 기반으로 총 2개의 image와 1개의 white noise (학습해야 하는 decision variable)이 입력된다. Style을 학습하기 위한 이미지와 Content를 학습하기 위한 이미지가 있는데, Style은 feature map의 covariance 형식인 Gram Matrix로 정의되며 Content는 pre-trained 된 마지막 layer의 feature map으로 정의된다. white noise가 같은 모델을 통해서 나온 output 값이 각각의 Gram Matrix, Content와 유사하게 변하도록 학습하는 과정을 통해 style & content를 복합적으로 섞을 수 있다. 이러한 모델의 변형으로 색채가 단조롭고 여백이 많은 동양화의 style을 학습하는 모델, segmentation 성능을 섞은 모델 등 다양한 종류에 대한 컨셉을 소개하였다. 마지막으로 발표자가 style transfer를 연구하게 된 이유였던 지난 학기에 진행하였던 프로젝트에 관해서도 소개를 하였다. 그림 작품에 대한 abstract 텍스트 데이터, 이미지 데이터, 메타 데이터의 유사성을 학습하여 그림을 추천해주는 알고리즘을 개발하였는데, 데이터에 대한 고민과 더불어 모델 구성에 대해서 여러 시도를 해보았다는 것을 느꼈다. 또한 모델 구성뿐만 아니라 결과에 대한 해석에 있어 적합한 설명을 해주었다고 생각한다. Style transfer를 기존 프로젝트에 적용하는 방법에 대해서 짧은 토의가 있었는데 앞으로의 연구에 많은 도움이 되었으면 한다.

조용원

금일 세미나는 사진의 변환에 관한 내용이었다. Content라 부르는 사진 입력변수와 Style이라 부르는 일종의 화풍과 같은 입력변수를 Convolution NN으로 처리하여 두 사진을 합성하는 방법에 관한 내용이었다. 입력변수로 2장의 사진을 사용하지만, 코딩과 관련하여서는 3개의 사진이 필요 했는데, 나머지 하나는 noise와 관련된 사진이다. 처음으로 사진 noise와 사진 style의 픽셀값들을 유사하게 하는 Loss Function을 이용하여 noise를 세팅한 후, 사진 Content와 세팅한 noise사진을 맞추어가면서 사진을 변환해가는 방법론이다. 이 때 Gram matrix를 이용하여 사진에 대한 텐서의 원소들을 서로서로 비교하며 Loss값들을 줄여나간다. 또한 CNN을 이용하지만, 마지막에 Fully Connected Layer를 제거하여 CNN 모델을 생성한다. 일반적으로 FC Layer를 이용하여 특정 이미지 데이터를 분류를 위해 labeling을 하는데 사용하지만, 여기서 이를 사용하지 않음으로써, feature extraction을 가능하게 하였다. 이를 학습하여 Pre trained CNN을 생성해두고 학습에 사용된 이미지들과 유사한 특징을 가지는 사진들을 원하는 화풍의 사진으로 변환하는 것이다. 하지만 Gram matrix를 (feature map)^t ∙ (feature map) 를 사용하는것 보다 사진에 대해서 원하는 형태에 대해 구역을 나눈 뒤, 이를 labeling을 진행한 후 변환하여 Gram matrix를 만들어 CNN을 학습시키고 이용 하였을 때, 더 좋은 결과가 나왔다.

지금까지 카메라와 관련된 어플을 사용하면서 이러한 효과를 주는 것에 대해 궁금점이 있었는데, 이를 해결해주는 유익한 세미나였다. 책에서 보던, image데이터를 분류용으로 사용하는 CNN이 아닌 현실에서 사용되는 이미지 처리에 관련한 내용이라 CNN이 사용될 수 있는 또 다른 분야에 대해 알 수 있었다.

이영재

오늘 세미나는 CNN(convolutional nerual network)를 이용한 style transfer(사진 변환)에 대한 내용이었다. 특히 미리 학습된(Pre-trained) 네트워크를 기반으로 이미지 학습을 하는 부분이었다.

이 방법은 content와 style을 입력변수로 받고 두 이미지로부터 각각의 특성을 담는 새로운 이미지(output)를 만들어내는 것이다. 이를 위해서 미리 학습된 네트워크에서 content와 style의 feature map 을 추출하고, output의 feature map과 content의 feature map이 비슷해지도록 하고, style의 feature map과 비슷해지도록 optimize를 하여 원하는 이미지를 얻는 방법이었다. content간의 차이는 content loss 를 측정하는데 feature map간의 차이의 norm 제곱으로 정의되었고, style loss 는 각 feature map에 대한 gram matrix를 구하고 gram matrix 간의 차이의 norm제곱에 가중치를 두는 것으로 정의되었다.

total loss는 loss function들의 합으로 정의되고, loss function에 total loss function에서 정의된

alpha, beta의 비율에 따라서 output이 content image를 유지하는지의 여부를 알 수 있었다.

세미나를 통해서 CNN 방법이 어떻게 쓰일 수 있는지 다시 한번 알게 되었고, 깊이 있게 공부할 필요성을 느끼게 되었다. 또한 용어와 식에 대한 이해도가 높아져 세미나를 참여했을 때, 집중있게 듣게 되었고 공부할 부분을 찾을 수 있어서 뜻 깊은 시간이었다.

알수없음

오늘 세미나는 합성곱 신경망을 사용한 이미지의 콘텐트와 스타일의 Transfer Learning였다. 세미나의 제목을 보고 스타일을 전환한다? 바꾼다? 라는 말이 생소했다. 본 세미나가 시작되어 Transfer Learning에서 Pre-trained 네트워크를 기반으로 시작된다는 것을 설명 받았다. 이미지 자체가 코드 구현으로 보면 Noise가 섞인 것 까지 포함해서 총 세 가지 이미지이지만, 개념적으로 볼 때 ‘콘텐트와 스타일’ 이미지 두 종류가 필요하다. 여기서의 콘텐트는 이미지 한 장에서의 굵직한 건물 혹은 뼈대가 되는 첨탑 등의 상징적인 것이고, 스타일은 이미지에서의 Background 혹은 풍경이라 생각하면 되겠다. 본 알고리즘의 학습 핵심은 Input된 각 콘텐트와 스타일 이미지의 Loss 함수 연산과 Gram Matrix이다. Gram matrix란 Flatten 한 Feature map들 간에 계산된 Covariance matrix이다. 논문의 실례였던 건물과 건물 내부의 불빛이 Transfer Learning 을 거쳐서 CAE처럼 복원되었던 설명이 특히 인상에 남았다. 생소하고 어려웠던 개념이지만 수식에 대한 설명까지 꼼꼼히 챙겨 본인의 것으로 소화해 발표를 해 준 지윤이에게 감사하다.

도형록

금일 세미나는 advanced style transfer using convolutional neural networks라는 주제로 진행되었다. Style transfer라는 주제에 대해서 자세히 들어본 적이 없었는데, 이번 기회를 통해 접하게 되었다. Style transfer는 이미지에서 context와 style을 정의한 뒤, context의 이미지에 style의 화풍을 적용하는 것으로, 여러가지 재미있는 결과들을 만들어 낼 수 있는 것 같다. 발표자가 소개한 style transfer 방법은 사전에 train된 CNN classifier를 이용하는 방법과 GAN을 이용하는 방법이 있었으며, CNN classifier를 이용하는 방법을 소개하였다. CNN classifier를 미리 학습시켜 둔 뒤, 새로운 이미지를 생성할 때, 타겟이 되는 style 이미지와는 style loss가 minimize되도록, 타겟이 되는 context 이미지와는 context loss가 minimize되도록 학습하여, style 이미지에서는 style을, context 이미지에서는 context를 추출해내는 방식으로 작동한다. 재미있는 주제에 대해 너무 사진이나 예시에 치우치지 않고 전반적인 내용을 잘 전달했다고 생각한다. 추가로, graph-based art recommendation system에 대해서도 발표를 진행하였는데, text와 image 그리고 meta 데이터를 이용하여 간단하지만 의미 있는 similarity를 정의한 것 같다. 유사 연구를 찾아보고 제안하는 recommendation system을 적절하게 평가할 수 있는 방법을 찾는다면 연구를 잘 마무리 할 수 있는 수준까지 진행이 된 것 같다.

이창현

오늘 세미나는 Advanced Style transfer using CNN 이라는 주제로 이지윤연구원이 진행하였다. 이미지 분석을 위해 딥러닝을 이용하게 되는데 그 중에서도 CNN 이 가장 널리 쓰인다. Image classification, detection, activation, sematic segmentation 등의 방법론이 주로 쓰이는데, 오늘은 Style transfer 라는 새로운 분야에 대한 논의가 이루어 졌다. 기존 그림(contents) 에 새로운 Style 을 입혀 Synthesized image 를 생성하는 방법론으로, pre-trained CNN 을 이용한다. Large dataset 을 이용하여 CNN 을 학습시킨 후 FC layer 를 제거하고, 새로운 Data 에 대하여 FC Layer 를 학습하여 Feature Extraction 도구로 활용한다. White noise 로 생성된 input image 와 Style, Content image 와의 Loss 를 최소화 시키는 방향으로 학습이 진행 되면 Content image 의 macro 한 특징을 보존하면서, Style image 의 전반적인 특징들이 어우러진 새로운 image 가 생성되게 된다. Content image 의 특징을 좀더 잘 보존하기 위하여 segment 를 구분하여 학습 시 더 좋은 결과를 얻을 수 있다. 이 논문에서 image 의 Style 을 찾기 위한 방법으로 gram matrix 라는 개념을 이용하였는데, 이 정보는 결국 image 의 전체적인 texture 를 표현한다고 볼 수 있으며, 기존 이미지 분석 모델에 이런 texture 를 반영하는 부분을 추가 한다면 더 좋은 성능의 모델을 만들 수 있을 것 같다. 오늘 세미나를 통하여 이미지 분석에 대한 새로운 기법을 배울 수 있어 좋았고, Texture 가 가지는 의미에 대하여 좀 더 공부한다면 다른 분야의 데이터에도 적용할 수 있지 않을까 라는 생각을 하게 되었다.

이민정

오늘 세미나는 style transfer에 관한 내용이었다. Pre-trained CNN, Style, Content, Loss function을 차례로 설명하면서 이해를 심화시켜주어서 이해하기 수월하였다. 또한 사진과 동양화 등에서는 어떻게 style transfer가 이루어지고 있는지 여러 심화된 모델들에 대한 설명 및 결과들을 살펴볼 수 있어서 흥미로웠다. Image Style Transfer Using CNN이라는 논문은 ImageNet의 수많은 이미지로 잘 학습된 VGG Net을 이용한다. 이미지의 Style을 잘 학습된 CNN의 각 layer의 Feature Map들 간의 correlation, Gram Matrix로 정의하게 되는데 왜 Gram matrix로 Style이 표현되는가를 이해하는데서 어려움이 있었다. Input의 동일한 위치에서 다른 특징이 학습된 Filter로 Feature Map이 뽑아지고 그들의 관계가 Gram matrix로 표현되는 것인데 이것이 왜 화풍이 되는가 또한 이미지가 아닌 다른 데이터로 CNN을 학습하고 똑같이 Gram matrix를 구한다면 이는 무엇을 나타낼 것인가 궁금증이 생겼다. 제일 흥미로웠던 것은 발표자가 비정형 프로젝트 시간에 진행했던 Art recommendation system에 대한 발표였다. 실제 내가 사이트 사장이라면 직접 돈을 주고 사용할 수 있을 정도라고 생각이 들었다. 다만 모든 작품끼리 distance matrix를 구해서 저장하고 있어야 된다는 recommendation 방법론 자체에 대한 문제점이 크다고 생각이 들었다. Meta 데이터의 Style이라고 작가가 정해놓은 작품의 tag들이 있었는데 각 style마다 앞에 style transfer 쪽에서 설명된 gram matrix를 구한다면 정말 비슷하게 위치할 것인가 궁금하기도 했고 지금은 15개지만 더 상세한 style tag를 나누는 데에 gram matrix가 사용되면 또다른 application이 만들어 질 수 있을 것 같다고 생각도 들었다.

김영훈

오늘은 Image Style Transfer에 대해서 자세하게 배울 수 있었다. Image Style Transfer는 기본 이미지가 원하는 이미지의 Style을 갖도록 이미지를 최적화하는 방법이다. 기본적으로 미리 학습된 네트워크를 가져다 놓고 Contents Loss와 Style Loss를 최소화하도록 새로운 이미지를 최적화하는 방법이다. 여기서 Contents Loss는 Convolution Filter Feature Map의 각각의 값과의 차이로 정의한다. Feature Map의 하나의 원소값이 특정 이미지의 형태를 내포한다는 것은 잘 알려진 사실이다. 여기에 근거해서 이러한 Loss를 정의하게 된 것 같다. Style Loss의 경우 Gram Matrix로 정의하게 되는데 Feature Map 간의 상호 상관관계를 계산해서 정의하게 된다. 이것은 우리가 새롭게 만들어 내는 이미지의 색 배열이나 Texture의 상태를 반영하기 때문에 Contents Loss와 함께 최소화할 경우 모양은 비슷하면서도 Style이 원하는 이미지와 비슷하게 되는 이미지를 생성할 수 있게 된다. 최근 이러한 Image Style Transfer 기능을 좀 더 향상시키기 위한 연구들이 진행되고 있다. 특히 특정 부분을 미리 Segmentation하고 Segmentation 된 부분의 Style이 유사하게 되도록 하는 연구가 흥미로웠다. 더 다양한 Loss들이 발견된다면 좀 더 흥미로운 결과들이 나올 수 있을 것 같다. 발표자의 연구와 관련해서는 기존의 Embedding에만 의존했던 방식에서 벗어나 Texture나 Contents를 반영하는 유사도를 이용해 좀 더 정확한 추천을 하도록 하는 방식이 흥미로웠고 잘 진행된다면 좋은 연구가 될 수 있을 것이라 생각되었다.

Seminar