- 2023년 9월 15일 오전 10:28
- 조회수: 20054
INFORMATION
- 2023년 9월 15일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Personalization with Diffusion Models라는 주제로 진행되었다. 세미나 초반부에 Image Editing과 Personalization과의 차이를 설명하였는데 이해하기로는 이미지 자체를 인식하고 보다 개인적인 요구사항에 맞추어 수정 즉, 결과적으로 Image Editing 보다 대상을 이해하는 능력이 더 높고 변경하는 범위도 훨씬 큰것으로 이해하였다. 이어서 Diffusion Model의 발전과정을 순차적으로 설명하였는데 DDPM부터 시작해서 Personalization까지 자연스럽게 발전과정을 알수 있어서 흥미로웠다. 최근 여러번의 Diffusion 관련 세미나를 청취하였는데 순차적으로 세미나가 구성되어 한편의 Diffusion 강의가 되는것 같았다. 그리고 설명 또한 쉽게 잘해줬기 때문에 해당 분야를 많이 공부해보지 못했지만 이해하는데 무리없이 청취할 수 있었다. Personalization 관련해서는 지난 몇번의 연구미팅에서 스페셜 토큰이라는 개념을 접했지만 스페셜 토큰이 정확히 무엇을 의미하는지 제대로 이해하지 못했었는데 본 세미나를 청취 하면서 좀더 의미를 이해할 수 있었던것 같다. 본격적으로 Personalization 관련 3가지의 방법론을 소개하였는데 Textual Inversion과 DreamBooth는 스페셜 토큰의 임베딩만 Fine-tuning 할건지 Diffusion Model 레이어 전체를 Fine-tuning 할건지에 따라 차이가 있었으며 이로 비롯한 문제점과 해결방안에 대하여 설명하였다. 이어서 Custom Diffusion 방법론을 설명하였는데 이는 Diffusion Model의 일부 레이어만 Fine-tuning 하였다. 레이어 별로 파라미터의 변화량을 보여주는 부분은 개인연구에서도 성능에 따른 결과를 일부 해석할 수 있을것 같아 써먹어야겠다는 생각이 들었다. Diffusion Model이 실생활에서 이미 많이 활발하게 사용되어지고 있지만 Personalization 연구가 진행됨에 따라 또 한번 엄청난 충격을 사람들에게 주지 않을까 라는 생각이 든다. 이처럼 유익한 세미나를 준비하느라 고생하였을 장건희 연구원에게 감사의 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 "Introduction to Personalization with Diffusion Models"를 주제로 진행되었다. 짧은 시간 동안 매우 많은 내용을 다뤘음에도 각 개념과 논문에 관한 핵심 내용을 파악하는데 굉장히 좋았다. 본 세미나에서는 먼저 Image Editing과 Personalization의 차이점에 관한 설명을 시작으로 diffusion model의 발전 과정을 소개해 주었다. 간략한 요약은 아래와 같다.
* Image editing은 입력 이미지 자체를 다양한 방식으로 다양한 형태로 편집하는 것이라면, personalization은 입력 이미지의 대상을 다양한 프롬프트의 조합으로 다양한 상황 속에서 표현한다.
* diffusion 모델의 발전 과정은 총 4단계로 구성되어 있다.
1. Unconditional Generation: diffusion model 하면 떠오르는 가장 기본적인 DDPM(이미지의 노이즈를 추가하고 제거하는 과정을 반복하며, 이미지를 생성하기 위해 어떤 노이즈를 제거해야 하는지 학습) 방법론 설명
2. Conditional Generation: 기존 무작위로 생성하는 것이 아닌 입력되는 조건에 맞는 이미지를 생성
3. Image Editing: 입력으로 넣어준 텍스트를 수정해서 이미지를 생성하거나 입력 이미지에 대한 텍스트 조건을 추가로 넣어서 이미지 생성
4. Personalization: 입력 이미지의 대상을 학습, special token을 활용하여 다양한 프롬프트의 조합을 통해 입력 이미지 내 대상이 잘 반영된 이미지 생성
이후, Personalization과 관련된 논문 3 가지(Textual Inversion, DreamBooth, Custom Diffusion)를 소개해 주었다. 세 가지 방법론에서 공통으로 언급되고 있는 스페셜 토큰은 입력되는 이미지 내 대상을 나타낸다. 미세 조정하는 관점에서 세 가지 방법의 차이점이 존재한다. Textual Inversion은 스페셜 토큰에 대한 임베딩, DreamBooth는 Diffusion model 레이어 전체 그리고 Custom Diffusion은 주어진 텍스트가 이미지 분포에 mapping 되도록 파라미터를 업데이트하는 미세 조정 목적에 가장 영향을 끼치는 cross attention layer만 미세 조정을 진행한다. DreamBooth와 Custom Diffusion은 전체 그리고 cross attention 레이어를 미세 조정함에 따라 language drift라는 문제가 발생하는데 이를 적절하게 해결하여 다양한 컨셉의 입력 이미지 내 대상을 표현한다.
이번 세미나에서 소개된 세 가지 방법보다는 사실 GAN Inversion에 관심을 두게 되었는데, GAN Inversion은 입력 이미지 내 대상의 pixel을 조절하여 입력 이미지 내 대상 자체에 변화를 주는 것으로 생각된다. 개인 연구로 진행하는 Face Anti-spoofing (FAS)에서 다양한 샘플이 부족한 문제가 있는데, 기존 데이터 증강 기법과 더불어 해당 방법을 적용하면 좀 더 다양한 샘플을 얻을 수 있지 않을까 하는 생각을 하게 되었다. 건희의 섬세한 설명과 대면 질문을 통해 이해를 수월하게 할 수 있었다. 유익한 세미나를 준비해 준 건희에게 고마운 마음을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Diffusion Model에서 Personalization에 대해 진행되었다. Personalization은 Image Editing처럼 주어진 이미지를 변형하는 것이다. 일반적인 Image Editing은 주어진 이미지의 질감이나 스타일 정도를 변형시키지만, Personalization은 프롬프트를 활용하여 이미지의 형태 등 보다 고차원적인 편집이 가능하다는 특징을 갖는다. 이번 세미나에서는 3개의 논문을 소개하는데, 각 요약은 아래와 같다.
(1) Textual Inversion: Personalization화 하고자 하는 이미지를 스페셜 토큰[V]에 담음. 이를 위해 잘 학습된 Diffusion Model은 고정하고, 4~5개의 이미지로 [V]의 Embedding을 미세조정하는 방식으로 진행.
(2) DreamBooth: Textual Inversion처럼 단순하게 [V]의 Embedding만 미세조정하는 것이 아닌, Diffusion 모델도 함께 미세조정 수행. 하지만 이때, Continual Learning의 문제상황처럼 이전에 학습한 [V]의 다양한 형태를 모델이 잊어버리는 현상이 나타남. 이를 Class-specific Prior Preservation Loss로 극복
(3) Custom Diffusion: DreamBooth처럼 전체 모델까지 미세조정할 필요는 없고, 프롬프트와 이미지 간 Cross-attention Block들만 미세조정해도 충분하다는 것이 핵심. 추가적으로, 다양한 개념에 대한 Joint Training 및 학습에 적절한 데이터에 대해 선별적으로 학습하는 Regularization을 도입. (아직까지 Joint Training에 대해서는 잘 와닿지는 않음.)
이번 세미나를 통해 Personalization에 대해 처음으로 접할 수 있었다. 아직까지 Personalization의 흐름에 대해 상세한 수식까지는 아직 완벽하게는 이해하지 못했지만, 그래도 큰 맥락은 쉽게 이해할 수 있었다. 가장 핵심 개념은 Special Token에 대해 학습하는 부분으로 생각된다. 내가 바꾸고자 하는 이미지에 대해 충분히 이해한 후, 이것을 원하는 형태로 바꾼다는 원리이다. 개인적으로는 Attention처럼 “특정 부분만 집중해서 추가적으로 학습한다”는 컨셉이 새로웠다. 인간이 그림을 그릴때, 충분히 눈에 익숙한 것에 대해서는 안보고도 그릴 수 있는 역량이 생기고, 이를 통해 자연스레 다양한 응용 그림이 생기는 원리랄까.. 개인적으로는 정말 재미있게 청취하였다. 유익한 세미나를 준비해준 장건희 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

해당 세미나는 디퓨젼 모델 기반의 personalization을 주제로 진행되었다. Personalization 이란 image editing의 일종으로, 입력 이미지에 대한 정보를 special token으로 학습시키고 이를 바탕으로 텍스트 프롬프트를 입력 받아 이미지를 편집한다. 예를 들어 강아지 이미지를 편집할 때, 일반적인 강아지들이 아닌 ‘하얀마음 백구’라는 특정 이미지를 입력으로 넣어 하얀마음 백구라는 이미지를 special token으로 학습하고 이에 대한 편집을 수행한다. 본 세미나에서는 총 3가지 personalization 방법론에 대해 설명한다
[1] Textual inversion : personalization의 시초격인 논문으로 이미지에 대한 special token을 학습하는 것을 처음으로 제안하였다.
[2] DreamBooth : textual inversion에서는 special token 을 학습하는 embedding layer만 fine-tuning하였지만, DreamBooth는 디퓨젼 모델 전체를 fine-tuning 한 방법론이다. 이때 모델 전체를 fine-tuning할 경우 language drift로 인해 이전에 학습한 정보들을 잊는 문제가 발생하는데 이를 class specific prior preservation loss로 해결하였다. Class specific prior preservation은 입력으로 넣어준 special image와 함께 동일한 class의 이미지를 pair로 넣어 학습하는 방식이다.
[3] CustomDiffusion : 마지막으로 CustomDiffusion에서는 디퓨젼 모델 전체를 fine-tuning하는 것은 상당히 비효율적이기 때문에, 디퓨젼 모델 내부 중 ‘Cross attention layer’만 fine-tuning하는 방식을 선택하였다.
본 세미나를 통해 personalization에 대한 간략한 흐름과 방법론들에 대해 이해할 수 있었으며, 이런 유익한 세미나를 준비해준 장건희 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Personalization with Diffusion Model을 주제로 진행되었다. Diffusion models에서 이미지 editing이란 하나의 이미지를 다양한 방식으로 편집하는 기법이며 personalization은 이미지를 입력으로 주고 다양한 프롬프트의 조합으로 다양한 상황속에서 입력된 이미지를 표현하는 기법이다. 생성 모델의 발전 과정은 1. Unconditional Generation → 2. Conditional Generation → 3. Image Editing → 4. Personalization로 변화하였으며, 금일 세미나는 Personalization를 주제로 설명되었다.
첫 번째 논문은 Textual Inversion으로 이미지 내 대상을 스페셜 토큰에 담아 텍스트 프롬프트에 사용하는 방법으로 스페셜 토큰의 임베딩이 대상을 잘 나타낼 수 있게 fine-tuning 학습한다. 두 번재 논문은 DreamBooth로 이전과 다르게 Diffusion models 레이어 전체를 fine-tuning 하며 이로 인해 language drift와 이미지 다양성이 감소한다는 문제가 발생하지만, class-specific prior preservation loss를 도입하여 해당 문제를 해결하였다. 세 번째 논문인Custom diffusion은 모든 레이어를 fine-tuning 하지 않고, cross attention blocks중 일부 matrices만 fine-tuning하는 방법이다.
생성 모델 세미나를 들을 때 마다 모델이 출력하는 이미지가 다채롭기 때문에 세미나도 흥미롭게 들을 수 있는 것 같다. 해당 세미나를 들으며 왠지 모르게 다품종 소량생산이라는 단어가 생각이 났다. 사용자에 핏하게 더욱 잘 맞춰가는 모델들이 발전함에 따라 내가 원하는 이미지도 나중에 한 번에 뚝딱 만들어 줄 수 있길 기대해 본다. 좋은 세미나를 준비한 장건희 연구원에게 고생했다는 얘기를 전하며 세미나 후기를 마친다.

CFG와 LDM 이후 Conditional Generation을 위한 다양한 Diffusion 연구 분야가 늘어나는 추세이다. 지난 세미나에서는 생성된 이미지의 대부분의 요소는 그대로 두되, 자세나 색깔 등 일부 요소만 수정하는 Image Editing을 진우가 발표했다면, 금일은 Personalization이라는 분야에 대해 알아보았다. Personalization은 '내가 원하는 어떠한 사물'을 반영한 이미지를 생성하는 것으로 이해했다. 일반적으로 CFG 방식의 Diffusion model들은 텍스트나 클래스 레이블, 혹은 어떠한 장/단문의 프롬프트를 통해 이미지를 생성하게 되는데, 일반 명사나 기존의 어휘로 표현하기 어려운 어떠한 물체를 글로 표현하여 프롬프트로 주는 것은 매우 어렵다. (Diffusion 뿐만 아니라 대부분의 생성 모델이 다 겪을 것이다.) 따라서 Personalization은 사용자가 프롬프트로 표현하기 어려운 어떤 물체에 대한 임베딩을 학습하여 생성하기 위한 분야라고 볼 수 있다. 이게 무슨 말이지, 이런게 왜 필요한지 싶을텐데 12p에 보면 매우 좋은 예시가 나와 있다. 일반적으로 '달리는 고양이', '잠자는 사자' 등은 직관적으로 프롬프트를 적을 수 있지만, 12p 왼쪽에 있는 물체들은 일반 명사로 표현하기가 굉장히 어렵다. 그래서 이러한 물체들에 대한 텍스트를 사람의 언어로 바꾸지 않고 스페셜 토큰에 대한 임베딩으로써 Latent Space에 매핑하는 것이 Personalization의 주된 목적이라고 할 수 있다.
Textual Inversion, DreamBooth, Custon Diffusion에 대해 리뷰를 해주었다. 해당 논문들을 듣고 든 생각인데, 요즘 부상하는 Diffusion과 LLM 이 두 분야는 워낙 큰 모델을 쓰고 성능도 고점에 달하였는지 모델의 구조 개선이나 새로운 Loss Term 의 추가 등의 큰 변화보다는 Fine-tuning을 어떠한 방식으로 어디까지 적용할 것이냐, 데이터 셋을 어떻게 구축할 것이냐 위주로 풀어나가는 것 같다. Diffusin과 LLM은 보통 대량의 데이터로 사전 학습된 모델을 차용해서 그대로 가져다 쓰는 것이 주류인데, Google이나 Open AI와 같은 거대한 풀을 가진 기업이 아니면 아마 새롭게 어떠한 알고리즘을 제안하고 학습 시키는 연구를 수행하기 어렵기 때문으로 추측한다.
개인적으로 Personalization은 연구 분야로써는 대중적이진 않지만, 그래도 현업에서 가장 활용도가 높은 분야이지 않을까 생각한다. Personalization을 통해 나만의 로고나 나만의 UI 등을 쉽게 생성할 수 있기 때문이다. 개별 소비자의 개성에 맞는 커스터마이징에 가장 적합한 것 같다. 금일 세미나를 준비하느라 고생한 건희에게 감사의 말을 전한다.

Diffusion 모델 기반 Personalization에 관한 세미나를 청취하였다. Diffusion 모델은 강력한 성능을 가지고 있는 데이터 생성 모델로, 데이터 분포를 추정하여 분포에 알맞는 데이터를 생성할 수 있다. 20년도에 개발된 DDPM 디퓨전 모델을 기점으로 고품질의 다양한 이미지 데이터를 생성하는 것이 가능해졌는데, Unconditional 데이터 생성 --> Conditional 데이터 생성 (원하는 형태의 데이터 생성이 가능해짐) --> Image 편집 --> Personalization 순으로 디퓨전모델은 계속 고공행진하며 활발하게 연구되고 있는 듯 하다. 금일 세미나는 건희의 차분한 목소리를 배경으로, 디퓨전 모델의 고공행진 흐름을 명확하게 이해할 수 있었고, Personalization에서 유명한 여러 Diffusion 모델들을 이해하여 볼 수 있었다. 흥미로웠던 점들은 모델에서 파라미터의 변화량을 관찰해보면서, 이를 개선 포인트로 잡아간다거나, 모델이 특정 능력을 잃지 않게끔 Preservation Loss를 활용해본다 하는 것들은 지도학습에서도 유용하게 사용해 볼 수 있는 아이디어가 될 것 같다. 관련 연구로 열심히 건희가 진행하고 있는 것으로 알고 있는데, 잘 되어가기를 응원하며 세미나 후기를 마치도록 한다.