[학회 후기]
처음으로 참석하는 해외학회인 만큼 긴장감과 설렘을 가지고 학회에 참석하게 되었다. 24년도 ICLR은 오스트리아 비엔나에서 5/6(화)~5/11(토)까지 열렸다. 학회는 크게 오랄과 포스터 세션으로 구분되어 있었으며 오랄 세션이 진행된 이후에 이어서 포스터 세션이 진행됐다. 오랄 발표를 진행한 연구들도 이어지는 포스터 세션에 참석하여 단순히 발표에서 끝나는 것이 아니라 해당 연구에 대해서 토론할수 있는 기회가 있는 것이 좋았다. 생각보다 많은 사람들이 포스터 세션에 참가했으며 각 포스터 세션 앞에서 활발하게 토론이 이뤄졌다. 사람들의 주목을 많이 받는 연구는 질문하기 위해서 대기 시간이 상당히 길어지기도 했다. 연구자들끼리 조금더 활발하게 토론할 수 있도록 작은 세미나실에서 소규모의 세션들도 진행되었다. 생성모델과 관련된 세션에 참석해서 디퓨전 이후의 생성모델은 어떻게 연구되어 나갈지에 대한 연구자들의 토론을 듣게 되었다. 다른 연구자들의 견해를 들으며 내 의견도 한번 생각해볼 수 있는 좋은 기회였다. 학회에서 가장 좋았던점은 다양한 연구자들과 소통할 수 있는 기회였다. 단순히 연구 이야기만을 하는 것이 아닌 연구실에서의 생활 및 진로에 대한 고민 등 다양한 이야기들을 들을 수 있는 시간이였으며 앞으로의 연구실 생활을 고민해 볼 수 있는 좋은 계기가 되었다.

[발표후기]
포스터 발표는 2일차 오전에 진행됐다. 1일차 포스터 발표에서 굉장히 많은 사람들이 포스터 발표를 보고 디스커션을 진행하는 것을 봤기 때문에 긴장이 많이 됐다. 생각보다 많은 사람들이 연구에 관심을 가지고 질문을 해줘서 놀랐다. 질문자가 갑자기 몰리는 경우에는 질문을 하기 위해서 사람들이 포스터 앞에서 조금 기다리기도 했다. 이후에 포스터 발표 기회가 생긴다면 2명정도의 저자가 함께 포스터 앞에서 설명해 주는것이 우리 연구에 관심을 가지고 있는 사람들과 원활하게 토론하기 좋겠다는 생각이 들었다. 학회 발표를 하면서 영어 공부에 대한 필요성을 한번더 느끼게 됐다. 영어를 정말 유창하게 할 필요는 없지만 최소한 머리속에서 떠오르는 생각들을 표현할 수 있을 정도의 영어 실력을 필요하다는 것을 느꼈다. 내 연구에 대해 질문하는 포인트들을 통해 앞으로 어떻게 연구를 이어나갈지에 대한 다양한 아이디어를 얻을 수 있었다. 현재 연구의 한계점은 무엇인지, 한계점은 어떤 이유 때문에 나타나는 것인지, 그렇다면 해당 한계점은 극복이 가능한 것인지 등 디테일한 질문들을 통해 내 연구를 한번 더 깊게 생각해 볼 수 있었다. 

 [청취후기]
1. Improved Techniques for Training Consistency Models
Consistency model의 성능을 올리기 위한 학습 기법들을 분석한 연구이다. Consistency model은 모든 시점에서 노이즈가 제거된 깨끗한 이미지를 예측하는 모델로 이를 학습함으로써 노이즈에서 이미지까지 1 step으로 생성할 수 있는 모델이다. Consistency model의 학습 방법은 사전학습된 디퓨전 모델로부터 학습을 시작하는 distillation 방법과 처음부터 consistency model을 단독으로 학습하는 training 방식으로 나뉜다. 해당 연구에서는 training 방식의 성능을 올리기 위한 분석들을 진행했다. 디퓨전 모델 분야에서 많은 기여를 했던 Yang Song의 연구인 만큼 이번 학회에서 꼭 들어보고 싶은 발표였다. 전반적으로 발표를 듣는 사람들이 이해하기 쉽게 설명을 해주는 것이 인상적인 발표였다.

2. Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models
1~2명의 저자가 나와서 주로 발표를 진행하는데 4명의 저자가 나와서 기억에 남는 발표였다. 큰 사이즈의 이미지를 효과적으로 생성할 수 있는 디퓨전 모델 구조를 제안한 연구였다. 24*24 크기로 latent의 사이즈를 줄이기 위해서 여러 단계를 나눠서 진행하는 구조가 직관적이면서도 생각해보지 못했던 접근이라서 재미있었다. 오랄 세션 이후 포스터 세션도 방문하여 저자들과 간단하게 이야기를 나눴다. ICLR에 억셉 되기 전 3번의 학회에서 떨어지고 이번 ICLR에서 오랄 발표로 붙었다는 저자들의 이야기를 듣고 연구를 놓지 않고 끝까지 진행할 수 있는 끈기 또한 연구를 진행할 때 필요한 자세라는 것을 다시 한번 느낄 수 있었다.

3. DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
디퓨전 모델을 활용한 이미지 에디팅 연구로 드래깅 instruction이 주어졌을 때 에디팅을 진행하는 방법론이다. 이미지 내에서 의미적으로 비슷한 부분을 찾는 visual correspondence를 이미지 에디팅에 적용한 것이 인상적이었다. Visual correspondence는 주로 이미지에서 의미론적인 부분을 찾아주는 것으로만 생각했었는데 저자들의 경험에 따르면 이미지의 전반적인 구조 및 스타일도 잘 유지할 수 있다는 인사이트를 공유받았다. 해당 연구의 후속 연구도 CVPR에 억셉이 되었다고 하여 저자들의 연구들을 계속 따라가 보면 진행중인 연구에 많은 도움을 얻을 수 있을것으로 생각된다. 

4. Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code
디퓨전 모델을 활용한 이미지 에디팅 연구이다. 이번에 발표했던 Noise Map Guidance와 연구 배경이 동일해서 눈길이 갔다. 디퓨전 모델을 활용한 이미지 에디팅에서 이미지의 reconstruction이 중요하며 정확한 reconstruction을 위해서 해당 연구에서는 inversion path와 reconstruction path의 차이를 사전에 계산한 후 실제 reconstruction이 진행될 때 차이를 더해주어 reconstruction이 완벽하게 수행될 수 있도록 했다. 진행했던 연구와 굉장히 유사한 점이 많아서 저자들과 다양한 디스커션을 진행해 보고 싶어 포스터 세션동안 몇번 방문했지만 저자들을 만날 수 없어서 아쉬웠다.

5. Neural Network-Based Score Estimation in Diffusion Models: Optimization and Generalization
디퓨전 모델의 학습 목표는 score matching을 통해 score function을 학습하는 것을 목표로 하며, 많은 연구들을 통해 score를 추정하는 것이 가능하다는 것이 증명되어 왔다. 하지만 해당 연구에서는 일반적으로 모델을 학습할 떄 많이 사용되는 gradient descent를 통해 학습된 디퓨전 모델이 정말 socre를 잘 추정하는 것인지에 대한 의문으로 부터 출발한다. Score matching을 regression 문제로 해석하고 보다 나은 score function을 학습하기 위한 다양한 방법들을 제시한다. 수학적으로 어려운 개념들이 많이 등장하여 잠깐의 설명으로 내용을 모두 다 이해하기는 어려웠지만, 모두가 당연하게 생각하던 사실에 한번 더 의문을 품고 연구를 진행했다는 저자의 모티베이션이 굉장히 인상적이었다.