오스트리아 비엔나에서 개최된 2024 International Conference on Learning Representations (ICLR) 에 교수님, 조한샘 연구원과 참석하였다. ICLR 은 국제적인 인공지능 학회로, 학회에 합격한 논문은 크게 Oral Session (구두 발표) 와 Poster Session (포스터 발표) 를 통해 학회 기간동안 참석자들에게 공유되었다. 작년엔 논문의 평균 합격 점수를 통해 Oral, Spotlight, Poster 로 구분이 되어 이 중 Oral 과 Spotlight 논문들이 구두발표를 진행했지만, 올해는 굉장히 많은 논문들이 Accept 되었기 때문에 Oral 로 합격한 논문에 대해서만 구두 발표가 진행 되었다. 이외에도 학회장 중간엔 Meta, Google Research, Google DeepMind, Microsoft, Mistral 등의 기업부스가 들어와 있었으며, 자유롭게 구경할 수 있는 구조였다. 또한, 메인 세션 이외에도 점심시간에 특정 주제로 토론을 할 수 있는 Social Event 도 마련되어 있었다. 굉장히 많은 발표들과 포스터를 접할 수 있었지만, 이 중 유독 기억에 남는 것들을 정리해보고자 한다.

Oral Sessions

디퓨전 모델 쪽 대가인 Yang Song 이 직접 발표를 진행하였다. 현재 Consistency Models 관련 연구를 진행하고 있기 때문에, Yang Song 이 직접 진행하는 Consistency Models 에 대한 설명을 들을 수 있는 기회는 굉장히 값졌다. 해당 논문은 기존 Consistency Models 를 고도화 시키는 방법론을 담고 있으며, 수식적으로 굉장히 무거워서 15분동안 어떤 식으로 연구를 소개할지 궁금한 채로 세션에 들어갔다. Yang Song 은 군더더기 없이 15분 안에 깔끔하게 필요한 요지를 설명하였고, Consistency Models 를 처음 접해도 디퓨전에 대한 사전 지식만 있으면 이해가 갈 정도로 간단명료하게 발표를 마쳤다. 다른 구두 발표에선 저자들이 현재 진행하는 follow up work 에 대한 이야기를 잠깐 하지만, Yang Song 은 현재 무슨 연구를 진행하고 있는지 언급을 하지 않아 해당 부분이 조금 아쉬웠다. 하지만 Yang Song 의 설명을 직접 들을 수 있는 기회는 흔치 않아, 굉장히 만족스러운 세션이였다.

비디오 생성모델로 World Simulator 를 구현하는 연구로, 디퓨전 기반 모델인 점이 굉장히 흥미로웠다. World Simulator 란 생성모델로 실제 세상의 상호작용을 학습시킨 뒤, 이를 영상을 통해 물리적으로 특정 물건이 움직이는 형상을 구현하는 새로운 패러다임이다. 예시로 컵을 들고 있는 로봇 팔에 대한 이미지가 시작 이미지로 주어졌을 때, "컵을 싱크대에 넣어" 라고 prompt 를 주면 World Simulator 가 시작 이미지를 기반으로 로봇 팔이 컵을 싱크대에 넣는 영상을 생성하는 식이다. 생성모델로 World Simulator 을 구현하는 아이디어는 굉장히 오래되었지만, 디퓨전 모델의 발전을 통해 최근들어 실제로 구현이 되기 시작했다. 해당 발표를 보며 디퓨전의 분포 학습을 통해 상상 이상의 것들이 가능하다는 것을 느낄 수 있었다.

고전적인 분류 문제에 대해, 분류 모델의 성능을 올리고 싶으면 어떤 데이터를 학습 시켜야 하는지 고찰하는 연구다. 세션이 처음 시작했을 때 큰 기대를 하진 않았지만, 개인적으로 가장 만족스러웠던 구두 발표였다. 분류 모델은 딥러닝에서 어느정도 완숙한 연구 분야고, 이미 산업의 여러 곳에서 사용이 되고 있다. 분류기에 대한 현재까지의 연구는 성능을 올리거나, 아키텍쳐를 고도화 하거나, 속도를 올리는 쪽으로 초점이 맞춰졌었다. 저자들은 이에 반문을 던지며, 분류기가 실제 산업에서 사용되려면 보다 조심스럽게 접근을 해야 한다고 주장을 하며, Fairness, Utility, Robustness 관점에 대한 모델의 성능을 정량적으로 평가 할 수 있는 framework 를 제시한다. 이에 influence function 으로 각 관점을 수식화 한 뒤, 분류기를 학습 할 때 어떤 데이터를 사용해야 각 관점에 대한 성능을 올릴 수 있는지 또한 제시한다. 처음 접한 분야였지만, 발표자가 굉장히 직관적으로 설명해 주어 흥미롭게 들을 수 있었다. 시각적으로 멋진 생성모델이 주류가 된 학회에서, 고전적이지만 근원적인 질문을 던지고 명확하게 해결책을 제시한 발표인 점에서 굉장히 흥미롭게 청취 할 수 있었다.

기존의 디퓨전 모델의 아키텍쳐를 고도화 하는 연구다. Consistency Models 와는 정반대로 완전히 테크니컬한 연구이며, 디퓨전 모델의 아키텍쳐의 현주소를 지적하며 확장성을 위해 새로운 아키텍쳐를 제시한다. Stability AI 와 합작하여 Stable Cascade 라는 파운데이션 모델의 아키텍쳐를 제시하였기에 흥미롭게 들을 수 있었다. 특히 본 구두발표는 다른 발표들과 달리 굉장히 유쾌하게 중간중간 농담을 섞어가며 진행되었고, 이로 인해 다른 구두 발표보다 가볍게 들을 수 있었다. 발표를 들으며 훨씬 큰 이미지를 생성하도록 아키텍쳐를 더욱 확장 할 수 있는지에 대한 궁금증이 생겨, 발표가 끝난 후 발표자를 찾아가서 이에 대한 질문을 했다. 발표자는 굉장히 흥미로운 주제이며, 실제로 다음 연구를 해당 방향성으로 진행하고 있다고 이야기 해 주었다.

이외에도 다른 구두발표도 흥미롭게 들을 수 있었다. 다만 아쉬운 점은, 동시간대에 여러개의 구두발표를 진행했기 때문에 꼭 듣고싶었던 발표를 듣지 못했다. 듣고 싶었지만 다른 구두발표와 겹쳐 듣지 못한 연구 중 Vision Transformers Need Registers 는 학회가 끝난 뒤 outstanding paper award 를 받았기에 더욱 아쉬웠다.


Poster Sessions
포스터 세션은 발 디딜 틈 없이 사람이 많았다. 각 포스터 세션은 2시간이여서 모든 포스터를 볼 수 없었기에, 미리 각 세션에 관심이 있는 포스터를 저장해둔 뒤 방문하는 식으로 세션 참여를 하였다. 디퓨전 모델 관련 포스터가 굉장히 많았으며, 흥미로운 설명들 또한 많이 들을 수 있었다.

디퓨전 모델은 일반적인 모델과 달리 학습과 인퍼런스를 진행하는 방식이 다르다. 이에 본 논문은 학습과 인퍼런스간 간극을 지적하며, 이론적으로 해당 간극을 좁히는데 새로운 스케일링 방법론을 제시한다. 굉장히 간단하지만 효과가 좋아 흥미롭게 청취했다.

디퓨전 모델로 이미지를 생성할 때, 생성된 이미지라는 표식을 남기는 것을 watermarking 이라 한다. 일반적인 워터마크는 아니고, 사람이 구분할 수 없을 정도로 미세하게 픽셀값을 조절하여 해당 이미지가 생성된 이미지라는 일종의 숨은 메세지를 남기는 방식이다. 본 논문은 어떤 모델로 이미지가 생성 되었는지 상관 없이, 이미지 속 숨겨진 메세지를 추출하여 삭제하는 방법론을 제시한다. 굉장히 흥미롭게 들었지만, 생성된 이미지 속 워터마크를 지우는 것이 윤리적으로 옳은지 저자에게 질문을 했다. 저자는 맞다고, 이 연구는 일종의 창과 방패의 싸움을 부추키고, 이를 통해서 더 강건한 워터마킹 방법론을 기대한다고 설명해 주었다.

Data attribution 이란 모델이 특정 개념을 배우기 위해서 학습 도중 어느 데이터 샘플을 가장 많이 활용했는지를 확인하는 개념이다. 본 논문에선 이를 생성모델의 도메인으로 가져오며, 특정 개념을 생성 할 때 어떤 데이터 샘플이 가장 많이 활용됐는지 확인할 수 있는 방법론을 제시한다. 예시로, "an image of a gothic church" 라는 prompt 로 이미지를 생성했을 때, 데이터셋 중 어떤 이미지가 해당 이미지의 개념에 가장 큰 영향을 미쳤는지 확인 할 수 있는 방식이다. 저자들은 제시한 방식을 통해 수억장의 데이터 샘플 중 저작권이 걸려 있는 이미지를 추출 할 수 있다는 사실을 보여주었다. Data attribution 은 분류기에서 많이 연구가 된 주제이지만, 생성모델로 방법론을 제시한 것이 흥미로웠다.

My poster session
나는 이번에 포스터 발표를 진행했다. 2시간 동안 포스터 앞에서 논문에 대해 설명을 하고 이런저런 질문에 대해 답변하는건 체력적으로 힘들었지만, 흥미로운 질문들을 많이 받아 되려 나의 논문에 대해 되짚어 볼 수 있었다. 그 중 유독 기억에 남는 사람이 있다. 자신을 암스테르담에서 생성모델을 연구하는 박사과정이라고 소개하였고, 나의 논문의 세세한 방법론에 대해 질문을 많이 했다. 그는 나의 방법론과 비슷한 생각을 한 적이 있는데, 실제로 작동한다는 사실에 흥미를 가지고 접근했다고 말했다. 이윽고 현재 방법론을 더욱 고도화 시킬 수 있는 방법에 대해 나에게 질문을 했고, 역으로 재미있는 방법론을 제시해 주며 토론 형식으로 서로 아이디어를 주고받았다. 해당 경험은 아이디어가 자유롭게 오고 갈때 가장 창의적인 접근 방식이 나올 수 있다는 사실을 다시 한번 상기해 주었다.

Social Event
메인 구두발표 세션과 포스터 세션 이외에도 특정 주제에 대해 토론을 할 수 있는 Social Event 가 개최되었다. 이 중 나는 Recent advances on diffusion and GAN 이란 점심 Social Event 를 참여했다. 해당 세션엔 Consistency Trajectory Models (CTM) 의 저자들이 와 있었으며, 패널 형식으로 여러가지 토론을 나눌 수 있었다. 세션동안 생성모델의 현주소와 앞으로 나아갈 방향, 그리고 디퓨전 모델과 autoregressive 모델 중 어느 모델이 우위를 차지할지 등 흥미로운 인사이트를 얻을 수 있었다. 특히, CTM 의 1저자인 김동준님과 1대1로 질문을 할 수 있었다. 현재 진행하는 연구에 대한 질문을 드리고, 김동준님은 연구적으로 조언을 해주셨고 CTM 의 저자들이 현재 수행하고 있는 연구에 대한 프리뷰도 들을 수 있었다.

Misc.
이번 ICLR 은 특이하게도 outstanding paper awards 이외에도 test of time award 라는 것을 발표했다. 과거 ICLR 에서 발표된 논문들 중, 많은 시간이 지났음에도 아직까지 많이 사용되고 있거나, 딥러닝이란 학문에 큰 영향을 끼친 논문에게 주어지는 상이다. Test of time award 는 다름아닌 VAE 를 제시한 Auto-Encoding Variational Bayes 가 수상하였다. VAE 는 생성모델의 초석을 세운 논문 중 하나이며, 여전히 디퓨전 모델과 autoregressive 모델의 연산량을 줄이기 위해 활발히 사용되고 있기에 최적의 수상작이라고 생각했다.

ICLR 2024 는 상상 이상으로 거대했고, 기대 이상으로 흥미로웠다. 나는 현재까지 디퓨전 모델 관련 연구만 진행해왔기 때문에 식견이 많이 좁아져 있었지만, ICLR 을 통해 다양한 연구 분야에 대한 인사이트를 많이 흡수 할 수 있어서 의미 있는 시간이었다.