- 2025년 9월 12일 오후 2:22
- 조회수: 129
INFORMATION
- 2025년 9월 12일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Vision 분야에서 Autoregressive Modeling 기법에 대해 소개한다. 해당 기법은 LLM 중 GPT 기반 모델들이 학습하는 방식으로, 이미 Language 분야에서는 Next Token Prediction이라는 이름으로 유명한 기법이다. 최근에는 Vision에서도 이러한 모델링을 실제로 적용해보았으며, 이는 꽤나 효과적이었다. 최근에는 이를 조금 더 고도화하기 위해 Next-Scale Prediction로 확장하여 더 우수한 성능을 보이고 있다. 본 세미나에서는 이러한 Next-Scale Prediction 기법을 Text-to-Image (T2I)까지 확장한 연구 예시 (Hart)를 소개한다. 이는 Text를 자유롭게 입력 받을 수 있는 Diffusion 모델에 Next-Scale Prediction의 장점을 더하여 T2I 성능을 극대화하기 위한 것으로 보인다. 개인적으로는 이러한 Hart 연구처럼 Autoregressive Modeling이 생성모델에만 그치지 않고, 내 연구 분야에는 어떻게 강력한 무기로 활용할 수 있을지에 대하여 많은 생각이 든 세미나였다. 유익한 세미나를 준비해준 조한샘 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
* 개인적으로 왜 "Codebook"을 통해 이산화 과정을 거칠까?에 대해 고민이 있었다. 문헌들을 조금 찾아보니, 매우 넓은 Continuous한 Space에 대해서는 학습이 불안정할 수 있기에, 유한한 Discrete Space로 변환 후 학습하는 것이 조금 더 학습에 안정적이라고 한다.

이미지 생성 연구 분야는 재구축 기반의 autoencoder에서 시작하여 적대적 학습 기반의 GAN, 그리고 최근에 각광받고 있는 diffusion model로 변화되어 왔다. 특히 자연어 프롬프트와 모델 확장성을 기반으로 diffusion model이 완벽하게 이 분야의 주축이 되었다고 생각했다. Diffusion model이 나오기 전의 기존 생성 모델들은 모두 구시대적 방식이 된 것 같았고, next-token prediction에 기반한 auto-regressive model은 적어도 이미지 생성 분야에서는 적합하지 않다고 생각했다. 하지만 오늘 세미나를 통해 이러한 생각이 편협적이라는 것을 깨닫게 되었다.
금일 세미나는 이전에 이미지 생성 분야에서 간혹 (주축인 GAN이나 diffusion보다 주류는 아니지만 병렬적으로) 사용되었던 auto-regressive model에 대해 소개한다. 하지만 중요한 점은 이미지를 개별 토큰의 1차원 시퀀스로 취급하여 토큰 단위 단방향 생성을 했던 방식과 달리, 이미지의 scalability를 순차적으로 개선해나가는, 즉 전방향 생성을 목적으로 하는 next-scale prediction 기반 모델에 대해 소개한다. 개인적으로 이미지 생성에서 auto-regressive model이 적합하지 않았던 이유가 단방향 시퀀스 생성이라고 생각해서 해당 분야를 더 이상 공부하지 않았는데, scale이라는 개념을 auto-regressive하게 생각해낸다는 방식은 어떻게 고안해 냈을까하고 감탄하였다. Diffusion Model이 Gaussian noise에서 점점 세세한 이미지를 만들어나가는 방식이라면, next-scale prediction도 저화질 스케일 토큰(1x1)을 기반으로 점점 더 큰 스케일의 토큰(NxN)을 생성하는 것이다. 이전 step의 low resolution (quality) 이미지에 기반하여 순차적으로 high resolution (quality)로 만든다는 측면에서는 공통적이지만, 구체적인 생성 방식은 완전 다르다고 볼 수 있다.
개인적으로 next scale prediction을 수행할 때, 이전 스텝에서 생성한 토큰을 rescaling한 후 원본과의 편차, 즉 residual 값을 다음 스텝에서 예측한다는 점이 인상 깊었다. Boosting 계열 모델에서 이전 스텝의 예측을 기반으로 다음 스텝에서는 더욱 세밀한 잔차 부분만 예측한다는 것에서 고안된 것 같다. 첫번째 스텝에서는 전반적인 배경(global)을 생성하고, 이후에는 좀 더 local한 부분을 세밀하게 생성하는 과정이 직관적으로 방법론에 잘 녹아든 것 같다.
Quantization 에서 cookbook이라는 개념이 어떻게 learnable한지는 이번 세미나를 통해서는 잘 이해할 수 없었으나, 아마 토큰 생성 기반 auto-regressive model에서는 이미 고착화된 룰인 것 같다. 관련 연구를 찾아보며 이해할 필요를 느꼈다.
30분 내외의 짧은 세미나였고, 새로운 분야에 대한 내용이었는데 이해하는데 큰 어려움이 없었던 것 같다. 세미나를 준비하느라 고생한 한샘이형에게 감사의 말을 전한다.