고려대학교 DMQA 연구실

Diffusion Models for Tabular Data

2024년 10월 17일 오후 9:25
조회수: 24380

REFERENCES

Diffusion Model for Tabular Data.pdf

INFORMATION

2024년 10월 18일
오전 9시 ~
온라인 비디오 시청 (YouTube)

발표자:

윤지현

TOPIC

Diffusion Models for Tabular Data

On-Line Video

OVERVIEW

Diffusion model 기반의 tabular data 생성은 기존의 GAN이나 VAE 모델에 비해 데이터의 다양한 특성을 더 잘 반영할 수 있는 가능성을 보여주고 있다. 특히, 데이터 분포를 점진적으로 개선해 나가는 과정을 통해 더 현실적이고 유연한 데이터 생성을 가능하게 한다. 본 세미나에서는 정형 데이터의 특징에 맞춘 diffusion 모델의 구조와 학습 방법을 다루며, 이를 통해 데이터 증강이나 결측치 보완 등의 application 을 소개하고자 한다.

참고자료 :

[1] Hoogeboom, E., Nielsen, D., Jaini, P., Forré, P., & Welling, M. (2021). Argmax flows and multinomial diffusion: Learning categorical distributions. Advances in Neural Information Processing Systems

[2] Kotelnikov, A., Baranchuk, D., Rubachev, I., & Babenko, A. (2023, July). Tabddpm: Modelling tabular data with diffusion models. In International Conference on Machine Learning (pp. 17564-17579). PMLR.

[3] Zheng, S., & Charoenphakdee, N. (2022). Diffusion models for missing value imputation in tabular data. Table Representation Learning Workshop at NeurIPS 2022

청취자 후기

김성수

Tabular 데이터에 Diffusion 모델을 적용한 연구들에 대해 진행되었다. Tabular 데이터는 이미지나 자연어에 비해 정보량이 적다. 특히, 범주형 변수처럼 연속적인 형태를 띄지 않는 경우도 많이 존재한다. 본 세미나에서는 이러한 Tabular 데이터 특성을 반영하여 어떻게 Diffusion 모델을 적용할지 다룬다.

1) Multinomial Diffusion: 범주형 데이터를 어떻게 Diffusion Process에 적용할지에 대해 다룬다. 이는 Argmax Flow를 활용하여 범주형에 적합한 Categorical Noise를 생성하여 Diffusion Process를 적용한다. 이때, 완전 Noise화 된 형태는 Uniform 분포 형태를 띈다.
2) TabDDPM: Tabular 데이터 생성에 목적을 둔다. 연속형 변수는 일반적인 Diffusion Process를 적용하고, 범주형 변수는 One-hot Encoding 후 Diffusion Process를 적용한다.
3) Tab-CSDI: Tabular 결측치를 어떻게 채울까?를 다룬다. 논문에서는 analog bit encoding 등 3가지 방향을 제시한다. 학습에는 특정 값을 가린 후, 해당 값을 잘 복원하도록 학습한다.

이번 세미나를 통해 Diffusion이 어떻게 Tabular에 적용되고 있는지 알 수 있었다. 범주형 변수가 가장 큰 문제로 보였으며, 이에 대한 내용이 주를 이루었다. 개인적으로는 정보량이 워낙 적기에, 연속형 Tabular 변수는 잘 적용이 되는지도 궁금했다. 워낙 변수 개수가 적고 각 변수 별 상관 관계도 낮기에, 수치형 변수도 어렵지 않을까 싶었다. 유익한 세미나를 준비해준 윤지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이정민

본 세미나는 tabular 데이터에 적합한 diffusion models들에 대해 소개해주었다. 특히 아직까지도 딥러닝에서 처리하기 까다로운 categorical 변수들에 대해 집중적으로 진행되었다.
Multinomial Diffusion은 argmax flow 아이디어를 차용한다. Gaussian noise와 비슷하게, 각 category에 속할 확률을 랜덤하게 주입시킴으로써 diffusion process를 진행하게 된다.
TabDDPM은 multinomial diffusion을 활용하여 원래 데이터 분포와 유사한 새로운 tabular 데이터를 생성해보자는 목적으로 진행되었다. 방식은 간단한데, categorical 변수를 one-hot encoding한 후, 노이즈를 주고 타겟 노이즈를 예측하는 방식으로 학습된다. TabDDPM은 아직까지고 많이 사용되는 SMOTE에 비해 우수한 성능을 보여준다.
마지막으로 TabCSDI는 diffusion model을 활용하여 결측치를 채우는 방법론을 제안한다. 이것도 꽤나 직관적인데, 단순 analog bits encoding, feature tokenization, one-hot encoding 세 가지 방식을 사용하였고, 각각의 방식에서 masking 전략을 사용하여 타겟 노이즈를 잘 예측하도록 학습된다.
이번에 소개된 방법론들은 모두 직관적이여서 이해하기 용이했고 까다로운 categorical 변수를 diffusion 분야에서는 이렇게 해결할 수 있구나를 알 수 있었다. 좋은 세미나를 준비하느라 고생한 윤지현 연구원님께 고맙다는 말을 전하며 본 세미나 후기를 마친다.

송하영

정형 데이터의 생성모델의 주 관건은 개별 변수 간 형태적 다양성(heterogeneity)를 어떻게 잡는가에 있다. diffusion model과 같은 생성형 모델은 널리 알려진 대표적인 생성 모델이지만, 비정형 데이터에서 주로 좋은 성능을 보이며 서로 다른 도메인이 혼합된 정형 데이터에 대해서는 아직 활발히 연구가 진행 중인 분야라고 볼 수 있다.

특히 diffusion model은 continuous space에서는 좋은 성능을 보이지만 discrete space에서는 비교적 성능이 떨어지는 경향이 있으며, 이를 해결하기 위한 연구도 활발히 이루어지고 있다. 이러한 맥락에서 discrete space에 대한 diffusion 접근을 통해 정형 데이터의 범주형 변수(categorical data)를 생성하고, continuous space에 해당하는 연속형 변수는 기존 diffusion model을 그대로 적용하는 방식으로 본 세미나에서 소개된 방법론들은 이러한 혼합 구조를 반영한 생성 방식을 취하고 있다.

첫번째, Multinomial Diffusion은 discrete 데이터를 diffusion model에 직접 적용하려는 시도이며, language나 image segmentation과 같은 범주형 데이터를 위한 diffusion model을 개발하였다. 방법적으로는 Gaussian noise를 추가하는 대신 categorical noise를 점진적으로 추가하며, 최종적으로는 uniform distribution에 수렴하도록 설계된다.

해당 연구는 Gaussian 기반 diffusion을 일반적인 categorical distribution으로 확장하려는 시도라는 점에서 의미가 있으며, tabular data 자체를 직접적인 목표로 하지는 않는다.

두번째, TabDDPM은 일반적인 tabular 데이터 문제를 위한 DDPM 기반 diffusion framework를 제안한 연구로, Multinomial Diffusion을 활용하여 원래 데이터 분포와 유사한 형태의 새로운 tabular 데이터를 생성하고자 하는 아이디어에서 출발하였다. 이를 통해 정형 데이터에 적용 가능한 diffusion model을 제안했다는 점에서 의의가 있다.

마지막으로, Tab-CSDI는 기존 방법론들이 정형 데이터의 생성에 초점을 두었다면, 결측값 복원(imputation)을 diffusion model로 수행하고자 한 접근이다. diffusion model이 생성 과정에서 빈 공간을 자연스럽게 채워나가는 특성을 가진다는 점에 착안하여, 이를 정형 데이터의 결측값 복원 문제에 적용한 것으로 볼 수 있다.

이번에 소개된 방법론들은 정형 데이터에서 diffusion model의 생성 능력을 활용할 수 있을지에 대한 가능성을 보여준 세미나였으며, 전반적으로 직관적인 설명 덕분에 이해하기 수월했다. 추후에는 discrete space에서의 diffusion이 어떻게 동작하는지에 대한 보다 심화된 세미나도 함께 진행된다면 좋겠다는 생각이 들었고, diffusion을 연구하는 입장에서 이러한 주제가 다음 세미나로 이어진다면 더욱 유익할 것 같다. 이번 세미나를 준비해주신 윤지현 연구원님께 감사의 인사를 드린다.

Seminar