- 2024년 10월 17일 오후 9:25
- 조회수: 23793
REFERENCES
INFORMATION
- 2024년 10월 18일
- 오전 9시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
Tabular 데이터에 Diffusion 모델을 적용한 연구들에 대해 진행되었다. Tabular 데이터는 이미지나 자연어에 비해 정보량이 적다. 특히, 범주형 변수처럼 연속적인 형태를 띄지 않는 경우도 많이 존재한다. 본 세미나에서는 이러한 Tabular 데이터 특성을 반영하여 어떻게 Diffusion 모델을 적용할지 다룬다.
1) Multinomial Diffusion: 범주형 데이터를 어떻게 Diffusion Process에 적용할지에 대해 다룬다. 이는 Argmax Flow를 활용하여 범주형에 적합한 Categorical Noise를 생성하여 Diffusion Process를 적용한다. 이때, 완전 Noise화 된 형태는 Uniform 분포 형태를 띈다.
2) TabDDPM: Tabular 데이터 생성에 목적을 둔다. 연속형 변수는 일반적인 Diffusion Process를 적용하고, 범주형 변수는 One-hot Encoding 후 Diffusion Process를 적용한다.
3) Tab-CSDI: Tabular 결측치를 어떻게 채울까?를 다룬다. 논문에서는 analog bit encoding 등 3가지 방향을 제시한다. 학습에는 특정 값을 가린 후, 해당 값을 잘 복원하도록 학습한다.
이번 세미나를 통해 Diffusion이 어떻게 Tabular에 적용되고 있는지 알 수 있었다. 범주형 변수가 가장 큰 문제로 보였으며, 이에 대한 내용이 주를 이루었다. 개인적으로는 정보량이 워낙 적기에, 연속형 Tabular 변수는 잘 적용이 되는지도 궁금했다. 워낙 변수 개수가 적고 각 변수 별 상관 관계도 낮기에, 수치형 변수도 어렵지 않을까 싶었다. 유익한 세미나를 준비해준 윤지현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
본 세미나는 tabular 데이터에 적합한 diffusion models들에 대해 소개해주었다. 특히 아직까지도 딥러닝에서 처리하기 까다로운 categorical 변수들에 대해 집중적으로 진행되었다.
Multinomial Diffusion은 argmax flow 아이디어를 차용한다. Gaussian noise와 비슷하게, 각 category에 속할 확률을 랜덤하게 주입시킴으로써 diffusion process를 진행하게 된다.
TabDDPM은 multinomial diffusion을 활용하여 원래 데이터 분포와 유사한 새로운 tabular 데이터를 생성해보자는 목적으로 진행되었다. 방식은 간단한데, categorical 변수를 one-hot encoding한 후, 노이즈를 주고 타겟 노이즈를 예측하는 방식으로 학습된다. TabDDPM은 아직까지고 많이 사용되는 SMOTE에 비해 우수한 성능을 보여준다.
마지막으로 TabCSDI는 diffusion model을 활용하여 결측치를 채우는 방법론을 제안한다. 이것도 꽤나 직관적인데, 단순 analog bits encoding, feature tokenization, one-hot encoding 세 가지 방식을 사용하였고, 각각의 방식에서 masking 전략을 사용하여 타겟 노이즈를 잘 예측하도록 학습된다.
이번에 소개된 방법론들은 모두 직관적이여서 이해하기 용이했고 까다로운 categorical 변수를 diffusion 분야에서는 이렇게 해결할 수 있구나를 알 수 있었다. 좋은 세미나를 준비하느라 고생한 윤지현 연구원님께 고맙다는 말을 전하며 본 세미나 후기를 마친다.