고려대학교 DMQA 연구실

What is Next for Tabular Data? Exploring Advances in Self-Supervised Learning

2024년 4월 5일 오전 12:20
조회수: 29616

REFERENCES

[240405]DMQA_Openseminar_What is Next for Tabular Data_채고은.pdf

INFORMATION

2024년 4월 5일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

채고은

TOPIC

What is Next for Tabular Data? Exploring Advances in Self-Supervised Learning

On-Line Video

OVERVIEW

Tabular 데이터는 산업, 의료, 학술 등 다양한 영역에서 필수적인 역할을 하는 구조화된 정보의 저장소이다. 지도 학습은 많은 머신러닝 작업에서 탁월한 성과를 보여왔지만, 레이블이 없는 데이터에 대한 접근이 용이해짐에 따라 self-supervised learning(SSL)이 tabular 데이터의 표현 학습 능력을 탐구하는 새로운 방향으로 등장했다. 이 과정은 레이블, 즉 학습을 위한 명시적인 관계가 부재하다는 점에서 더욱 도전적인 경향이 있다. 따라서 SSL을 활용해 tabular 데이터를 보다 효율적으로 처리하는 방법에 대한 연구가 계속되며, 이는 대규모 데이터 주석 부담을 줄이고 일반화 능력을 강화하는 방법을 제시한다. 본 세미나에서는 tabular 데이터 처리를 위한 최신 SSL 기법들을 심도 있게 탐구하며, 이 기술들이 데이터 이해와 활용을 어떻게 최적화하고 미래에 어떤 새로운 기회를 제공할 수 있는지 살펴보고자 한다.

[1] Wang, W. Y., Du, W. W., Xu, D., Wang, W., & Peng, W. C. (2024). A Survey on Self-Supervised Learning for Non-Sequential Tabular Data. arXiv preprint arXiv:2402.01204.

[2] Yoon, J., Zhang, Y., Jordon, J., & Van der Schaar, M. (2020). Vime: Extending the success of self-and semi-supervised learning to tabular domain. Advances in Neural Information Processing Systems, 33, 11033-11043.

[3] Nam, J., Tack, J., Lee, K., Lee, H., & Shin, J. (2023). Stunt: Few-shot tabular learning with self-generated tasks from unlabeled tables. arXiv preprint arXiv:2303.00918.

[4] Bahri, D., Jiang, H., Tay, Y., & Metzler, D. (2021). Scarf: Self-supervised contrastive learning using random feature corruption. arXiv preprint arXiv:2106.15147.

[5] Wang, Z., & Sun, J. (2022). Transtab: Learning transferable tabular transformers across tables. Advances in Neural Information Processing Systems, 35, 2902-2915.

[6] Ahamed, M. A., & Cheng, Q. (2024). MambaTab: A Simple Yet Effective Approach for Handling Tabular Data. arXiv preprint arXiv:2401.08867.

청취자 후기

정구진

이번 세미나는 tabular 데이터에서의 SSL 방법론에 대하여 소개한다. Tabular 데이터 같은 정형 데이터는 딥러닝 방법론 보다는 트리 기반 앙상블 모델들이 더 성능이 좋다고 알려져 있는데, 이는 데이터의 특성 때문에 발생한다. 이미지 같은 데이터는 주변의 관계를 고려하는 방식으로 딥러닝 방법론이 발전했으나, tabular 데이터는 주변 데이터가 어떤 관계가 있다고 보기 어렵다. 이번 세미나에서는 tabular 데이터의 SSL 방법론을 소개하는데, predictive learning, constrastive learning, hybrid learning 방법론 등이 존재한다.
먼저 Predictive learning은 가장 넓게 사용되며, predictive task를 설계하여 input 데이터의 표현벡터를 학습한다. Mask 벡터를 기반으로 하는 VIME 방법론에 대해 간단히 소개하며, column의 특성을 유용한 target으로 취급하는 STUNT에 대해서 상세히 설명한다. STUNT는 먼저 무작위로 선택한 column에서 k-means 클러스터링으로 pseudo 레이블을 생성한 후, 이에 대한 메타학습 수행을 통해 일반화된 분류기를 학습한다. 그리고 레이블이 된 데이터를 사용하여 분류기에 적용한다.
Constrastive learning의 경우 유사한 instance간 유사성을 극대화하고 그렇지 않은 instance들은 멀리 위치하도록 학습한다. TransTab의 경우 transtab을 도입하여 고정된 테이블 구조를 완화하는 방법론을 제안한다. 특히 input processor의 경우 column의 이름을 모델링으로 표현하여 학습에 사용한다는 접근 방식 자체가 매우 흥미로웠다. 이렇게 하면 공통적인 특성을 반영하여 딥러닝 방법론에 어떤 방식으로든 더 잘 적용할 수 있을 것 같단 생각과 동시에 그래서 어떻게 의미를 부여하는가?에 대한 의문은 들었다. 다음에 설명한 mambatab의 장점이 데이터 전처리 과정에 대한 자동화라는 것을 설명하는 것을 보면 아마 메뉴얼 작업으로 이행되는 것 같은데 해당 내용에 대한 확인은 필요할 것 같다. Input processor 이후 gated transformer 층을 통한 추가 인코딩과 learning 모듈을 통하여 학습이 진행되며, 대부분의 SSL방법론과 다르게 tabular 수직 분할을 사용하여 효율적으로 학습하였다.
마지막으로는 mambatab은 범주형 feature 순서를 강제하는 대신, 직접적인 multi-dimensional feature들을 학습함으로써 더 유연한 학습을 가능하게 한다. 또한 mamba block이 동일한 입력 특성 차원을 갖도록 보장함으로써 점진적으로 추가되는 특성을 학습하여 가중치를 전달하기 때문에 처음부터 다시 학습하지 않아도 모델을 유지할 수 있다.

Tabular 데이터의 경우 많이 접하기는 하였으나 실제로 관련 연구를 자세히 본 적은 없어서 어떠한 문제점을 가지고 있는지 잘 몰랐는데, 그런 부분에 대해 알 수 있어서 유익한 세미나였다. 특히 column을 정보로 활용하는 최근의 방법론은 인상적이였는데, 이렇게 뭔가 부가적인 정보라고 치부될 수 있는 것도 포함하여 학습하는 방안이 앞으로는 더 중요할 것 같다. 새로운 관점에 대해 알려준 채고운 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.

김성수

이번 세미나는 Tabular 데이터에 대한 자기지도학습에 대해 진행되었다. 이미지나 텍스트 데이터와 다르게, Tabular 데이터는 정보가 매우 한정적이라는 특징을 갖는다. 흔히 말하는 변수의 개수도 매우 적고, 각 변수들은 다양한 형태를 띄기 때문이다. 본 세미나에서는 이러한 Tabular 데이터에 적합한 자기지도학습 방법론들을 소개한다.

1) VIME: 이전에 고병은 연구원의 세미나에서 접했던 방법론으로, Masking 후, Reconstruction하는 Task로 모델을 학습한다.
2) STUNT: 랜덤으로 Column 선택 후, 해당 Column들에 대하여 K-means 클러스터링을 통해 Pseudo Label을 생성한다. 이후, 생성된 Cluster들의 중심점을 활용하여 Embedding Space 학습한다. (주어진 데이터가 가장 가까운 Cluster로 할당되도록? 해당 부분은 잘 와닿지 않는다.)
3) SCARF: 대조학습을 Tabular 데이터에 적용하여 자기지도학습 수행
4) TransTab: Input Processor, Gated Transformer, Learning Module 세 가지로 구성된다. Input Processor에서는 각 변수들을 변수 종류에 맞게 Embedding하는 과정이다. 이후, Gated Transformer에서는 Transformer의 Multihead Attention을 적용한다. 마지막으로, Learning Module에서는 Column 수준에서 대조학습을 적용한다.
5) MambaTab: TranTab과 다르게 변수 종류에 상관없이 Embedding이 가능한 Layer를 가지며, SSM에서 제안되었던 Mamba Layer를 거친다. 다만, 어떻게 자기지도학습을 하는지는 명확하게 이해하진 못했다.

본 세미나를 통해 Tabular 데이터에 적합한 최신 자기지도학습 방법론들을 알 수 있었다. 기존 자기지도학습 방법론에서 많이 언급되던 Pretext Task와 Contrastive Learning의 모티브를 확인할 수 있었으며, 이들을 Tabular 데이터 형태에 적절하도록 변형한 것이 인상깊었다. 또한 아직 2개의 방법론을 정확히 이해하진 못했는데, 더 논문을 열심히 읽어야겠다는 생각이 들었다. 유익한 세미나를 준비해준 채고은 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

배진수

딥러닝 기반 Tabular 데이터 분석을 위한 자가지도학습 세미나를 청취하였다.

Tabular 데이터의 경우 Tree 기반의 머신러닝 모델이 딥러닝보다 간단하면서도 우수한 성능을 보이는 경우가 많기 때문에, 딥러닝 연구 관점에서 개선시킬 부분이 여전히 많은 분야라고 생각한다. 오늘 세미나 내용인 자가지도학습도 결국 딥러닝 모델이 기존 Tree 계열의 모델들보다 안정적이고 우수한 성능을 보이기 위해 시도한 연구 분야 중 하나인 듯 하다. Tabular 데이터를 위한 Pretext Task(Vime, STUNT)와 Contrastive Learning(Transtab) 계열의 자가지도학습, 그리고 MambaTab라는 최신 방법론까지 본 세미나에서 다루고 있는데, 대부분의 프로젝트 혹은 사내 데이터가 Table 데이터인 점을 감안하여 많은 연구원들이 본 세미나를 살펴봐두면 좋을 것 같다는 생각이 들었다. 개인적으로는 Transtab이라는 알고리즘이 가장 흥미로웠다. Tabular 데이터의 특성(수직분할)을 활용하여 대조학습을 구상하였고, 요즘 인기있는 Transfomer 모듈 구조를 함께 활용하였다. 대조학습 및 사용하는 모듈 구조의 특성 상 아주 큰 규모의 tabular 데이터에 적합할 것 같다는 생각이다.

좋은 세미나를 준비하느라 고생했을 고은이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

Seminar