- 2024년 12월 6일 오전 10:18
- 조회수: 9018
INFORMATION
- 2024년 12월 6일
- 오전 12시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
이번 세미나에서는 가장 일반적으로 다룰 수 있는 데이터 형태 중 하나인 tabular 정형 데이터를 다루는 기법에 대해서 소개해주셨다.
세미나는 '왜 tabular 데이터에서는 딥러닝보다 tree-based models이 더 우수한 성능을 내는가?'에 대한 질문을 던지고, 22년 NeurIPS에서 제안된 연구를 기반으로 답변을 해 나가는 것으로 시작한다. 이때 논문의 저자들은 데이터의 '이질성-다양한 데이터 타입이 혼재됨', 'small size-딥러닝 학습에 필요한 데이터 불충분', 그리고 'irregularity-현실적으로 이상 값, 결측치 값이 많아도 배제하기 어려운 문제'를 주요한 이유로서 제시하고 있다.
그럼에도 불구하고 우리가 궁금한 것은 'When do neural nets outperform boosted trees on tabular data?'에 대한 것이다. 해당 논문에서는 '데이터셋에 따라 상이하기에 일반적으로 통용되는 단 하나의 답안은 없다'는 것을 실험으로 증명하고, 그럼에도 feature와 label 간의 상관관계가 클 수록, class 불균형이 적을 수록 NNs 계열 모델의 성능이 좋다는 결론을 제시하였다.
하지만 여전히 tabular learning에서 NNs을 활용하고자 할 때는, 'Binning as pretext task: improving self-supervised learning in tabular domains' 논문이 유용한 해답을 제안해줄 듯 하다. 해당 논문에서는 'binning algorithm'을 이용하여서, numerical 변수를 discrete 하게 변환하고, bin index에 해당하는 범주형 변수를 예측하는 pretext task를 수행하는 방식으로 representation learning을 수행한다. 개인적으로는 tabular dataset을 위한 foundation model 구축에도 도움이 될 듯한 연구라는 생각이 들었다.
실제 현업에서는 여전히 tabular 데이터셋이 자주 활용되기 마련인데, 이 중요성에 대해서 다시 한 번 상기시켜주는 세미나였다. 더불어, tabular를 다룸에 있어 중요한 문제 상황을 인트로에서 잘 정의하고, 이를 해결하고자 하는 기술을 명쾌하게 설명해주셔서 듣기 편한 장점이 있었다. 용수님의 연구도 tabular를 기반으로 진행되는 것으로 알고 있는데, 앞으로 좋은 연구를 이어가시길 응원한다.
이번 세미나는 tabular 데이터를 효과적으로 다루기 위한 방법론과 여러 모델들에 대한 분석적인 결과들을 같이 설명해주었다.
일반적으로 tabular 데이터를 사용하다 보면, 어떨 때는 이 모델이 좋고, 또 이 지표에서는 이 모델이 좋고, 이렇게 경향성 없는 결과들을 자주 직면할 수 있다. 세미나 중간 부분에서 이러한 내용을 언급할 때, 많은 공감이 되었다. 특히, 이번 세미나를 통해 케이스 별로 GBDT 계열과 NN 계열의 효과를 설명해주어 많은 도움이 되었다.
Self-supervised learning에서 효과적인 pretext task 학습을 위한 기법도 소개해주었는데, 연속형 변수를 ordinary 혹은 norminal 한 특성으로 변형시킨 후, 마스킹 전략과 함께 적용하여 학습하는 방법이였다. 산학 과제를 하다 보면, 적은 양의 labeled tabular 데이터를 활용해야 할 때가 있는데, 마지막 방법론은 이와 같은 상황일 때 적용해보면 좋을 것 같다.
Tabular 데이터에 대한 이론 및 분석과, 이를 활용할 수 있는 효과적인 방법론들도 같이 설명해주어 큰 도움이 되었던 세미나였다. 비정형 데이터에 대한 연구도 활발하지만, 이런 tabular 데이터에 대한 연구도 지속적으로 접하며, 트렌드를 알고 있어야 할 것이다. 좋은 세미나를 준비하느라 고생하신 용수형께 고맙다는 말을 전하며, 본 세미나 후기를 마친다.
이번 세미나는 tabular 데이터에 대한 전반적인 분석에 대하여 진행되었다.
1) 첫번째 논문은 어떤 데이터에서 어떤 알고리즘을 적용하는 것이 소개한다. 논문에서는 CatBoost가 가장 평균적으로 우수한 성능을 보이는 추세를 보였으며, 부스팅이 그 다음이었다. 데이터셋 관점에서는 데이터가 크고, instance 수에 비해 feature 수가 많은 데이터, 분포가 복잡한 데이터에서는 부스팅 계열이 좋았다. 또한, feature와 label 간 상관관계가 크고, 불균형이 적을수록 NN 계열이 좋다고 한다. 특히, 논문에서는 하이퍼 파라미터 튜닝만으로도 우수한 성능 확보가 가능하다고 말한다.
2) NODE: Tree 기반 구조에 착안하여 딥러닝 모델링을 수행하였다. 이때 개별 feature는 각 layer에 가중치를 제공하고, Entmax를 활용하여 중요도에 따라 feature를 구분한다. 이를 통해 feature 간 중요도를 파악하면서, 복잡한 종속성을 학습한다.
3) Binning: tabular 데이터에 적합한 사전학습 모델이다. Binning을 통해 pretext-task의 정답을 제시하고, regression 또는 classification 여부에 따라 다른 손실함수로 학습한다. 이때 binning과 동시에 masking을 적용하는데, constant 또는 random 기법을 적용한다. 개인적으로는, 출력값에 binning label을 적용하는 것은 이해하였으나, 입력값에 대해서는 굳이 binning이 필요하나 싶었다. Raw data를 가공한 것이 binning이기에, 더 많은 정보는 raw data에 있다고 생각하기 때문이다.
본 세미나를 통해 tabular 데이터의 모델링 팁을 알 수 있었다. 특히, 향후 산학과제를 마주했을 때, 첫번째 논문은 꼭 기억하고 싶은 논문이다. 해당 논문은 리뷰성으로 작성된 논문 같은데, 개인적으로 현재 작성하고 있는 논문에도 큰 인사이트를 준 것 같다. 유익한 세미나를 준비해준 조용수 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
합성곱 및 순환신경망 계열의 딥러닝 모델 발전에 의해 비정형(이미지 및 텍스트) 데이터 분석이 활발하게 진행되고 있다. 그렇지만, 정형 (tabular) 데이터 분석에 대한 수요도 여전히 높다. 본 세미나에서는 정형 데이터 분석에 적합한 모델들을 알아갈 수 있었다. Boosting 계열의 머신러닝 모델과 self-supervised learning 기반 인공신경망 모델들이 주를 이루고 있었다. 인상 깊었던 내용들을 정리해보면 아래와 같다.
1. Tabular 데이터에 대해, 어느 경우에 주로 인공신경망 모델이 tree-based 모델을 압도하는가?
2. 모든 tabular 데이터에서 성능이 평균 이상을 하는 알고리즘은 없다.
3. 많은 경우에 충분한 하이퍼파라미터 튜닝이 더 효과적임 (다른 모델을 선택하는 것 보다).
4. Dataset 사이즈가 클수록 or n >> p일수록 or irregularity 특성이 강할수록, tree-based 모델이 더욱 우수하다 (데이터 사이즈가 클수록 딥러닝이 우수할 줄 알았는데 다른 결과여서 신기하였다. Irregularity의 경우 직관적으로만 와닿았던 것을 개념으로 적립한 느낌이 들어 좋았다).
5. 27 page: Tabular data analysis 시 참고하면 좋을 framework.
6. Backpropagation-based tree-based model (NODE)
7. Binning as a pretext task for tabular self-supervised learning