고려대학교 DMQA 연구실

Comparison of Machine/Deep learning Methods for Tabular Dataset

2022년 9월 30일 오전 10:32
조회수: 11724

REFERENCES

Comparison of Machine and Deep learning Methods for Tabular Dataset.pdf

INFORMATION

2022년 9월 30일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

김경수

TOPIC

Comparison of Machine/Deep learning Methods for Tabular Dataset

On-Line Video

OVERVIEW

일반적으로 제조업에서 활용하는 데이터들은 대부분 Table 형태의 데이터들이며 많은 회사들이 이 데이터들을 활용하여 회사의 문제점을 해결하기 위한 시도를 하고 있다. 본세미나에서는 Tabular Data가 어떤 형태의 데이터이고 제조업에서 데이터 관리 시스템의 예시를 설명하고 왜 Tabular 형태의 데이터에 대한 머신러닝과 딥러닝이 필수적인지 필요성을 설명한다. 또한 Tabular Data에 대한 기존의 방법론과 최근 방법론들의 성능을 비교한다. Deep Neural Networks and Tabular Data: A Survey에서는 최근 딥러닝 방법론들을 3가지로 분류하고 5개의 데이터셋에 대해서 고전적인 머신러닝과 딥러닝 방법들을 비교한다. Tabular Data: Deep Learning is Not All You Need 에서는 최근 논문들이 해당 논문에서 활용한 데이터에 대해서는 좋은 성능을 발휘하지만 다른 데이터에 대해서는 아닌 경우들을 지적하며 11개의 데이터셋을 활용하여 방법론들을 비교한다. 마지막으로 Why do tree-based models still outperform deep learning on tabular data?라는 논문에서는 45개의 데이터에 대해서 머신러닝과 딥러닝 방법론들을 비교하면서 왜 Tree계열 모델들이 성능이 좋은지에 대해서 고찰한다.

참고자료

[1] Deep Neural Networks and Tabular Data: A Survey Vadim Borisov, Tobias Leemann, Kathrin Seßler, Johannes Haug,Martin Pawelczyk and Gjergji Kasneci

[2] Tabular Data: Deep Learning is Not All You Need Ravid Shwartz-Ziv, Amitai Armon

[3] Why do tree-based models still outperform deep learning on tabular data? Léo Grinsztajn (SODA), Edouard Oyallon (ISIR, CNRS), Gaël Varoquaux (SODA)

청취자 후기

김성수

이번 세미나는 Tabular 데이터에서 딥러닝 모델과 및 Non-딥러닝 모델을 비교하는 내용에 대해 진행되었다. Tabular 데이터는 표 형태를 가지며, 가장 흔하게 접할 수 있는 데이터 형태이다. 특히 제조업에서는 대다수 Table형태의 데이터들을 활용하는데, 대표적인 예시로 ERP나 MES 등이 있다. 본 세미나에서는 이처럼 제조업에서 많이 활용되는 Tabular 데이터에 딥러닝과 Non-딥러닝 모델을 적용한 결과를 다루며, 이미지나 자연어 등 비정형 데이터에서는 강력한 딥러닝이 Tabular 데이터에서는 큰 효과를 거두지 못하는 이유에 대하여 고찰한다.

먼저 생각해 볼 주제는 데이터의 개수이다. 흔히 접하는 Tabular 데이터들은 대다수가 10만개 이하로, 딥러닝 모델을 학습하기에 충분하지 않은 양을 갖고있다는 점을 지적한다. 실제로, Borisov et al.(2022)에서는 1,100만개의 데이터로 학습했을 때는 딥러닝이 Non-딥러닝보다 더 좋은 성능을 도출하였다. 그러나 여전히 데이터가 적을 때는 Tree기반의 Xgboost나 Random Forest가 우세하였다. 그렇다면 왜 Tree기반의 모델이 딥러닝보다 효과가 좋을까? Grinsztajn et al.(2022)에서는 이러한 이유로 딥러닝 모델은 편향이 심하고, 의미 없는 변수에 영향을 많이 받기 때문이라고 서술하였다. 실제로 의미 없는 변수들을 추가하고 딥러닝 모델과 Tree기반 모델을 비교실험 했을 때, Tree기반 모델이 강건한 것을 볼 수 있었다.

이번 세미나를 통해 Tabular 데이터에 왜 Non-딥러닝 모델이 아직도 많이 활용되는지에 대해 다시 한 번 생각해볼 수 있었다. 개인연구를 할 때는 늘 딥러닝을 찾아보지만, 캐글과 같은 공모전을 할 때는 결국 xgboost와 같은 Non-딥러닝 모델을 활용할 때가 많았었는데, 본 세미나를 통해 과거 궁금증에 대해서 어느정도 해소할 수 있었다. 개인적으로 딥러닝 모델이 편향이 심하다는 이유는 아직 잘 와닿지 않아서 관련 내용을 추후에 다시 한 번 공부해보고 싶다. 유익한 세미나를 준비해주신 김경수 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

고병은

이번 세미나는 tabular 데이터를 대상으로한 딥러닝 방법론에 관하여 진행되었다. Tabular 데이터의 설명부터 시작하여 제조업에서의 tabular 데이터에 대한 흐름에 대하여 설명하였다. 특히 신입 사원 때 MES 부서에서 관련 업무를 진행 했던 터라 관련 내용을 흥미롭게 청취할 수 있었다. 산업 현장에서는 tabular 데이터를 활용한 머신러닝 또는 딥러닝의 필요성이 큰데, 그 이유로 기업 운영의 핵심인 비용을 절감할 수 있기 때문이다. 대표적으로 예지 정비, 결함 예측, 공정 생략 등을 예로 들 수 있다고 한다. 본격적으로 논문을 통하여 tabular 데이터를 위한 딥러닝의 발전 과정을 설명하였다. 해당 논문에서는 딥러닝 방법론을 데이터 변환, 특화된 아키텍처 사용, 정규화 방법으로 크게 3가지로 분류하였다. 그리고 해당하는 방법론들의 성능 비교를 수행하였는데 오픈 데이터셋을 기준으로 역시 머신러닝의 정확도가 높은편에 속하고 있었다. 또한 일반적으로 데이터의 양이 많아질 수록 딥러닝의 정확도가 높아진다고 하는데 데이터 양이 많은 오픈 데이터 셋에서 SAINT 방법론의 성능이 두드러지는 것이 인상 깊었다. 두번째로 딥러닝이 tabular 데이터에 대해서 만능이 아니라는 제목의 논문을 리뷰 하였다. Tabular를 위한 딥러닝 방법론들은 모델에 적절한 데이터셋에서만 한정하여 높은 성능을 내고 있기 때문에 전반적으로 높은 성능을 내는 것은 여전히 머신러닝이고 딥러닝과 머신러닝을 앙상블 하는 것이 가장 좋은 성능을 내었다고 한다. 마지막으로 그렇다면 왜 tree 계열 머신러닝 모델이 딥러닝 방법론 보다 성능이 좋은지에 대하여 분석한 논문을 리뷰 하였다. 요약하자면 딥러닝은 데이터에 대하여 편향이 심하고 의미 없는 feature들을 잘 솎아 내지 못한다고 한다. 이에 반해 tree 계열 모델들은 이러한 feature들에 강건한 성능을 보여준다. 딥러닝을 공부하다 보면 머신러닝은 당연히 성능이 낮고 유용하지 않을 것 이라는 생각이 드는데 실제로 산업 현장에서 생성되는 데이터를 활용하기에는 여전히 머신러닝이 최고의 선택지 중 하나가 아닌가 라는 생각이 든다. 기존에 머신러닝을 통하여 전혀 수행하지 못하던 task같은 경우 딥러닝의 두드러진 발전으로 좋은 대안이 되겠지만 application을 위해서는 보다 다양한 스터디를 통하여 딥러닝 외에도 다양한 방법론에 대하여 알고 있어야 하겠다는 생각이 들어 동기 부여가 되었다. 유익한 세미나를 준비해주신 김경수 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

배진수

딥러닝은 비정형 데이터에서 머신러닝 대비 우수한 성능을 보이고 있지만, 정형 데이터에 대해서는 큰 성능 차이를 보이고 있지 않다. 이번 세미나에서는 왜 정형 데이터에 대한 딥러닝 및 머신러닝 분석 능력이 큰 차이를 보이고 있지 않은지에 대해, 알아갈 수 있다. 총 3가지의 논문 결과들을 통해, 상황 별 머신러닝 및 딥러닝 성능 차이 원인을 상세히 알 수 있었다. 인상 깊었던 결과로는, 딥러닝이 Tree-based 머신러닝 모델보다 유의하지 않았던 Feature에 민감하다는 것으로, 이 부분을 집중하여 딥러닝 모델이 개발되면 더 좋은 성능 확보가 가능하지 않을까 생각하였다.

백민재

이번 세미나는 tabular data에 대한 deep learning 방법에 대하여 소개를 한다. 우선 tabular data의 정의를 설명하고, 산업 대부분의 data는 tabular data 형태이기 때문에 산업에서 tabular data의 활용 예시를 간략하게 설명해주었다.
산업에서 tabular data를 위한 machine learning 과 deep learning이 필요한 이유는 이익과 관련된다. 설비 측면에서는 예지 정비를 위해서, 생산에서는 수율 증가를 위해서, 검사측면에선 공정 생략의 측면에서 machine learning 과 deep learning을 적용하여 수익성을 상승 시키고자 하는 것이다.
tabular data를 활용한 deep learning 방법들을 비교한 논문을 소개해주었다. 대부분의 tabular data에서는 deep learning보다는 tree 계열의 앙상블 모델이 가장 높은 성능을 보여주었다. 하지만 data가 매우 큰 dataset에서는 SAINT deep learning model이 가장 높은 성능을 보여주었다.
또한, tabular data를 활용한 딥러닝 방법들은 특정 dataset에서만 좋은 성능 보인다는 점을 지적하는 논문을 소개해주었다. tree 계열 앙상블 모델은 dataset에 상관없이 전반적으로 높은 성능을 보여준다. 하지만 딥러닝과 머신러닝을 앙상블 한다면 가장 좋은 성능을 낼 수 있다는 점을 시사해주는 논문이다.
앞의 두 개의 논문을 통해서 tree 계열의 모델이 tabular data에서 높은 성능을 낸다는 것을 알 수 있는데, 그 이유에 대해서 설명해주는 논문을 소개 해주었다. 첫번째 이유는 neural network model은 편향이 심하기 때문이다. 두번째 이유는 tabular data에는 의미 없는 feature들이 존재하는데 tree계열은 의미 없는 feature들에 대해 robust하기 때문이다.
이번 세미나를 통해서 tabular data의 중요성과 machine learning 분야의 중요성도 깨달을 수 있었다. 현재는 deep learning분야에 대해서만 관심을 가지고 학습을 하고 연구를 하고 있지만, tree계열과 deep learning 계열의 앙상블로 성능을 올릴 수 있다는 부분에서 많은 깨달음을 얻었다. machine learning의 기본을 놓치지 않고 활용할 수 있는 연구를 해야겠다는 생각이 들었다.
data 형태 중 가장 많은 data형태가 tabular data이고, 이를 위한 deep learning 모델 개발은 많은 흥미를 유발하는 분야 인 것 같다. 앞으로 해당 분야에 대해서 관심을 가질 수 있도록 유익한 세미나를 준비해주신 김경수 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

김창현

이번 세미나는 Comaprision of Machine/Deep Learning Methods for Tabular Dataset을 주제로 진행되었다.

Tabular data는 표 형태의 데이터로 주로 2차원 데이터를 의미한다. 또한 보통 행렬로 구성되어 있고 정형 데이터라 불리기도 한다. 제조업을 포함한 대다수 기업의 데이터베이스에 관리되는 자료의 형태는 정형이다. 실제로, 산업 현장 초단의 sesor data(계측 데이터)부터 시작해서 기업의 전사적인 자원을 관리하는 ERP(전사적 자원관리)를 확인해보면 거의 모든 데이터가 tabular 형태로 저장된다.

세미나에서 소개된 survey 논문에 의하면 tabular dataset을 활용한 deep learning은 크게 세 가지로 분류할 수 있다. 데이터 변환 방법, tabular data에 전문화된 구조(machine learning + neural network, transformer) 그리고 정규화 모델이다.

다양한 데이터셋을 통해 비교실험한 결과 아직까지 tree 기반의 앙상블 모델이 최고의 성능을 보여주었다. 하지만 large dataset에서는 SAINT라는 transformer 기반의 모델이 고전 machine learning 모델보다 좋은 성능을 보여주었다.

다음으로 소개된 논문에서는 딥러닝 모델이 특정 dataset에서만 우수한 성능을 보이는 점을 지적했다. 이를 해결하기 위해 전통적인 machine learning 모델과 deep learning 모델을 앙상블하여 실험했는데, XGBoost와 deep learning을 앙상블한 결과가 전반적으로 좋은 결과를 보여주었다.

마지막으로 소개된 논문에서는 그렇다면 왜 tree 기반 모델이 tabular data에서 deep learning 보다 좋은 성능을 보이는지 소개했다. 우선 neural network는 편향이 심하다는 점을 지적했다. 또한 tree 계열의 모델이 정보가 없는 feature들에 대해 더 rodust하다는 점을 소개했다. 실제로, 기존 dataset에 필요없는 feature를 소개했을때, 딥러닝의 성능이 빠르게 하락하는 것을 볼 수 있었다.

이번 세미나를 통해 tabular data을 처리하는 machine learning model과 deep learning 모델에 대한 개괄적인 이해를 알 수 있었다. 아직 공모전이나 프로젝트에선 tabular 데이터와 machine learning 모델을 많이 사용하는데, 이번 세미나에서 소개된 SAINT 모델을 구현해봐야겠다. 좋은 세미나를 소개해주신 경수형께 감사의 말씀을 드리며 후기를 마무리한다.

김현지

이번 세미나는 tabular 데이터에서의 머신러닝 방법론과 딥러닝 방법론의 비교를 주제로 진행되었다. 평소에는 비정형 데이터에 대한 딥러닝 방법론에 관심을 가지고 공부를 해왔지만, 현업(제조업)에서는 tabular 데이터를 많이 사용한다고 하셔서 tabular 데이터를 다루는 방법론들에도 많은 관심을 가져야겠다는 생각과 함께 집중해서 세미나를 청취했다. 특히 세미나 초반에는 실제 제조업에서 tabular 데이터가 어떻게 생성되고 어떻게 쓰이는지를 설명해주셔서 현업에서 제조 데이터를 활용하는 flow를 조금이나마 이해할 수 있었다.
본 세미나에서 다룬 논문들은 tabular 데이터 셋에서의 머신러닝 모델과 딥러닝 모델의 성능을 비교 분석하였다. 역시 tabular 데이터 셋에서는 딥러닝 모델보다 트리 계열의 머신러닝 방법론들이 좋은 성능을 보였다. 그러나 큰 규모의 데이터 셋에서는 SAINT라는 딥러닝 방법론이 머신러닝보다 더 좋은 성능을 보였고, XGBoost와 딥러닝 모델을 앙상블 했을 때 머신러닝 모델을 사용했을 때 보다 더 좋은 성능을 보이기도 하였다. 이는 tabular 데이터, 특히 큰 규모에서 딥러닝 모델의 활약을 기대할 수 있게 하는 결과였다. 그리고 마지막 논문에서는 왜 tabular 데이터 셋에서 트리 기반의 모델들이 여전히 딥러닝 모델들보다 더 좋은 성능을 내는지에 대해 분석하고 그 원인에 대해 설명하였다. 첫 번째 원인은 딥러닝 모델의 경우 편향이 심하다는 것이다. 나는 이 부분에 대해 딥러닝 모델은 파라미터가 많고 복잡하기 때문에 학습 데이터가 많지 않은 경우, 보지 못했던 데이터를 위한 추가적인 가정을 충분히 하지 못한다고 이해했다. 즉 적은 데이터에 오버피팅이 되기 쉽다는 것이다. 그러나 이 부분은 추후에 좀 더 공부해봐야 할 거 같다. 그리고 두 번째 원인은 tabular 데이터에는 의미없는 feature들이 있는데, 의미없는 feature들에 대해 딥러닝 모델들은 좋지 않은 영향을 받고 트리 기반 모델들은 robust하다는 것이다. 이 부분은 실험을 통해 증명을 해주었다. 딥러닝 모델들은 원본 데이터에서 스스로 좋은 특징을 추출한다고 생각해, 특별한 변수 선택을 진행하지 않고 사용한 경우가 많았는데 실험 결과를 보니 앞으로는 tabular 데이터 셋으로 딥러닝 모델링을 할 때 적절한 변수 선택을 해야 겠다는 생각이 들었다.
이번 세미나를 통해 tabular 데이터 셋에서는 왜 아직도 머신러닝 모델이 더 많이 활용되는 지 다시 한 번 생각해볼 수 있었다. 유익한 세미나를 진행해주신 김경수 연구원님께 감사의 말씀을 전하며 세미나 후기를 마친다.

Seminar