- 2022년 10월 13일 오후 3:45
- 조회수: 13345
REFERENCES
INFORMATION
- 2022년 10월 14일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
레이블된 데이터가 부족한 환경에서 자기지도학습(self-supervised learning) 및 준지도학습(semi-supervised learning)이 효과적으로 활용될 수 있으며, 이미지 등 비정형 데이터의 폭발적인 증가와 맞물려 활발히 연구가 진행되고 있다. 하지만 그에 비하면 정형 데이터(tabular data)와 관련된 연구는 비교적 저조한 실정이다. 여전히 제조 분야를 비롯한 다양한 산업에서 정형 데이터가 생성되고 있으며 정형 데이터는 가치가 높아 데이터 분석 수요가 높다고 할 수 있다. 따라서 본 세미나에서는 왜 기존의 방법론이 정형 데이터에 효과적으로 성능을 발휘하지 못하는지 설명하고 정형 데이터에 적합한 최근 방법론을 소개한다.
참고문헌 :
[1] Arik, S. Ö., & Pfister, T. (2021). Tabnet: Attentive interpretable tabular learning. In Proceedings of the AAAI Conference on Artificial Intelligence, 35(8), 6679-6687.
[2] Bahri, D., Jiang, H., Tay, Y., & Metzler, D. (2021). Scarf: Self-supervised contrastive learning using random feature corruption. arXiv preprint arXiv:2106.15147.
[3] Borisov, V., Leemann, T., Seßler, K., Haug, J., Pawelczyk, M., & Kasneci, G. (2021). Deep neural networks and tabular data: A survey. arXiv preprint arXiv:2110.01889.
[4] Darabi, S., Fazeli, S., Pazoki, A., Sankararaman, S., & Sarrafzadeh, M. (2021). Contrastive mixup: Self-and semi supervised learning for tabular domain. arXiv preprint arXiv:2108.12296.
[5] Sun, B., Yang, L., Zhang, W., Lin, M., Dong, P., Young, C., & Dong, J. (2019). Supertml: Two-dimensional word embedding for the precognition on structured tabular data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.
[6] Ucar, T., Hajiramezanali, E., & Edwards, L. (2021). Subtab: Subsetting features of tabular data for self-supervised representation learning. Advances in Neural Information Processing Systems, 34, 18853-18865.
[7] Yoon, J., Zhang, Y., Jordon, J., & van der Schaar, M. (2020). Vime: Extending the success of self-and semisupervised learning to tabular domain. Advances in Neural Information Processing Systems, 33, 11033-11043.
청취자 후기

이번 세미나에서는 self-supervised learning for tabular data에 대하여 설명을 해주었다. 우선 self/semi supervised learning이 무엇이며 tabular data가 무엇인지를 설명해주었다. 그리고 tabular data를 사용한 self/semi supervised learning 모델(VIME,SubTab,SCARF 그리고 Contrastive Mixup)을 구조와 학습방법에 대하여 자세하게 설명을 해주었다.
VIME-self의 구조는 tabular data 에 mask를 씌워 data에 변형을 준 후 encoder-decoder 구조를 활용하여 reconstruction loss를 통해 학습을 하는 모델이다. 여기서 mask estimator 추가가 되는데, mask estimator를 통해서 input data에서 어떤 data가 변형이 되었는지를 찾는다. 이를 통해서 feature 들간의 상관관계를 잘 찾을 수 있다. VIME-semi VIME-self에서 학습했던 encoder를 재사용 한다. 우선 labeled sample은 encoder를 지나 predictor를 통해 label을 예측한다. unlabeled sample은 random하게 생성된 mask로 인해 k 개의 data가 만들어지고 해당하는 k 개의 data가 encoder와 predictor를 거쳐서 k개의 label을 output으로 낸다. 여기서 k개의 output은 동일한 sample에서 나온 것이므로 k개의 output이 모두 같아야함을 이용하여 consistency loss를 계산하고 predictor를 학습시킨다.
SubTab은 input data를 여러 개의 부분집합으로 나누어서 encoder-decoder 구조를 활용하여 reconstruction loss를 통해 학습을 한다. 추가적으로 encoder를 통해서 aggregation된 data를 projection 을 통해서 contrastive loss와 distance loss를 계산한다.
SCARF는 input data를 두개로 만들어주는데 한쪽으로는 원본 상태, 다른쪽으로는 corrupt하여 보내게 된다. 그리고 encoder와 pre-training head를 통하게 되고 여기서 나온 두개의 data는 같은 input에서 나온것이므로 contrastive loss를 활용하여 학습을 한다. 그리고 fine-tuning 단계에서 pre-training에서 사용했던 encoder를 사용하고, 새로운 classification head를 사용하여 classification을 실시하게 된다. 모델 구조에서 알 수 있듯이 VIME과 SubTab과는 달리 오토인코더 구조를 통해서 기존 데이터 복원을 하지 않는다는 특징이 있다.
Contrastive Mixup은 encoder-decoder 구조를 사용하고, 추가적으로 encoder내부의 특정 layer에서 mix-up을 활용하여 데이터를 증강시키고 contrastive loss를 통해 모델을 학습 시킨다. 그리고 학습시킨 encoder를 사용하여 downstream task에서 classification을 실시한다.
정형데이터는 회사에서 가장 대표적이고 자주 보게되는 데이터인 만큼, 정형데이터에 대한 self/semi supervised learning의 방법에 대하여 흥미를 가지고 경청할 수 있었다. 정형데이터와 관련된 논문에 앞으로도 관심을 가질 수 있게 해주고 논문에 접근을 쉽게 할 수 있도록 도와준 고병은 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

정형 데이터에 대한 준지도/자가지도학습 세미나를 청취하였다. 이미지 데이터를 중심으로 우수한 성능을 갖는 준/자가지도학습이 정형 데이터 연구 분야에서 어떤 포지션을 취하고 있는지 본 세미나에서 알 수 있다. 준/자가지도학습에 대한 핵심 아이디어들이 대부분 데이터 증강 기법에 의존하고 있기에, 정형 데이터 준/자가지도학습 역시 어떤 방법으로 정형 데이터 증강을 시켜야 하고, 활용해야 하는지 집중 되어 있다. 정형 데이터에 대한 최신 준/자가지도학습 알고리즘(VIME, SubTab, SCARF, Contrastive Mixup)이 4개 소개되어 있으며, 기존 준/자가지도학습 알고리즘들에 대해 어느 정도 이해가 있는 경우 매우 이해하기 쉽게 설명 되어 있다. 본 세미나를 통해, 준/자가지도학습 관점에서의 정형 데이터 특성들을 잘 배울 수 있었다. 좋은 세미나를 준비하느라 고생하신 병은이 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 Tabular data에 대한 self/semi-supervised learning을 주제로 진행되었다. self/semi-supervised learning은 대조학습의 SimCLR, MoCo와 같은 방법론을 예시로 들 수 있으며, semi-supervised learning은 여러 아이디어를 혼합한 hybrid인 FixMatch, MixMatch 방법론을 예시로 들 수 있다. Tabular data란 간단하게 엑셀과 같이 행과 열로 이뤄진 정형 데이터로 이미지나 소리 같은 데이터는 비정형 데이터라고 한다. 정형 데이터는 비정형 데이터보다 더 쉽게 접근할 수 있고 다룰 수 있기에 산업 현장에서 분석 수요가 높다. 하지만 정형 데이터의 경우 레이블링이 시간과 비용이 소모되고 범주형 데이터인 경우 차원의 저주라는 문제점을 갖고 있다. 또한, 기존에 많이 활용되는 증강 기법(crop 등)들을 사용하기 어려운 한계점이 있다. 본 세미나에서는 이러한 한계점을 극복하는 Tabular data semi/self-supervised learning 방법론 4개가 소개되었다.
VIME의 경우 Self와 semi를 결합한 구조의 방법론이다. Self인 사전학습에서는 Tabular data에 랜덤한 변형(노이즈 전략)을 한 뒤 어떤 데이터가 변형되었는지를 찾으며 인코더를 학습한다. semi에서는 레이블이 없는 데이터에 변형을 적용하여 증강 데이터를 여러 개 생성하고 consistency loss를 통해 예측기를 학습 한다. SubTab의 경우 오토인코더의 구조를 갖고 있으며, 입력 데이터를 부분 집합으로 나누어 학습하는 것이 특징이다. 나눈 부분집합의 동일한 행의 데이터는 positive pair로 나머지는 negative pair로 구분하여 대조학습을 한다. SCARF의 경우 Tabular data의 분포를 활용하여 증강데이터를 만들어 positive pair를 만들어서 사전학습하고, 사용된 인코더를 이용하여 fine tuning을 한다. Contrastive Mixup은 semi 방법론으로 오토인코더의 구조이며, mix-up을 인코더 내부에서 진행하여 데이터 증강을 한다. 정형 데이터의 경우 특징이 어느 정도 추출된 벡터를 활용하여 mix-up을 수행해야 하기 때문이다. Pseudo 레이블링을 통해 모델의 정확도를 높이는 특징을 갖고 있다.
개인 의견으로 산업 현장은 전산 시스템에 매일 많은 데이터들이 축적되고 있고 방대한 데이터를 이미 가지고 있다. 도메인에 대해 잘 알고 있는 관리자들이 데이터 분석을 통해 유의미한 정보를 얻는 것을 회사들은 바라고 있지만, 도메인과 인공지능 모델링을 동시에 할 수 있는 전문가의 부재로 방대한 데이터를 활용하지 못하고 있는 경우가 많다고 생각한다. 현재 많은 회사들이 관리자들에게 교육을 통해 데이터 분석 능력을 요구하고 있고, 결국 교육된 관리자들이 제일 먼저 현업에 적용할 수 있는 대다수의 데이터는 Tabular data라고 생각한다. 그러한 의미에서 산업 현장에 인공지능의 중요성이 높아질 수록 해당 분야에 더 많은 관심이 늘어날 것으로 예상된다. 좋은 세미나를 준비하느라 고생했다는 감사의 말을 고병은 연구원님께 전하며 세미나 후기를 마친다.

이번 세미나는 정형 데이터에 대한 준지도/자기 지도학습에 대해 진행되었다. 실제 현실에서는 수많은 데이터가 생성되기 때문에 대용량의 데이터를 수집하는 것은 어렵지 않지만 레이블 된 데이터를 구하는 비용이 매우 많이 들기 때문에 준지도/자기 지도학습이 주목 받고 있다. 특히 이미지와 같은 비정형 데이터를 활용한 준지도/자기 지도학습 방법론이 굉장히 많이 연구되고 있다. 하지만, 정형 데이터에 대해 기존 방법론을 적용했을 때 데이터 증강 기법 적용의 어려움, 특징 간의 관계와 같은 이유로 어느 정도 한계가 존재한다. 이러한 한계를 개선한 정형 데이터를 위한 준지도/자기 지도학습에 관한 연구 4가지(VIME, SubTab, SCARF, Contrastive Mixup)를 본 세미나에서 소개하고 있다. 그중 가장 흥미로웠던 알고리즘은 준지도/자기 지도학습 네트워크를 모두 설명하고 있는 VIME이었다. 특히, VIME-Self에서 Masking 한 데이터와 기존 데이터와의 reconstruction Loss뿐만 아니라 Mask Estimator를 활용해 Recovered Mask를 생성하고 기존 Mask와의 Cross-entropy loss를 계산하여 두 loss 모두 학습에 사용한다는 점이 굉장히 흥미로웠다. 실제로 개인 연구에서 Masked Reconstruction task를 수행하는 부분이 존재하는데 해당 부분에 VIME 구조를 적용하는 것이 가능할지에 대해 실험해 보고 싶은 욕구가 생겼다. 흥미로운 세미나를 준비하느라 고생하신 병은이 형에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Tabular data에서 Self/Semi-supervised Learning을 적용한 방법론들에 대해 진행되었다. 최근 비정형데이터의 분석수요가 크게 증가하는 추세이지만, 정형데이터에 대한 분석의 중요성은 여전히 남아있다. 일반적인 비정형데이터처럼 Tabular 데이터도 전문가의 지식없이 레이블링하는 것은 어려움이 존재하기에 Self/semi-supervised Learning을 적용해볼 수 있지만, 이는 여전히 Tabular 데이터가 결측치에 민감하고 Outlier가 극단적이며 변수간 관계가 불규칙하다는 특징 때문에 어려움이 따른다. 본 세미나에서는 이처럼 까다로운 Tabular 데이터의 세계에 적용할 수 있는 4가지 Self/Semi-supervised Learning 방법론을 소개한다.
먼저 VIME은 Self 및 Semi-supervised Learning을 모두 사용한다는 특징을 갖는다. 이때, 사전학습 단계에서 오토인코더의 재구축오차 뿐만 아니라, 변형된 부분을 식별하는 Mask Estimator를 활용한다. 또한 변형된 부분을 생성할 때 Tabular 데이터에서 데이터 증강기법으로 활용될 수 있는 Column-wise swap noise를 활용한다는 특징을 갖는다. 두번째로 SubTab은 오토인코더에서 부분집합 단위로 인코딩하여 학습한다. 추가적으로 Contrastive Loss를 활용하여 모델이 정보를 더 학습할 수 있도록 설정하였다. 세번째는 SCARF이다. 사실 해당 방법론은 큰 특이점을 찾아볼 수는 없었다. 일반적인 이미지 데이터에서 Contrastive Learning과 유사했으며, Fine-tuning 시 Encoder를 Freeze하지 않는다는 것 정도가 참신하게 다가왔다. 마지막은 Contrastive Mixup이다. Mixup을 통해 데이터를 증강하는데, 동일한 레이블을 가진 데이터에 대해서만 Mixup을 한다는 특징을 갖는다. 또한 Unlabeled 데이터에 Pseudo-label을 부여하는데, 모델의 예측값을 활용하는 것이 아닌 Representation 벡터와 유사도를 활용한다는 점이 인상깊었다.
이번 세미나를 통해 Tabular 데이터에 Self/Semi-supervised Learning을 적용한 사례들을 접할 수 있었다. 이미지 데이터에 관심이 많아서 Tabular 데이터에는 많이 소홀했는데, 쉬운 설명으로 새로운 개념을 많이 얻어갈 수 있었다. 유익한 세미나를 준비해주신 고병은 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나에서는 self/semi supervised learning for tabular data를 주제로 세미나가 진행됐다. 보통 self/semi supervised learning의 경우, 이미지나 자연어 처리 분야에 연구가 집중되어 있다. 따라서 해당 방법론을 바로 tabular data에 적용하게 되면, 몇 가지 애로 사항이 발생하게 된다. 대표적으로 augmentation이 적합하지 않다는 점이 있다. 일반적으로 비전 분야에서는 augmentation을 적용해도 데이터 자체의 의미는 큰 변화가 없다. 반면 tabular data의 경우 이미지에서 사용하는 augmentation을 잘못 적용할 경우, 데이터 자체의 내용에 변형을 가할 수 있게 되는 것이다. 따라서 tabular data에 적합한 augmentation을 고안하는 것이 중요하다. 본 세미나에서 설명하는 VIME, Subtab, SCARF, Contrastive Mixup은 이런 점을 고려하여 tabular data에 적합한 augmentation과 알고리즘을 제안한다. 최근 self/semi supervised learning 분야에 관련한 논문을 보면 대체로 이미지나 자연어 분야의 논문이었는데, tabular data쪽 알고리즘을 알 수 있게 된 것이 신선하고 새로웠다. 또한 해당 알고리즘들을 쉽게 설명해줘서 좀 더 이해하기 쉬웠다. 좋은 세미나를 준비해준 병은이 형에게 감사의 말씀을 전하며, 세미나 후기를 마친다

금번 세미나는 tabular data에 적용하는 self/semi-supervised learning에 대한 내용으로 진행되었다. 크게 VIME, SubTab, SCARF, Contrastive Mixup에 대해 각 방법론별 특징을 중심으로 설명이 진행되었다. VIME은 mask estimator로 주어진 데이터에 변형을 가한 후 어떤 데이터가 변형이 되었는지를 찾는데 이 때, 정형 데이터에 적합한 noise strategy를 적용했다. SubTab은 입력 데이터를 여러 개의 부분집합으로 나누어 학습을 진행하는 것이 핵심인 방법론이다. SCARF는 일반적인 cross-entropy loss와 contrastive loss를 활용해 학습을 진행했으며, Contrastive Mixup은 mixup을 통해 데이터를 증강하고 매 epoch 마다 pseudo label을 업데이트 해가며 학습을 진행했다.
개인적인 연구뿐만 아니라, 연구실 내 많은 연구들이 최근 self/semi-supervised learning 알고리즘들을 활용해 진행되고 있다. 그 중에서도 signal data나 image data에 사용하기 적합한 방법론들이 특히 많이 쓰이고 있다. 그래서 개인적으로는 tabular data에 대해서는 이런 방식을 어떻게 적용할 수 있을지에 대한 궁금증이 있었다. 특히 tabular data에 맞는 augmentation 기법은 어떻게 적용하고, positive/negative sample은 어떻게 정의할 수 있을지 궁금했다. 이번 세미나를 통해 이런 궁금증이 조금 해소될 수 있어서 기뻤다. tabular data는 여전히 산업 현장에서 많이 수집되고 있는 데이터이므로 해당 데이터를 잘 분석할 수 있는 능력을 키우는 것 또한 매우 중요하다고 생각한다. 이번 세미나를 기반으로 tabular data를 처리할 수 있는 다양한 기법에 대해 더 공부해 지식을 키워야겠다고 생각했다. 좋은 세미나를 준비해준 병은이에게 고맙다고 전해주고 싶다.

이번 세미나는 Tabular 데이터에 대한 Self/Semi-supervised learning을 주제로 진행되었다. 제조 산업 현장에서는 데이터 중 상당수가(거의 대부분이) Tabular 데이터로 제공되는 경우가 많기 때문에 굉장히 관심있는 주제라서 반가웠다. 무엇보다 의외로 Tabular 데이터를 분석했을 때 모델의 성능이 좋지 못한데, 이는 missing value, outlier, class imabalance, feature의 유의차가 크지 않거나 전처리의 어려움 등이 원인이 된다고 한다. 이러한 어려움 가운데, self semi supervised learing을 어떻게 '잘' 할 것인지가 세미나의 주제가 되었다.
다양한 방법 중에서 오토인코더를 사용하거나 대조학습을 사용한 방법론이 소개되었는데, 가장먼저 VIME은 tabular 데이터의 cell에 mask를 주어 변형을 시킨다음 encoder - decoder 구조의 reconstruction loss와, 기존 mask의 위치를 예측하는 mask estimator의 결과값과의 cross entropy loss 두가지를 사용하는 특징을 가지고 있다. 두번째로 SubTab은 Input을 여러개의 subsets으로 나누어 사용하는 특징이 있는데, 여러개로 나뉘어 진행된 예측값에 대해 Autoencoder 구조를 통과하여 구한 reconstruction loss를 구할 때, subsets마다의 서로의 hyperparmeter를 일정 수준 교차해주어 feature를 더 잘 이해할 수 있도록 한것이 큰 특징이었다. 또한 subset간의 positive/negative pair를 정의하여 contrastive loss를 활용하여 성능을 높였다. SCARF의 경우는 원본과 corrupt된 데이터의 서로 다른 feature를 weight를 share하는 두개의 네트워크를 통과하여 얻은 contrastive loss를 활용하는 학습하고, fintuning 하는데, autoencoder로 데이터를 복원하여 비교하지 않고 그대로 contrastive loss를 사용하는 것이 주요한 특징이었다. 마지막으로 contrastive Mixup은 Encoder로 구한 feature를 가지고 Mixup을 사용하는 방법이다.
개인적으로 이러한 정형데이터(tabular)에 대해서 Self/Semi supervised learning 방법론들의 가장큰 장점은 사람도 구분하기 힘든 것에 대한 학습을 진행할 수 있다는 점이라고 생각한다. 엔지니어 조차 변수가 엄청나게 많으면 그것이 문제가 있는지, 또는 어떤 분류로 놓아야 하는지 판단하기 어려울 것이다. 이번 세미나에서 소개된 방법론들이 사람조차 구분하기 힘든 유의차를 조금더 잘 보여줄수만 있다면, 정말 뜻깊은 되는 연구분야가 되지 않을까 싶다. 아주 재미있고 실제로 사용해보고 싶어지는 내용들을 알기쉽고 명료하게 설명해주신 고병은 연구원에게 감사를 드린다.

다양한 Self/Semi-Supervised Learning 방법론이 이미지나 자연어 등의 비정형 데이터에서 성능 향상에 기여한다는 것에 따라 정형 데이터에도 이러한 프레임워크를 모사하는 시도가 증가하고 있다. 금일 세미나에서는 정형 데이터에서 활용 가능한 Self/Semi-Supervised Learning 방법론들이다. 금일 세미나에서 인상 깊은 방법론들이 많이 소개되었으나, 주관적으로 테이블 데이터에 Contrastive Learning를 적용함에 있어 어떻게 Positive Pair를 정의하였는지 위주로 보았으며 합리적인 방법들이 대거 소개된 것 같다.
VIME의 경우 Column-wise swap noise를 통해 positive sample을 생성한다. 이는 정형 데이터에서 각 Column 의 변수가 서로 다른 유형(범주형/연속형)이거나 변수 별로 스케일이 다를 수 있다는 점을 파고드는 데이터 증강 기법이다.
SubTab은 동일한 row로 부터 나온 sub-feature set끼리 positive, 다른 row로부터 나온 sub-feature set은 negative pair로 보았다. 이러한 경우, masking이나 noise를 취하였을 때 존재할 수 없는 instance가 생기는 정형 데이터의 단점을 보완한 기법이다.
Contrastive Mix-up의 경우 mix-up한 데이터를 기준으로 contrastive learning을 수행하는 데, 특이한 점은 raw feature space가 아닌 representation feature space에서 mix-up을 진행한다는 것이다. 이는 범주형 변수의 존재 혹은 데이터 도메인의 문제로 인해 개별 인스턴스끼리 mix-up(convex combination)을 취한 객체가 실제로 존재하지 않을 수 있다는 점을 보완한 것이다. 따라서 연속형 잠재변수들로 이루어진 latent space에서 convex combination을 통해 table 데이터에서도 mix-up 증강 기법과 contrastive learning을 수행할 수 있게 하였다.
Self/Semi supervised learning은 도메인 별로 사용할 수 있는 스키마가 다르다. 자연어나 음성, 정형 데이터에서는 Rotation/Jigsaw/Colorization을 사용할 수 없으며, 자연어의 경우 Adversarial Noise를 주는 것이 불가능하다. 각 데이터의 유형별로 적절한 방법론들이 생겨나는 가운데, 아직까지 데이터의 큰 부분을 차지하고 있는 정형 데이터에서도 이러한 시도들이 많다는 것을 알 수 있었다.

이번 세미나는 Self/Semi-Supervised Learning for Tabular Data를 주제로 진행되었다.
Self supervised learning은 데이터에서 스스로 레이블을 생성하고 지도 학습 기법으로 레이블 된 데이터셋에서 모델을 훈련하는 방법이다. Semi supervised learning은 레이블이 있는 데이터와 레이블이 없는 데이터가 훈련집합을 구성하는 상황에서 이루어지는 학습을 만한다.
Self/Semi supervised learning은 비정형 데이터에서 굉장히 활당하게 연구되고 있으며 동시에 높은 성능을 보이고 있다. 하지만 이런 방법론들이 그 필요성이 존재함에도 불구하고 tabular dataset에는 아직 활발하게 적용되고 있지는 않다. 본 세미나에서는 tabular 데이터를 활용한 Self/Semi supervised learning 기법이 소개되었다.
VIME은 self supervised learning과 semi supervised learning을 결합한 방법이다. 우선
tabular dataset에 mask를 씌워 변형을 시킨다은 encoder-decoder 구조를 통해 reconstruction loss 계산한다. 동시에 mask의 위치를 예측하여 cross-entropy loss를 계산하는데 VIME에서는 loss 두가지를 한 번에 사용한다. SubTab은 오토인코더의 구조를 사용한 방법이다. windowing 기법처럼 데이터셋을 분할하여 학습한다. 이때 hyperparameter를 통해 분할된 dataset이 일정 수준 교차하게 된다. 이때 동일한 행에서 나온 데이터는 positvie 다른 행에서 나온 데이터는 negative 로 정의했는데, 이 부분이 합리적이라고 생각되었다. SCARF는 이미지를 활용한 contrastive learning과 비슷했고, fine tuning 단계에서 encoder를 학습시킨다는 특징이 있었다. 마지막으로 Contrastive Mixup은 mixup 기법을 사용해서 데이터를 증강하는데 동일한 label을 가진 데이터에 대해서만 mixup을 한다는 특징을 같는다.
이번 세미나를 통해 tabular 데이터에 대한 self/semi supervised learning 기법을 접할 수 있었다. 석사 논문 경진대회에서 병은이형의 tabular 데이터를 활용한 연구가 가장 인상 깊었는데, 이번 세미나에서 소개된 논문을 다시 읽어보고 구현해봐야겠다. 좋은 세미나를 소개해준 병은이형께 감사의 말씀을 드리며 후기를 마무리한다.

이번 세미나는 Self/Semi-Supervised Learning for Tabular Data 주제로 병은이형이 발표하였다.
Self/Semi-Supervised Learning은 레이블이 없는 데이터에 대한 적절한 표현을 학습하는 방법론으로써 이미지 데이터에 중점을 두어 많은 연구가 되어왔다.
이미지는 레이블을 생성하기 쉬운 반면 제조 분야에서 수집되는 정형 데이터는 레이블을 생성하기가 매우 어렵다.
따라서 최근에는 레이블이 없는 정형 데이터에 대한 효과적인 표현 학습을 할 수 있는 방법론이 연구되고 있다.
오늘 소개한 VIME부터 Contrastive Mixup은 정형 데이터에 Self/Semi-Supervised Learning을 접목한 연구였다.
기본적인 Masked Reconsturction Task부터 Contrastive Learning을 위한 Positive/Negative 정의를 하는 것이 인상깊었다.
실제로 정형 데이터에 Contrastive Learning을 적용하기 쉽지 않다는 것을 알고 있었지만 이번 세미나를 통해 어떻게 정의하고 있는지 배울 수 있는 시간이었다.
세미나를 통해 앞으로의 연구 방향은 정형 데이터의 특성이 크게 변질되지 않으면서 적절하게 변환하여 활용할 수 있는 Data Augmentation 기법 연구가 될 것 같다.