고려대학교 DMQA 연구실

2021 대한산업공학회 추계학술대회 - 김재훈

2022년 1월 31일 오후 9:45
조회수: 4208

Reviewed by

김재훈

[학회후기]

이번 대한산업공학회 추계학술대회는 작년과 마찬가지로 온라인으로 진행되었다. 오프라인에서 발표를 했던 춘계학술대회 때보다는 현장감이 덜했지만 좀 더 편하게 발표를 할 수 있었다. 사실 이번 발표는 연구 성과에 있어서 크게 만족을 하진 못했었다. 정형데이터 분야에 딥러닝에 있어서는 굉장히 도전적인 분야라는 것을 감안하였지만 그럼에도 좀 더 진척된 연구 성과를 가지고 오지 못한게 아쉬웠다. 다음 학회에는 좀 더 좋은 성과를 발표할 수 있기를 다짐했다. 이번 학회에서 새로웠던 점은 물론 주제의 다양성이 늘어났다는 것도 있지만 메타버스에 대한 관심이 높아졌다는 점이다. 메타버스가 블록체인에 연결되는 내용이 많다는 점도 이번에 알게 되었고 또한 블록체인에 대해 잘 모르고 있었는데 어떤 개념인지 가늠할 수 있었던 발표였다.

[발표후기]

현재 딥러닝 연구는 이미지와 텍스트 같은 비정형데이터 분석에서 탁월한 성능을 보이며 많은 발전을 이루고 있다. 하지만 정형데이터 분석은 여전히 XGBoost나 Random Forest 같은 머신러닝 계열의 모델이 활용 및 성능 측면에서 강세를 보이고 있다. 이에 최근에는 SAINT와 같이 정형데이터 분석에 알맞은 딥러닝 모델이 연구되고 있으며 동시에 적합한 자기지도학습 방식도 연구가 이루어지고 있다. 본 연구에서는 자기지도학습 중 non-contrastive 학습에 해당하는 BYOL로 정형데이터를 학습하는 방법론을 제시한다. SAINT에서 제시하고 있는 자기지도학습인 contrastive 학습이 정형데이터에 부적합한 점을 지적하고, 레이블이 적은 상황을 가정하여 제안 방법론으로 문제점이 개선됨을 입증하고자 한다.

질문 1. 정형데이터에 딥러닝을 적용했을 때 기존 머신러닝 방법론 대비 장점이 무엇인가?

기존 머신러닝 방법론과는 달리 딥러닝을 사용했을 때 다양한 표현학습을 수행하여 모델을 학습할 수 있다는 장점이 있다.

질문 2. Semi-supervised learning 역시 레이블이 희소한 상황에서 사용하는 딥러닝 방법론이다. Self-supervised learning으로 진행한 이유가 있는가?

최근에 self-supervised learning 방법론이 많은 관심을 받으면서 다양한 도메인에 적용이 되고 있다. 정형데이터에 적용해보는 연구 역시 활발하게 진행이 되고 있었고 최근에 SAINT라는 연구가 기존의 SOTA 모델보다도 더 좋은 성능을 낸다고 발표를 했기 때문에 이를 보완한 연구를 진행하였다.

[청취후기]

1. 다변량 시계열 데이터 분류를 위한 자기지도 학습 (조억, 김성범, 고려대학교 산업경영공학과)

해당 연구에서는 다변량 시계열 데이터에 적용 가능한 자기지도학습 방법을 제안하였다. 앞서 발표후기에서 언급한 것처럼 자기지도학습이 다양한 분야에 적용이 되는 중이고 시계열 분야도 그 중 하나에 속한다. 발표에서는 pretext task를 통한 학습을 진행하였으며 시계열 순차성 정보를 활용하여 특정 패턴을 파악하고자 했다. 이를 통해서 사전학습을 진행하였으며 학습된 인코더를 기존의 목표인 downstream task에 사용한다. 제안한 모델을 벤치마크 데이터셋에 적용을 했을 때 절반 정도에서 기존의 지도학습 모델 성능보다 더 좋은 성능을 기록하였다. 발표를 보면서 느낀 점은 결국 자기지도학습은 핵심은 pretext task를 잘 정의하는 것에 달려있다는 점이었다. 이미지의 경우와는 달리 시계열 데이터의 특성상 약간의 변형을 가할 경우 데이터의 의미가 전혀 달라질 수 있기 때문에 증강기법을 적용하기 어렵다. 다만, 최근에 시계열 분야도 자기지도학습에 대한 연구가 굉장히 활발하게 이루어지고 있기 때문에 다양한 논문을 보면서 pretext task를 어떻게 적용하는지 살펴볼만 할 것 같다.

Conference