- 2023년 10월 10일 오후 1:58
- 조회수: 21190
INFORMATION
- 2023년 10월 13일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 "시계열 데이터에 전이 학습 적용 시 최적의 소스 도메인 데이터 셋을 선정하는 방법"을 주제로 진행되었다. 먼저, 시계열 데이터의 레이블이 부족한 case 3가지와 각 경우에 사용 가능한 방법론에 관해 소개해 주었다. 시계열 데이터에서 레이블이 부족한 경우는 case 1: 레이블은 되어 있으나 데이터의 개수가 부족한 경우, case 2: 데이터는 충분하지만 레이블링 데이터가 없는 경우, case 3: 일부 데이터에 대해서만 레이블, 대부분 레이블이 없는 경우, 크게 3가지로 구분될 수 있다. 경우마다 적용 가능한 방법은 Indomain(data augmentation, self-supervised learning, semi-supervised learning)과 cross-domain(transfer learning, unsupervised domain adaptation, semi-supervised domain adaptation) 방법 두 가지로 분류될 수 있다. 본 세미나에서 핵심적으로 언급되고 있는 부분은 cross domain 방법 중 소스 도메인과 타겟 도메인 간 분포 차이가 존재할 때, 소스 도메인 데이터 셋으로 사전 학습을 진행하고 타겟 도메인 데이터 셋으로 미세 조정을 진행하는 방법인 inductive transfer learning에 관한 2가지 논문을 소개해 주었다. 해당 논문에서 공통으로 언급하고 있는 부분은 전이 학습이 항상 효과적인 것이 아니며, 소스와 타겟 간 궁합이 중요함을 언급하고 있다.
첫 번째 논문(transfer learning for time series classification)은 시계열 데이터에 전이 학습을 적용할 때, 사전 학습에 사용된 소스 데이터 셋의 영향을 최초로 분석한 연구이다. 해당 논문에서는 총 85개의 데이터 셋을 사용하였으며, 각 타겟 데이터 셋에 대해 84개의 소스 데이터 셋이 존재하는 상황이다. 최적의 소스 데이터 셋을 선정하기 위해서는 총 7140번의 실험을 진행해야 하는데, 이는 굉장히 비효율적이다. 이를 위해, 소스와 타겟 간 유사성(IDS; DTW 사용)을 계산하여 최적의 소스 데이터 셋을 선정하였다. 그리고 실제 실험을 통해 IDS가 낮은 경우(두 데이터 셋 간의 거리가 가까운 경우), 전이 학습을 사용하지 않았을 때 대비 성능이 더 우수하였으며, 모든 소스 데이터 셋과 비교하였을 때도 최적의 결과를 도출한 것을 보여주고 있다.
두 번째 논문(source model selection for deep learning in the time series domain)은 첫 번째 논문에서 소스와 타겟 데이터 셋 간의 유사성만으로는 최적의 소스 데이터 셋 선정에 한계가 있음을 지적하며 타겟 데이터와 사전 학습된 모델을 사용하여 최적의 소스 데이터 셋을 선정하는 방법을 제시하였다. 이를 위해, 각 소스 데이터 셋으로 사전 학습된 모델을 사용하여 일부 타겟 데이터의 샘플에 대해 클러스터링이 잘 되었는지를 정량적으로 보여주는 MSC(Mean Silhouette Coefficient)를 계산하여 최적의 사전 학습 모델을 선정하였다. 본 논문에서는 첫 번째 논문 대비 더 우수한 성능을 보여주고 있음을 실험을 통해 보여주고 있다.
세미나의 주제가 시계열 데이터의 부족한 상황을 극복하는 방법론에 생소했는데, 본 세미나를 통해 관련 방법과 기초 지식을 습득할 수 있었다. 유익한 세미나를 준비해 준 종원이형에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 “시계열 데이터에서 전이학습에 적합한 Source 데이터를 어떻게 선정할 수 있을까?”에 대해 진행되었다. 연구실에서 이러한 Domain과 관련된 연구들이 많이 진행되고 있는데, 기존의 Domain 관련된 연구와는 사뭇 다른 방향을 갖고있다. 기존 Domain Adaptation 등 연구들은 Source 도메인이 정해져 있다고 가정하는 반면, 해당 분야는 Source 데이터가 정해져 있지 않고, 여러 개가 존재한다고 가정하며, 여기서 전이학습의 Pretrained 모델을 위한 최적 Source 데이터셋을 찾고자 한다. 본 세미나에서는 이와 관련하여 2가지 연구를 소개한다.
1) IDS: 해당 연구는 Source 데이터와 Target 데이터 간 유사도를 고려하여 최적의 Source 데이터셋을 산출한다. 이때, 유사도라는 개념이 필요한데, 이를 위하여 Inter Dataset Similarity라는 IDS척도를 제안한다. 이는 단순한 유클리디안 거리가 아닌, DTW기반의 거리를 활용한다는 것이 특징이다.
2) SMS: IDS에서 Source와 Target 데이터의 유사성은 학습 성능에 직접적인 영향을 미치지 않는다는 한계에서 기인한다. 이는 Source로 학습된 Pretrained 모델과 Target 모델 간 유사도를 비교한다. Pretrained모델에 Target 데이터를 넣어 Embedding 벡터를 산출한 후 → 이들에 대해 실루엣 스코어 계산 → MSC 획득 → 유사도를 산출한다.
두 방법론 모두 서로 다른 상황에서 활용 가능한 방법론을 제안하였다. 하지만 적절한 1가지 데이터셋만을 고르는 것은 다소 아쉬운 부분이다. (데이터를 섞어 여러 조합을 고려할 수 있다고 하더라도, 계산비용이 기하급수적으로 증가하는 알고리즘들이다.) 왜냐하면 일반적으로 학습데이터 양이 많을수록 성능은 증가한다는 것이 인공지능의 정설이기 때문이다. 만약 여러 데이터셋 조합까지 낮은 계산비용으로 고려 가능하다면 보다 현실 활용 가능성이 높아질 것으로 생각된다. 유익한 세미나를 준비해준 최종원 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 시계열 데이터에서의 전이학습을 위한 소스 데이터 선정이라는 주제로 진행되었다. 시계열 데이터는 굉장히 많이 수집되고 있으나 Labeling이 되어 있는 데이터는 많지 않기 때문에 이를 극복하기 위한 다양한 방법론들이 연구되어 지고 있다. 본 세미나에서는 특히 시계열 데이터의 Transfer Learning과정에서 어떤 Source 데이터셋이 효과적인지 선정하는 연구를 소개하였다. 첫번째 논문은 IDS(데이터셋 간의 유사성)라는 방법론이다. Source 데이터셋과 Target 데이터셋의 상호 유사도를 평가하여 유사도 높은 Source 데이터셋을 선택할 수록 Target 데이터셋에 대한 성능이 높아진다는 매우 직관적인 결과를 도출하였다. 당연하게도 유사한 분포를 가지는 데이터셋을 학습하면 Test시에도 맞출 확률이 높아진다는데는 이견이 없을 것 같다. 시계열 데이터의 유사도를 계산할때 DTW를 사용하였으며 이러한 데이터셋 선정에 따른 성능 영향을 최초로 연구하였다는데 의의가 있는 재밌는 논문이였다. 두번째 논문으로 SMS(Source Model Selection)개념을 소개하였다. 이는 Transfer Learning에서 전이되는 것은 데이터가 아닌 파라미터이기 때문에 데이터셋의 유사도가 성능을 직접적인 영향을 미치지 않기 때문이라고 주장한다. 따라서 이를 MSC(Mean Silhouette Coefficient)를 통해서 정량화하여 최적의 Source 데이터셋을 탐색하는 방법론이다. 시계열 데이터의 Transfer Leanring이라는 주제와 기존의 Domain Adaptation과의 연구와는 다소 차이가 있어보였다. 기존에는 Source 데이터셋을 알고 있을 때 모르는 Target 데이터셋에 대해 높은 성능을 유지하는 것이 목적이었다면 본 세미나에서 소개된 방법론들은 최적의 Source 데이터셋을 선정하는 것이기 때문이다. 흥미로운 세미나를 준비해준 최종원 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터에 대한 전이학습 방법론을 주제로 진행되었다. 딥러닝 모델이 시계열 모델에서도 좋은 성능을 보였지만, 다른 데이터들과 마찬가지로 충분한 양의 데이터를 수집해야 한다는 단점이 있다. 하지만 데이터 수집이 어렵거나, 레이블링이 어려운 경우가 많기 때문에 이러한 경우에도 딥러닝을 효율적으로 학습시키기 위해 사용할 수 있는 방법론이 전이학습이다.
전이학습은 기본적으로 다른 데이터셋(source)으로 학습시키고 모델의 파라미터를 가져와 기존의 데이터셋(target)으로 미세조정하는 형식이며, 데이터 부족 상황일 때 사용되는 방법론들은 주로 domain adaptation으로 불린다. 이러한 방법론들은 근본적으로 데이터셋간의 차이가 크면 성능이 향상되지 않기 때문에 이를 측정할 수 있는 방법론들을 소개하였다.
첫 번째는 데이터셋 간의 유사성을 측정하는 IDS 방법론이다. 일반적인 정형 데이터라면 두 데이터셋간의 차이는 유클리디안이나 마할로노비스 등의 메트릭으로 측정하겠지만, 시계열의 특성상 스케일이 다르거나 shift가 발생하는 경우가 많아 DTW를 사용하였다. 결론적으로 유사도가 높은 source 데이터셋으로 학습시킨 경우 성능이 증가하였다.
두 번째는 미리 학습된 모델로 데이터에 대한 적합성을 측정하는 SMS 방법론이다. 실제로 딥러닝 모델들은 대형 데이터셋에 대한 사전학습된 모델들을 제공하는 경우가 많다. 이러한 경우 대형 데이터셋을 다시 학습시키는 것 보다, 학습되어있는 사전학습 모델들 중 새로운 데이터에 적합한지를 측정하는것이 더 효율적이다. 따라서 이 방법론에서는, 새로운 데이터를 사전학습된 모델의 입력값으로 사용하여 embedding 벡터들간의 거리를 이용한다. 벡터들이 무작위적으로 분포한다면 적합하지 않은 것이고, 어떤 유효한 분포를 갖는다면 적합하다고 판단하며 이를 실루엣 스코어로 판단한다. 코사인 거리 기반의 실루엣을 이용하였을 때 가장 좋은 성능을 보였다.
전이 학습에 매우 다양한 연구들이 있지만, 그중에서도 현실에서 사용하기 쉬운 방법론들 위주로 소개해준 최종원 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

데이터 부족 문제를 극복하는 방법에는 여러 가지가 있다. 대표적인 방법은 다른 Source에서 수집된 데이터셋을 예측 모델의 추가 학습용 데이터셋으로 활용하는 것이다. 여기서 생길 수 있는 궁금점은 어떠한 Source에서 수집된 데이터셋을 사용해야 모델의 성능을 가장 많이 높일 수 있냐는 것이다. 예를 들어, 우리에게 10개의 각기 다른 Source에서 수집된 10개의 데이터셋이 주어져있을 때, 이 중 어느 데이터셋들이 모델 성능 향상에 가장 효과적일지 결정해야 함을 의미한다. 이에 대한 답변을 위해 본 세미나는 2편의 연구 결과를 소개하고 있고, 시계열 데이터의 전이학습에 적합한 사전학습 데이터셋은 어떤 특성을 가지고 있을까 고민하여 얻어진 연구 결과들을 소개하고 있다. 첫번째 방법은 Source 데이터와 Target 데이터 간의 유사성을 이용하는 것으로, 모델의 최종 목적인 데이터셋과 사전학습용 데이터셋과 유사도를 산출한다. 여기서 얻어진 유사도가 높을수록 사전학습 데이터셋으로의 적합함을 의미하고, 실험적으로 증명도 하였다. 두번째 방법은 사전학습된 예측 모델이 Target 데이터들의 군집을 효과적으로 형성시키고 있는지 관측하는 것이다. 사전학습용 데이터셋이 보완상의 문제로 인해 접근이 어려울 경우 효과적인 방법이고, 실험적으로 첫번째 연구 결과보다 유용함을 입증하였다.
산학 프로젝트를 수행하다 보면 이러한 일들이 많은데, 본 세미나를 통해 유의미한 방법을 알게 되었다. 좋은 세미나를 준비하느라 고생하신 종원이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 시계열 데이터에서의 전이학습과 Source 데이터의 선정에 관한 매우 유익한 내용을 다루었다. 첫 번째로, 데이터 부족 문제를 극복하기 위한 방법으로 다른 Source 데이터셋을 활용하는 것이다. 이때 어떤 Source 데이터셋을 선택해야하는지에 대한 고민이 중요한데, 세미나에서는 두 가지 주요 방법론을 소개했다.
첫 번째 방법은 IDS(Inter Dataset Similarity)로, Source 데이터와 Target 데이터 간의 유사성을 고려하여 최적의 Source 데이터셋을 선택하는 방법이다. 이 방법은 유클리디안 거리 대신 DTW(Dynamic Time Warping)를 사용하여 유사성을 측정하며, 실험적으로 성능 향상을 입증했다.
두 번째 방법은 SMS(Source Model Selection)로, 사전학습된 모델의 적합성을 측정하여 최적의 Source 데이터셋을 선택하는 방법이다. 이 방법은 새로운 데이터를 사전학습된 모델에 입력하여 embedding 벡터의 거리를 계산하고, 실루엣 스코어를 통해 적합성을 평가합니다. 코사인 거리 기반의 실루엣 스코어가 가장 좋은 성능을 보였다.
두 방법론은 서로 다른 상황에서 활용 가능하며, 데이터셋 선정에 있어서 중요한 참고 자료로 활용될 수 있을 것이다. 그러나 계산 비용 측면에서 아쉬움이 남는다는 점을 감안해야 한다. 데이터 양이 많을수록 성능이 향상되는 경향이 있기 때문에, 여러 데이터셋을 고려할 때 계산 비용이 증가할 수 있다.
유용한 세미나를 준비하고 진행해주신 최종원 연구원님에게 고마움을 표한다.

이번 세미나는 시계열 데이터를 사용할 때 효율적인 전이 학습을 위한 Source Selection Methodology에 대해 진행되었다.
현업에서는 다수의 레이블 데이터가 존재하기 힘들기 때문에 준지도학습, 자기지도학습 등이 활발히 연구되고 있다. 이에 더해 비지도/준지도 학습에 domain adaptation을 결합한 방법론들도 활발히 연구되고 있다.
이번 세미나에서 소개된 첫 번째 논문은 85개의 시계열 데이터셋을 사용하는데 각각의 데이터셋마다 CNN network를 사전 학습 시키고 하나의 타겟 데이터셋이 존재할 때, 나머지 84개의 사전 학습된 모델을 fine tuning한다. 이 때, CNN network는 freeze시키고 뒤에 Fully Connected layer만 fine tuning하면 될 것 같은데 해당 논문에서는 그렇게 할 경우 학습 시 수렴을 하지 않아 결국 전체 network를 재학습 시킨다고 한다. 그 후에 모델 정확도 변화율을 heatmap화 하고 DTW를 통해 유사도를 정량화하여 어떤 source 데이터셋을 사용할지 선택한다.
두 번째 논문은 앞 논문의 한계점을 지적하며 연구가 수행되었다. 문제점이라 함은 전이 학습에서 전이 되는 것은 데이터가 아닌 모델의 파라미터이기 때문에 데이터셋의 유사성은 학습 성능에 직접적인 영향을 미치지 않는다는 것이다. 그리고 현실적으로, 사용된 source 데이터셋에 접근할 수 없는 경우가 많다는 것도 언급된다. 따라서 본 논문에서는 사전 학습 모델만을 가져와서 최적의 source domain을 선택하는 방법론을 제안하였다. 절차는 간단한데, 각 사전 학습 모델마다 Shihouette Coefficient를 사용하여 유사도를 정량화하고, 상위 랭크의 source domain을 선택한다. 추가로 유사도 정량화 기법에 따른 성능 비교도 수행하였다.
이번 세미나에서는 레이블 데이터가 적거나 없을 때, 사용할 수 있는 방법론들의 개요에 대해 소개해주면서 시작되어 전반적인 연구들의 흐름에 대해 살펴볼 수 있었다. 최근까지는 일반적인 domain adaptation이나 domain generalization 방법론들만 접해보다가, 이러한 방식으로도 연구가 수행되었었구나 하는 생각이 들면서 좋은 인사이트를 얻을 수 있는 세미나였다. 유익한 세미나를 준비해주신 종원이형께 감사드리며 본 세미나 후기를 마친다.