- 2023년 1월 6일 오후 8:41
- 조회수: 13798
INFORMATION
- 2023년 1월 6일
- 오전 12시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약 :
시계열 데이터 군집분석은 분석가로 하여금 다양한 산업에서 해석하기 어려운 시계열 데이터에 군집의 추이나 트렌드를 파악하는 중요한 목적을 가지고 있다. 하지만 현실 세계에 대부분의 시계열 데이터는 결측치를 포함하고 있어, 대부분의 기존 연구들은 결측치를 포함한 샘플을 제거하거나 결측치들을 예측값으로 채우는 작업이 선행된다. 그러나, 최근 결측치를 허용하며 좋은 성능으로 클러스터링이 가능한 연구가 있어 이를 소개하고자 한다.
참고문헌 :
[1] Cao, W., Wang, D., Li, J., Zhou, H., Li, L., & Li, Y. (2018). Brits: Bidirectional recurrent imputation for time series. Advances in neural information processing systems, 31
[2] Madiraju, N. S. (2018). Deep temporal clustering: Fully unsupervised learning of time-domain features (Doctoral dissertation, Arizona State University).
[3] Ma, Q., Zheng, J., Li, S., & Cottrell, G. W. (2019). Learning representations for time series clustering. Advances in neural information processing systems, 32
[4] Ma, Q., Chen, C., Li, S., & Cottrell, G. W. (2021, May). Learning representations for incomplete time series clustering. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 10, pp. 8837-8846).
청취자 후기

시계열성을 가진 데이터 클러스터링 세미나를 청취하였다. 시계열 데이터 클러스터링의 예시로, 부동산 아파트 가격 (시계열) 군집 사례를 소개해주셨는데, 억형이 회사에서 무슨 업무를 하고 계시는지 엿볼 수 있어서 흥미로운 부분이었다. 그리고 시계열 데이터를 잘 군집하기 위해서 어떠한 요소가 중요시 되는지 알아갈 수 있어 유익하였다. 재밌던 부분은 군집 목점함수 설계 부분이었는데 아무래도 label 정보가 없는 비지도학습에서 설계된 목적함수 부분이다 보니, 걱정되는 부분들이 상상되곤 했는데 오토인코더 목적함수와의 궁합이 잘 맞는지 실험적 결과가 좋은 것을 보고 놀라운 마음이 들었다.
또한, 현실 세계 속 시계열 데이터가 자주 갖는 결측 상황을 함께 고려할 수 있는 클러스터링 기법을 소개해주셨는데, 이 부분은 매우 현실적이고 실용적인 것이라 생각한다. 군집 부문에서 결측치 허용이 가능하기 위해 GAN 쪽의 여러 아이디어들을 많이 차용하고 있다. 이 부분이 diffusion 모델과도 결합이 가능한지 상상해보면 흥미로운 최신 연구 아이템이 될 것 같다. 마지막으로, 딥러닝 군집 연구에서는 rand index가 평가 지표로 사용되는 것 또한 알아갈 수 있었다. 좋은 세미나를 준비해주신 억형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 불완전한 시계열 데이터에서 군집화 개념을 적용한 비지도학습 방법론에 대해 진행되었다. 이때, 불완전한 시계열 데이터라는 것은 결측치가 존재하는 상황 등을 의미한다. 본 세미나에서는 이러한 갈래의 방법론 3가지(DTC, DTCR, CRLI)를 소개한다.
3가지 방법론의 특징을 살펴보면 첫번째로, 하나의 Loss가 아닌 여러 Loss를 혼합한 형태를 띈다. Reconstruction loss, Adversarial loss, Clustering loss 등 여러 loss를 결합하여 모델링을 수행한다. 두번째로 결측치가 GAN의 개념을 혼용하여 모델링에 적용하는 것이 공통적이다. 세미나 제목처럼 Incomplete한 데이터이기에 이러한 GAN의 특성이 결측치를 채워주고, 해당 결측치가 실측치인지 결측치인지 판단하는 여부가 학습에 효과적이었던 것으로 추정된다. 마지막으로는 Clustering 목적함수이다. 해당 부분은 명쾌하게 이해하진 못했지만, Instance 단위 학습뿐만 아니라 군집단위의 학습을 수행함으로써 다양한 정보를 학습하여 성능이 개선된 것으로 이해하였다.
이번 세미나를 계기로 결측치가 존재하는 상황에서 활용되는 시계열 비지도학습 방법론들을 접할 수 있었다. 시계열에서 결측치가 존재하는 상황은 매우 빈번한데, 이러한 알고리즘들이 바로 현실과 직결된 알고리즘이지 않나라는 생각이 들었다. 개인적으로는 Representation learning에서 GAN을 사용한 부분이 인상깊었는데, 추후 내 연구에도 반영해보고 싶은 생각이 들었다. 유익한 세미나를 준비해주신 조억 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 결측치가 있는(불완전) 시계열 데이터의 클러스터링이라는 주제로 진행되었다. 시계열 데이터의 클러스팅이라는 개념이 쉽게 떠오르지 않아 생소하였는데 생각해보면 현재 많은 데이터가 시계열로 표현되고 있고, 또한 각 데이터를 유사한 그룹으로 묶어서 해석하는 경우가 많기 때문에 현실에서 쉽게 접할 수 있는 Task라는 것을 확인할 수 있었다. 시계열 데이터를 클러스터링 하는데 선형/비선형, 계산 복잡도나 노이즈 등으로 인하여 클러스터링하기가 쉽지 않은데 이를 딥러닝 기반의 방법론을 통하여 해결한 방법론 3가지를 소개하였다. 첫번째로 DTC(Deep Temporal Clustering)를 소개하였는데 오토인코더 구조를 통하여 데이터를 이해하는데 클러스터링을 위한 텀도 추가하여 보다 클러스터링에 최적화된 데이터를 표현할 수 있게 된다고 한다. 이때 초기 학습된 인코더가 예측한 값들이 어느 정도 옳다는 가정이 필요한데 이러한 가정이 실험 환경을 떠나서 실제 상황에서도 적용할 수 있는 것인지 궁금증이 생겼다. 두번째는 DTC 방법론에 추가적으로 Auxiliary Task를 추가하여 성능을 향상 시켰다고 한다. GAN과 유사하게 Fake 샘플을 생성한 뒤 이를 판단하는 로스를 추가함으로서 데이터의 이해도를 높이는 방법론이었다. 마지막으로는 결측치가 존재할 때의 클러스터링을 위한 방법론으로 작년 개인연구를 진행할때 결측치 때문에 힘들었던 기억이 있어서 재밌게 들을 수 있었다. 이전 2개의 방법론에서 사용한 로스에서 추가적인 여러 로스를 사용하여 문제를 풀었다. 학습해야하는 로스텀이 많은데 이러한 학습의 방향들이 하나로 잘 적용되어 높은 성능을 내는 것이 굉장히 신기하게 느껴졌다. 시계열 데이터는 제조 현장에서도 쉽게 접할 수 있는 데이터인 만큼 많은 관심을 가지고 있지만 제대로된 공부는 아직 못해본것 같은데 이번 세미나처럼 다양한 분야의 연구를 청취할 수 있어서 좋았다. 유익한 세미나를 준비해주신 조억 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Clustering for Incomplete Time Series Data에 대해 진행되었다. 시계열 데이터를 군집하기 위해서 중요시 해야하는 요소를 짚어주고, 이렇게 다양한 요소들 때문에 군집화 하기 힘든 시계열 데이터를 딥러닝 방식으로 군집화하는 방식을 설명해준다. 첫번째는 Deep Temporal Clustering(DTC)을 소개한다. 기본적으로 오토인코더 구조를 사용하기 때문에 reconstruction loss와 클러스터링을 위한 clustering loss가 추가되어 클러스터링을 위하여 최적화 한다. 두번째는 DTC와 유사하지만 추가적으로 GAN과 유사한 방식을 적용하여 Fake sample generation 전략을 추가해준다. 이를 통해 Fake를 판단함으로써 데이터의 이해도를 높이는 방법론이다. 세번째는 결측치가 포함된 데이터의 경우에도 적용가능한 방법론을 설명한다. 첫번째, 두번째 방법에서 사용하는 loss에 덧붙여 결측치를 예측하는 prediction loss 및 결측치 여부를 판단하는 adversarial loss를 추가하여 방법론을 구성한다. 다양한 연구들을 연결하고 결합하는 방법들을 통해서 성능이 개선할 수도 있지만, 최적화를 위해서 다양한 loss를 사용하여 성능을 더욱 향상 시킬 수 있다는 점을 배울 수 있었다.
현재 시계열 데이터에 대하여 연구를 진행하고 학습을 하고 있지만 아직까지 배울 부분이 많다는 것을 깨닫게 되었다. 추후 진행하게 될 연구에도 적용할 수 있도록 논문을 참고하여 읽어보고 싶은 생각이 들었다. 유익한 세미나를 준비해주신 조억 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 시계열 데이터 군집 분석을 주제로 진행되었다. 시계열 데이터는 데이터 양이 많지만 레이블링을 얻기 힘들고 노이즈가 많고 고차원의 학습량을 가진 특징이 있다. 그래서 1차 분석을 위해 클러스터링이 선행되는 경우가 있다. 하지만 이러한 클러스터링은 계산량이 많고 전처리를 위해 도메인 전문가가 필요한 경우가 많다. 그래서 해당 세미나에서는 딥러닝 기반의 클러스터링 방법론을 알아보고자 한다.
첫 번째 방법론인 DTC는 AE을 기반으로 클러스터링에 적합한 representation을 얻기 위한 최초로 클러스터링 목적함수를 추가한 모델이다. 클러스터 예측을 라벨로 활용하였다. 두 번째 방법인 DTCR은 DTC와 유사하지만 인코더와 K-Means 목적함수가 추가된 모델이다. 가짜 데이터를 인위적으로 생성하고 이를 판단하는 분류기를 둔다. 세 번째 방법론은 CRLI로 결측치를 허용하기 위한 Revised RNN인 BRITS를 사용하여 결측치 부분을 예측 값으로 채우는 방법론이다. 인코더에는 결측치인지 아닌지를 판단하는 분류 loss와 결측치 부분만을 학습하는 adversarial loss와 실측치를 잘 예측하는 prediction loss를 가진다. 디코더에는 K-Means loss와 reconstruction loss를 가진다.
결측치를 딥러닝 모델로 학습하여 예측하는 방법론들에 대해 공부할 수 있어 유익한 세미나였던 것 같다. 좋은 자료로 세미나 진행해준 조억 연구원님께 수고했다는 얘기를 전하며 세미나 후기를 마친다.

금일 세미나는 "Clustering for Incomplete Time Series Data" 주제로 억이형이 발표하였다. 결측치는 데이터를 분석하다보면 이를 어떻게 처리해야 할 지 많은 고민을 하게 되는 부분인 것 같다. 금일 세미나는 결측치가 있는 시계열 데이터에 군집 분석을 적용하는 연구들이 소개되었다. 가장 인상 깊게 본 연구는 Generative Adversarial Network (GAN)을 활용하여 결측치를 채우고 해당 결측치가 실제인지 결측인지 판단하며 효과적으로 학습하는 연구였다. 이 외에도 효과적인 Loss Function을 조합하여 학습하는 연구도 있었다. 확실히 느끼는 점은 방법론 연구도 중요하지만 실세계의 데이터를 분석할 때 발생하는 문제점을 해결하는 연구들이 대세인 것 같다. 이번 세미나는 결측치가 있는 데이터를 분석할 때 활용해보면 좋겠다는 생각이 든 발표였다.