[학회 후기]

2024 11 22-23일에 걸쳐 진행된 한국데이터마이닝학회 추계학술대회에 포스터 발표자로 참석하였습니다. 먼 곳인 경주에서 진행되었지만, 다수의 연구실 인원과 같이 준비하고 연구에 대해 토의하면서 생소함을 잊었던 것 같습니다.

이번 학회는 교수님들의 구두 발표를 듣고, 학생들은 좌장 및 포스터 발표를 맡는 신선한 구성이 인상적이었습니다. 우리 연구실 뿐만 아니라 전국 각지의 연구실 사람들과 연구에 대해 토론하고 의견을 나누는 귀중한 자리가 되었습니다.

 

[포스터 발표 후기]

주제: Diffusion Embedding for Time Series Representation Learning

포스터 세션 1에서 생성 모델을 활용한 시계열 표현 학습 구조를 주제로 발표를 진행하였습니다. 발표가 처음이라 조금은 걱정이 되었지만, 세션 시작 후에 정말 많은 사람들이 제 연구에 관심을 주셔서 열정적으로 발표에 임할 수 있었습니다.

주로 Diffusion 모델이 시계열에 어떻게 적용이 될 수 있는지에 대해 여쭤보는 청중 분들이 많았습니다. 또한 이것이 표현 학습에서 지향하는 다양한 downstream task와 어떻게 연결될 수 있는지에 대해서 궁금하신 분들도 있었습니다. 동료 연구자와의 많은 교류를 통해 스스로 성장할 수 있는 기회가 되었습니다.

 

Q1. Diffusion Embedding을 별도의 학습 가능한 신경망으로 구성했다는 점이 인상 깊은데, 혹시 이를 차용한 선행 연구가 있었나?

 

A1. 있었다. 하지만 해당 선행 연구의 경우 시계열을 온전히 받지 않고 Positional Embedding, Feature Embedding과 같은 부가적인 정보를 합친 뒤에 시간 차원과 변수 차원을 따로 받는 구조로 구성되어 있다. 내 연구의 핵심 기여점은 이를 온전한 시계열 형태로 받되, 이를 변수 별로 Patch로 분할하여 지역 의존성을 고려하는 모델을 구성하는 것이다. 이 점이 해당 선행 연구와 다른 점이다.

 

Q2. Class token을 이용한 Contrastive Learning을 구성할 때, Encoder input을 각각 다르게 하여 view를 생성하는 것이 더 낫지 않았나? 동일한 input에 대해서 어떻게 두 가지의 view를 형성할 것인가?

A2. 그 고민도 있었고, Encoder Input을 다르게 하여 Patch 간의 상관 관계와 Patch 내의 상관 관계를 고려하게 하는 구조도 고민해봤다. 하지만 Class token 자체의 한계 때문인지 동일한 Encoder Input으로 구성한 것이 성능이 더 좋았다. 동일한 Encoder Input에서 드롭아웃으로 랜덤성을 부여했으며, 이것이 앙상블 효과를 통해 강건한 표현 벡터를 추출하는 데 도움이 되었다고 생각한다.

 

[세션 청취 후기]

 

A-2 세션에서 포스텍 산업경영공학과 고영명 교수님께서 Anomaly Detection in FDC Trace Time-Series Data: Distance-based Approach vs. Foundation Model을 주제로 발표를 진행해 주셨습니다. 비단 이상치 탐지 문제가 아니라도, 시계열을 학습시키는 손실 함수에 대해 MSE가 최적이 아니라는 주장은 계속 나오고 있습니다. 이 발표에서는 이를 3D DTW Loss를 도입하여 예측치와 관측치 간의 다양한 관계를 고려했습니다. 또한 현재 진행하고 있는 연구에서는 Time Series Foundation Model을 사용해 이상치 탐지를 수행하고 있다고 말씀해 주셨습니다. 이 과정에서 다양한 도메인에 대해서 학습된 모델이 시계열을 너무 잘 복원하여 이상치에 대해서도 정상적으로 복원이 된다는 문제점 또한 말씀해주셨습니다. 이상치 탐지 분야에서 재구축을 수행할 때 손실 함수를 바꿔서 수행하는 케이스가 드물었는데, Dynamic Time Warping(DTW)을 통해 기존보다 성능 향상을 이끌어냈다는 점이 신선했습니다. 그리고 이것이 재구축이 어려운 결측치가 많은 상황에서도 유효할지 궁금해지는 발표였습니다.

 

A-2 세션에서 한양대학교 데이터사이언스학과 김미숙 교수님께서 보험상품 문서 기반 질의 응답 생성을 주제로 발표를 진행해주셨습니다. 보험 상품 약관을 RAG Database로 활용하여 보험 도메인에 특화된 질의 응답을 제공해주는 모델이었습니다. 특히 RAG에서의 많은 요소들인 Retrieval, Augmentation, Retrieve, Chunking 등에 있는 많은 세부 옵션을 최적의 경로를 찾아서 좋은 성능의 RAG 모델을 제작했다는 것이 인상 깊었습니다. 전 학기 학교 프로젝트에서 동일한 주제를 시도했다 실패한 경험이 있습니다. 이 발표를 통해서 RAG에서 고려해야 할 것이 무엇인지에 대해 인지했습니다. 또한, RAG의 성능을 올리기 위해서는 많은 요소들의 조합을 고려하여 최적의 path를 찾는 것이 중요하다는 것을 알았습니다. 한편으로는 보험 약관에는 수많은 table과 그림들이 있는데, 이것을 어떻게 처리하셨을지에 대한 궁금증이 남는 발표였습니다.