- 2023년 6월 19일 오후 1:24
- 조회수: 16981

[학회 후기]
6월 1~2일에 진행된 2023년 대한산업공학회·한국경영과학회 춘계공동학술대회에 참가했다. 국내선이라도 비행기를 타고 학회를 참가하는 것에 새로웠고, 날씨가 흐릴 것이라는 예보와 다르게 파란 하늘이 맞이해주어 상쾌하게 학회 일정을 시작할 수 있었다. 1박 2일로 진행되는 학회인 만큼 그 규모와 발표자들의 수가 작년에 참가했던 추계 대한산업공학회 보다 커서 두번째 학회임에도 불구하고 처음 참가하는 듯한 느낌이 들었다. 새삼 다양하고 많은 사람들과 같은 분야에 속해있구나 라는 소속감도 느낄 수 있었다. 다채로운 사람들을 만나고 그들의 연구성과들과, 고민들을 생생하게 들을 수 있던 의미있는 시간이었다.
[발표 후기]
이번 학회에서는 삼성전자와 함께 진행중인 프로젝트인 "반도체 공정 이력데이터의 불확실성 인과 관계 모델 개발" 에 대해 발표했다. 혼자 진행했던 연구가 아닌 프로젝트 관련 발표를 팀원들을 대표해서 진행한다고 생각하니 발표에 대한 무게감과 책임감이 더 느껴졌다. 본 프로젝트는 반도체 공정 이력 데이터에 존재하는 순차정보를 반영하여 최종 반도체의 특성 값을 예측하고, 효율적인 공정 관리를 위해 특성 값 예측에 영향을 미치는 주요 공정에 대한 해석 및 불확실성을 정량화 한 연구이다. 기존의 RNN과 GRU 등 데이터의 시계열성을 고려한 모델들은 인스턴스, 즉 세로의 순차성을 고려한다. 반면, 반도체 공정 이력데이터는 인스턴스의 순차성과 동시에 변수의 순차성을 고려해야 하는 특징을 가지므로 이에 적합한 모델을 직접 구축하여 사용했다. 나아가, attention mechanism을 활용하여 변수 별 해석과 해석에 대한 불확실성 정량화가 가능하도록 모델 구조를 설계했다.
질문1: 반도체 공정 이력 데이터의 시계열성을 고려한 기존의 연구가 있었는지?
답변1: 회사의 보안과 관련된 문제기 때문에 그 부분에 대한 연구는 거의 없다고 볼 수 있고, 본 프로젝트에서도 실제 데이터를 사용할 수 없었기 때문에 해당 데이터의 특성을 반영한 데이터를 직접 구성하여 사용했다.
질문2: 데이터의 변수 별 순차성을 반영한 모델을 구성하셨을 때는, 기존의 RNN 처럼 인스턴스 별 순차성은 반영하지 않게 되는 건지?
답변2: 기존 RNN의 구조를 변형하여 사용한 것이기 때문에 인스턴스 별 순차성은 그대로 반영하고 있으나, 본 데이터에서는 변수 별 순차성이 중요한 요소이므로 데이터의 변수 별 순차성을 '동시에' 반영가능 한 모델로 변형했다.
질문3: 카테고리 변수가 많은 데이터를 구축했다고 하셨는데, 그 변수들은 분석 전에 어떻게 처리했는지?
답변3: 발표에서도 설명드렸듯이, target encoding 을 통해 숫자값으로 변환하여 사용했다. 보통 one-hot encoding 등과 같은 방법이 많이 사용되지만 여기서는 주요 공정에 대한 해석도 중요한 부분이기 때문에 변수의 개수를 최대한 유지하며 encoding 하는 방법론 중 target encoding 을 선정하여 적용했다.
[청취 후기]
Contrastive learning for time series anomaly detection using decomposition methods (채희웅, 김도균, 조석현, 정은채, 박종헌 - 서울대학교 산업공학과)
시계열 데이터의 이상치 탐지는 우리 연구실에서도 가장 많이 하고 있는 분야 중 하나다. 그러나 대조학습을 사용해서 시계열 이상치 탐지를 하는 것은 드문 경우이다. 본 연구에서는 기존 대조학습 모델에 시계열 분해기법을 적용하여 대조학습을 통한 이상치 탐지 성능 향상을 목표로 한다. TS2Vec (AAAI, 2022) 을 기반으로 이를 확장시킨 연구로 작년에 해당 논문을 읽고 조원들과 생각해보았던 발전 방향과 어느정도 부합해서 신기한 경험이었다. Additive, multiplicative, STL, HP-filter 와 같은 분해기법들을 활용해서 시계열 데이터를 분해하고 이를 증강기법을 통해 증강 후 대조학습에 활용하여 높은 성능을 기록했다. 이때, 분해 기법과 상관없이 시계열을 분해하여 학습할 경우의 성능이 향상되었으며 이를 통해 시계열 분해를 통해 시계열의 특징을 모델이 더 잘 학습할 수 있음을 알 수 있다. 최근 다양한 데이터에 대해 최적 증강기법의 조합을 찾는 연구를 꽤 접했는데, 본 연구와 같이 시계열 데이터에 대해서는 분해 기법의 조합을 통해 성능 향상을 확인하는 관점으로도 문제를 볼 수 있겠다라는 깨달음을 얻을 수 있었다.