[학회 후기]
6월 1일~2일에 진행된 2023년 대한산업공학회·한국경영과학회 춘계공동학술대회에 참가하였다. 특히 이번 학회는 국내 제주도에서 개최되어 해외 학회에 가는 듯한 느낌이 들었다. 지난 학회는 인천대학교에서 진행되어 학교에서 하던 발표와 큰 차이를 느끼지 못했었다. 하지만 이번 춘계공동학술대회는 학교라는 형식적인 공간이 아닌 전문적인 프레젠테이션 장소에서 발표를 진행함으로써, 잊지 못할 경험을 할 수 있었다. 또한 이번 춘계공동학술대회는 두 번째 학회라 긴장하지 않을 줄 알았지만, 발표 단상에 올랐을 때 생각보다 많은 긴장이 되었고 동시에 여러 청중들과 교감하며 전율을 느낄 수 있었다. 특히, 내 연구에 대해 나와 비슷한 관심사를 갖는 사람들과 의견을 나누면서 내가 하고 있는 연구를 발전/보완할 수 있었던 좋은 계기였다. 앞으로 기회가 된다면 더 많은 학회에 도전해보고 싶다.

[발표후기]
이번 학회에서는 “장면 이미지 속 문자 인식을 위한 효율적인 음성 데이터 샘플링 기반의 대조학습 모델”이라는 주제로 발표하였다. 인공지능 모델을 학습하기 위해서는 레이블을 가지는 데이터를 필요로 한다. 하지만 장면 이미지 속 문자 인식은 데이터 레이블링이 어렵기에, 충분한 양의 레이블을 갖는 학습 데이터가 존재하지 않는다. 따라서 선행연구들은 레이블을 갖지 않는 데이터를 함께 활용할 수 있는 대조학습을 기반으로 연구를 수행한다. 본 연구는 대조학습에서 발생 가능한 Negative Sampling 문제를 재조명한다. Anchor 이외에 모든 데이터가 Negative Sample로 취급되면서 발생하는 False Negative는 대조학습의 성능 저하를 야기할 수 있다. 특히, 일반적인 이미지보다 많은 출력값을 가지는 장면 이미지 속 문자인식의 특성과, 서로 유사하고 정형화된 시퀀스를 갖는 글자 데이터 특성은 False Negative에 더 취약할 수 있다. 따라서 본 연구는 다수의 Positive Sample을 활용하여 False Negative를 식별하고, 제거할 수 있는 방법론인 STReNgS를 새롭게 제안하였다. 실험적으로 STReNgS는 일반적인 대조학습보다 개선된 성능을 보였으며, 특히 레이블을 갖는 데이터가 희소할 때 더욱 우수한 성능을 보여주었다. 본 연구는 장면 이미지 속 문자 인식의 학습 데이터가 부족한 상황에서 활용 가능한 방법론을 제시하고, 대조학습에서 False Negative Sampling의 적용 가능성을 확인했다는 의의를 갖는다. 향후에는 False Negative 뿐만 아니라 학습에 큰 기여를 할 수 없는 Easy Negative까지 식별하여 효율적인 학습에 기여할 수 있는 연구로 확장하고자 한다.

질문 1) STReNgS는 어떻게 Supervised Learning보다 좋은 성능을 낼 수 있는가?
답변 1) Supervised Learning은 레이블을 갖는  데이터만 활용하지만, STReNgS는 레이블을 갖지 않는 데이터를 함께 활용하므로 성능을 끌어올릴 수 있었다.

질문 2) 본 연구에서 장면 이미지 속 문자 인식에 특화된 Component는 어떤 부분이라고 생각하는가?
답변 2) 여러 개의 출력값에 대해 대조학습을 수행한 것이 Component이다. 단순하게 입력값과 출력값이 1대1로 매칭되는 환경과 다르게, 1대N으로 매칭되는 장면 이미지 속 문자인식의 특수한 상황에서 발생 가능한 False Negative 문제에 대해 다루었다.

[청취 후기]
1. 자기지도학습에 적용가능한 그래프 이웃 상호 정보량 기반의 네거티브 샘플링 (연정흔, 지종호, 신현정 – 아주대학교 인공지능학과)
본 연구는 그래프 데이터에 대조학습을 적용할 때 발생 가능한 Negative Sampling 문제를 해결하고자 하였다. 그래프 데이터의 특성상 지역적인 정보만 활용한다면, 활용할 지역 정보의 개수 K에 따라 성능이 크게 달라질 수 있다. 따라서 본 연구는 이러한 지역적인 특징 뿐만 아니라, 전역적인 특징을 함께 고려하여 강건한 모델을 학습하고자 하였다. 이때, 전역적인 특징을 함께 고려하기 위해서 본 연구는 군집화 개념을 도입하여 Sampling을 수행하였다. 실험적으로 본 연구가 제안하는 성능은 5%이상 크게 증가하였다. 이는 본 연구에서 제안한 Negative Sampling이 일반적인 대조학습에서 중요한 Positive와 Negative 데이터 정의에 큰 기여를 한 것으로 해석할 수 있다. 본 발표를 청취하면서 그래프라는 도메인에서 대조학습이 어떻게 이루어지고, Negative Sampling 문제를 어떻게 접근하였는지 알 수 있었다. 개인적으로 이번 발표의 핵심은 전역적인 정보와 군집화라고 생각한다. 꽤나 직관적이면서 이해가 용이한 이번 아이디어는 장면 이미지 속 문자 인식에 어떻게 적용할 수 있을지 고민하게 하는 좋은 발표였다.

2. Contrastive Learning for Time Series Anomaly Detection using Decomposition Methods (채희웅, 김도균, 조석현, 성은채, 박종헌 – 서울대학교 산업공학과)
본 연구는 시계열 이상치 탐지 도메인에서 대조학습을 적용할 때, 어떻게 성능을 끌어올릴 수 있을지에 대해 논의하였다. 시계열 데이터의 특성 상 이전 그리고 이후 데이터와 밀접한 관련을 갖는다. 전체적인 시계열 관점으로 보는 것도 중요하지만, 본 연구는 각 시점 별로 지역적인 특징을 고려할 필요도 있다고 주장한다. 따라서 다양한 시계열 분해기법을 적용해보면서 대조학습 성능 기여를 할 수 있을 지에 대해 확인하고자 하였다. Additive/Multiplicative 분해 뿐만 아니라, STL, HP-filter 등 다양한 분해 기법에 대해 실험을 수행했고, 결과적으로 대다수 기법이 유의미한 성능을 보였다. 본 발표는 개인적으로 진행하고 있는 연구와 다르게, 기존의 Global 정보에 Local 정보를 함께 고려한 연구라고 할 수 있다. 시계열 데이터도 여러 시퀀스를 고려한다는 특징을 갖는데, 추후 개인 연구 아이디어를 얻을 때 시계열 도메인 논문도 함께 읽어보면 좋을 것 같다는 생각이 들었다.