[학회후기]
온라인과 오프라인으로 동시에 진행된 INFORMS 2021에 참가했다. 이전 시애틀에서 열렸던 INFORMS에 참가했던 경험이 좋은 추억으로 남았는데 코로나로 인해 현장 참가를 하지 못해서 아쉬운 마음이 컸다. 하지만 최대한 많은 연구자들의 연구결과를 교류하기 위해서 학회가 취소되지 않은 것은 정말 다행스러운 일이라고 생각한다. 온라인 발표는 사전에 녹화한 발표 영상을 틀어주고 그 이후에 질의응답 시간을 갖는 형식으로 진행이 되었다. 현장감은 떨어졌지만 각 발표자들이 준비한 내용을 충분히 들을 수 있는 방법이라서 세션을 재미있게 청취할 수 있었다. 다만 미국 시간을 기준으로 스케줄이 진행이 되어서 시차 때문에 피곤한 것은 어쩔 수 없었다. 다음에는 다시 한번 오프라인으로 직접 참가하고 싶다. 

[발표 후기]
“Aggregating In-Distribution Data into Positive Examples for Safe Semi-Supervised Contrastive Learning” 연구를 이번 INFORMS 2021 학회에서 발표했다. 모델을 학습하기 위해 만은 양의 데이터/레이블 쌍이 필요하다는 것은 잘 알려져 있다. 하지만 실제 여러 문제 상황에서는 데이터는 손쉽게 수집할 수 있지만 매칭되는 알맞은 레이블을 수집하는데는 많은 비용과 시간이 필요하다. Semi-supervised learning (SSL)은 적은 양의 labeled data와 많은 양의 unlabeled data로 모델 성능을 향상시키는 연구 분야이다. SSL 알고리즘들은 기본적으로 “unlabeled data에는 타겟 클래스 (in-distribution)에 관련된 데이터만 존재하며 상이한 분포를 갖는 클래스 (out-of-distribution, OOD)은 존재하지 않는다”라는 가정을 바탕으로 한다. 하지만 unlabeled data의 클래스를 직접 확인할 수 없는만큼 실제 문제에서 이 가정은 쉽게 깨지며 모델의 심각한 성능 저하로 이어진다. 최근 관련 연구는 unlabeled data에서 OOD 데이터로 의심되는 관측치들을 필터링하는 것에 초점이 맞추어져 있지만, 클래스와 상관없이 데이터가 전체적으로 공유하는 representation을 제대로 학습하지 못하게 되는 정보 손실이 발생할 수 있다. 이를 해결하기 위해 unlabeled data를 클래스와 상관없이 모두 사용할 수 있도록 self-supervised learning 방법을 사용했다. 또한, OOD 데이터의 representation을 타겟 클래스의 representation과 멀어지도록 하기 위해서 negative examples 중 labeled data를 positive examples로 사용하는 손실 함수를 제안하였다. Labeled data는 모델이 최종적으로 분류하고자 하는 타겟 클래스가 확실하기 때문에 이러한 방법을 사용했다. Self-supervised learning 방법론 중 MoCo 기반으로 CIFAR-10, CIFAR-100, TinyImageNet 데이터에 적용하여 기존 알고리즘들과 비교하여 뛰어난 성능을 보이는 것을 확인했다.

질문: labeled data를 positive example로 사용할 때 학습 과정에 따라서 adaptive하게 사용하면 더 좋은 효과를 얻을 수 있지 않을까?
답변: labeled data를 초반에만 사용하고 점차 영향력을 줄였을 때 더 좋은 성능을 보이는 것을 확인하였으며, 추후 연구 결과에 반영하여 발표할 예정이다.