- 2021년 5월 4일 오후 1:45
- 조회수: 524
곽민구
[학회 후기]
COVID 19로 인해 온라인 학회 (virtual conference)로 진행된 2021년도 ICIEA 학회에 참가하였다. 작년 NeurIPS, ICML가 온라인으로 진행이 되었어서 청취하기에는 장점이 있었는데, 발표자의 입장에서는 오히려 단점이 컸던 것 같다. 동영상을 사전에 녹화해야 하고, 청취자의 반응을 실시간으로 볼 수 없었기 때문인데 COVID 19 시국에서 이러한 환경에 앞으로 익숙해져야 한다는 생각도 들었다. ICIEA 학회에서는 여러 산업 분야에 대한 품질 관리, 공급 사슬, 유지 보수, 생산 계획, 최적화 이론 등 다양한 분야에 대한 알고리즘 연구와 어플리케이션 연구가 발표되었다. 특히 최근 제조 분야에서 데이터마이닝/인공지능 알고리즘의 적용 연구가 활발하게 이루어지면서 기계학습, 딥러닝에 관한 연구들도 발표되었다. 물론 전통적인 통계기법을 사용하는 연구 발표가 여전히 많은 부분을 차지하고 있었다. 비록 이번 학회에서는 상대적으로 적은 수의 기계학습, 딥러닝에 관한 연구가 발표되었지만 꾸준하게 제조 분야를 포함한 여러 도메인에서 사용된다는 것을 알 수 있었다. 연구 발표 중 대부분은 품질 관리 기법, 최적화 이론, 전통적 통계기법 등을 실제 문제에 적용하여 효율적으로 풀어내려는 내는 연구들이었다. 산업공학이라는 큰 학문이 매우 다양한 세부 연구 분야를 포괄하기 때문에 이해하기 어려운 발표들도 많았지만, 이 기회에 새로운 분야를 접하면서 데이터마이닝/인공지능 분야에 한정되어 있던 식견을 넓힐 수 있는 기회였다. 또한 아시아권에서 진행이 되었던만큼 일본, 대만, 홍콩, 태국, 이집트, 중국 등 연구적으로는 접하기 힘든 국가에서 진행되었던 응용 연구가 많았다. 국가마다 서로 다른 사회 환경을 갖고 있기 때문에 새로운 문제점들에 대해서 접할 수 있었다. 물론 배경지식이 없고 10~15분이라는 한정된 시간 내에 모든 것을 이해할 수는 없었지만 연구할 분야가 여전히 많다는 점을 다시 한번 스스로 일깨울 수 있었다.
[발표 후기]
“Safe Semi-Supervised Learning with Self-Supervised Approach“라는 제목의 연구를 이번 학회에서 발표했다. 지도학습 모델을 학습시키기 위해서는 많은 양의 데이터와 레이블이 필요하다는 것은 잘 알려진 사실이다. 하지만, 많은 도메인에서는 데이터 자체를 수집하는 것은 그리 어렵지 않으나 관측치별로 알맞은 레이블을 부여하는데에는 많은 시간과 노력이 든다. 이를 해결하기 위해 오직 적은 양의 labeled data와 다량의 unlabeled 데이터가 있을 때 모델 성능을 향상시키는 분야를 준지도학습이라고 한다. 준지도학습에는 ”unlabeled data에는 사용자가 타겟으로 하는 클래스에 관련된 데이터만 포함되어 있다“라는 큰 가정이 있다. 예를 들어, 강아지와 고양이를 분류하는 모델을 학습시키기 위해 다량의 unlabeled 이미지 데이터를 모았다면, 그 안에는 비행기 이미지는 없어야 한다는 것이다. 실제 상황에서 이 가정은 잘 들어맞지 않으며, 심지어 이 가정이 성립하지 않을 때에는 모델은 매우 낮은 성능을 내게 된다. 이러한 상황을 class distribution mismatch라고 부르며 이를 해결하기 위한 최근 연구들은 mismatch 데이터를 필터링하거나 학습 loss에서의 영향력을 줄이는 접근방향을 사용하였다. 하지만 이렇게 될 경우 이미지 데이터가 전체적으로 공유하는 representation에 대한 손실이 발생할 수 있다. 손실을 막기 위해 제안 방법론에서는 unlabeled data를 클래스 정보와 상관없이 모두 사용할 수 있는 self-supervised learning 중 MoCo 모델을 적용해서 pre-training을 시킨 후, 타겟 클래스 데이터로 fine-tuning을 진행했다. 벤치마크 데이터셋인 CIFAR-10, CIFAR-100에서 실험을 진행한 결과 기존 알고리즘들과 비교했을 때 뛰어난 성능을 보이는 것을 확인했다.