이번 산업공학회 추계학술대회는 서울대학교에서 진행되었다. 국내 산업공학 분야에서 어떤 연구들이 진행되고 있는지 확인할 수 있는 자리였으며, 생각보다 재미있는 연구들이 꽤 많았다. 이번 산업공학회에서는 거의 처음으로 발표를 하지 않았는데, 그래서 한결 가벼운 마음으로 다양한 발표들을 들을 수 있었던 것 같다. 기억에 남는 발표 몇 가지를 정리해보았다.


Zero-shot knowledge distillation for regression

Knowledge distillation은 이미 특정 task를 위해 학습된 모델 (teacher)로부터 같은 task를 수행하기 위한 모델 (student)를 학습해내는 방법론이다. Knowledge distillation을 효과적으로 수행하기 위해서는 일반적으로 teacher 모델을 학습하는데 사용한 학습 데이터가 필요하지만, 최근에는 teacher를 학습하는데 사용한 데이터가 없어도 효과적으로 knowledge distillation을 수행하기 위한 방법론들이 연구되고 있다. 주로 GAN을 활용한 방법들이 연구되고 있는 것 같다. Knowledge distillation은 대부분 classification을 위주로 연구가 되었다고 하며, 이 발표에서는 그런 방법론들 중 하나를 regression problem으로 옮겨왔다. Classification 문제를 풀기 위한 framework를 regression으로 가져온 것 자체는 크게 흥미롭지 않았지만, 기존 knowledge distillation을 위한 방법론들을 간단하게 소개해준 부분이 재미있었다. 이번 ICCV에서도 knowledge distillation에 대한 연구들이 상당히 많았는데, 꽤 재미있는 분야인 것 같다. 특히 GAN을 이용해서 teacher의 학습데이터 없이도 효과적으로 knowledge distillation을 수행하는 방법론은 한 번 공부해보면 좋을 것 같다.


Privacy-preserving Federated Bayesian Learning of a Generative Model for Imbalanced Classification of Clinical Data

Health care나 biomedical 분야에서 가장 중요하게 생각하는 것 중 하나는 개인정보보호인 것 같다. 진료 기록이나 질병 진단 관련 데이터들이 수집되고 공유되면 이를 분석하여 의미있는 결과를 낼 수도 있겠지만, 여러가지 이유로 인해 잘 공개되지 않는 것 같다. 이 연구에서 가정한 문제 상황은 병원 간 진료기록이 공유되지 않는 상태에서 모든 진료기록 데이터를 반영하여 통합 모델 (classification)을 학습하는 것이다. 각 병원들은 특정 질병에 대한 진료 기록들을 가지고 있는데 일반적으로 질병을 가진 사람이 질병이 없는 사람보다 소수이며, 따서 imbalanced classification 문제가 된다. 이런 경우, 데이터를 조금이라도 더 확보하는게 매우 중요하다. 특히 모든 병원들로부터 데이터를 받아서 통합된 데이터로 모델링을 할 수 있다면 가장 좋은 성능을 낼 수 있을 것이다. 그렇지만 병원들은 서로 진료기록을 공유하거나, 원본 데이터를 공개하는 것을 원하지 않는다. 이런 상황에서 발표자는 병원 별 autoencoder를 통한 개인정보 암호화와, 이를 기반으로 한 통합 모델 학습 프레임워크를 제안했다. 저런 방식으로 제대로 작동할지에 대해서는 의문이지만, 풀고자하는 문제 상황이 상당히 재미있었다.