고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 백인성

2020년 8월 3일 오후 1:22
조회수: 714

Reviewed by

백인성

[학회 후기]

ICML (International Conference on Machine Learning) 2020은 온라인으로 진행이 되었다. 올해는 코로나19로 인해 세상에 많은 변화가 온 시기이다. 모든 나라가 코로나19를 대응하기 위해 노력하고 있고 나라 간 자유로운 이동도 제한되고 있다. 상황이 이렇다 보니 국내 학회는 물론 국제 학회도 연기 또는 취소되고 있었다. 하지만 이번 ICML을 비롯하여 몇몇 국제학회가 온라인으로 개최되며 AI를 공부하는 사람들 간 지식, 정보를 공유하고 트렌드를 공부할 수 있는 기회를 마련해주고 있다. 개인적으로 작년에 시애틀로 가서 발표하고 참석했던 INFORMS와 코엑스에서 개최되어 참석했던 ICCVM 학회가 정말 좋았었기에 이번 ICML도 많이 기대가 되었다. 학회가 오프라인으로 열리지 않아 직접 마주보고 소통할 수 없다는 사실이 아쉬웠지만 온라인이 가지는 장점을 통해 새로운 느낌으로 학회를 참석할 수 있어서 좋았다. 온라인으로 진행되어서 좋았던 점은 내가 듣고 싶은 발표 내용은 여러 번 청취할 수 있다는 점이었다. 실제 오프라인 학회에서는 1번 발표가 되고 끝나다 보니 이해가 안되는 부분에 대해서 다시 복기하기 어렵다는 점이 있었다. 특히 해외 학회 경우 영어로 모든 것이 진행되기 때문에 영어로 소통이 마냥 쉽지 않은 나에게는 어려움이 있었다. 또다른 온라인 학회 장점은 내가 관심 있는 발표에 대해서 제약 없이 많이 들을 수 있다는 점이었다. 오프라인 학회에서는 동시에 여러 세션이 함께 열리기 때문에 내가 듣고 싶은 발표가 동시간대에 겹치면 듣기 어렵다는 아쉬운 점이 있었다. 하지만 이번 ICML은 내가 원하는 시간에 언제든 들을 수 있었기에 원하는 내용을 제약없이 들을 수 있었다. 그리고 마지막으로 학회가 끝난 뒤에도 개인적 여유 시간이 있을 때마다 다시 발표를 들을 수 있고, paper도 쉽게 다운 받아 연계하며 볼 수 있다는 장점도 있었다.

[청취 후기]

제목: Self-supervised Label Augmentation via Input Transformations

최근 Self-supervised Learning은 딥러닝 분야에서 중요한 연구 중 하나로 대두되고 있다. 오늘날 현실에서 정확한 Label(=y)을 구하는 일은 쉽지 않다. 기계에 부착한 센서에서 나오는 측정 값이나 강아지 사진을 보고 강아지라고 하는 것처럼 객관적이고 모든 사람들이 맞다고 인정할 만한 Label은 신뢰할 수 있으면서 정확하게 얻을 수 있다. 하지만 Wafer 내 불량 패턴이나 의료 쪽에서 MRI, CT 사진 등을 보고 결정되는 병명 같은 Label같은 경우 항상 정확하고 신뢰할 수 있는 데이터를 얻기는 어렵다. 전문가마다 의견이 다른 경우도 존재하고, 다수 전문가를 통해 Label을 형성하기에는 비용과 시간이 많이 투자되기 때문에 소수 전문가 몇몇의 의견으로 형성된 Label을 믿고 따라야 한다는 한계점도 존재하기 때문이다. 따라서 이렇게 Label이 별로 없거나 아예 존재하지 않는 경우 입력 데이터 내 특성만을 고려하여 Label을 형성하고 분석하려는 Self-supervised Learning이 활발하게 연구되고 있는 상황이다. 이번에 ICML2020에서 들은 Self-supervised Label Augmentation via Input Transformations 연구는 간단한 아이디어를 활용하지만 딥러닝 모델을 활용한 다양한 Task에서 좋은 결과를 보인 연구이다. 해당 연구에서 아이디어는 원본 데이터 Label과 Augmentation 수행 내용을 함께 Label로 하여 모델을 학습시키는 내용이다. 예를 들어 강아지, 고양이 이미지가 있을 때, 이를 각도(ex 90도, 180도…) 중심으로 Augmentation하여 다양한 데이터 셋을 확보한다. 이후 입력 데이터 중 90도로 회전된 강아지 이미지가 있다고 하면 (강아지, 90도)을 Self-supervised Label로 활용하여 학습을 진행한다. 그리고 이 때 특정 네트워크를 거친 Embedding 결과를 활용하여 다양한 Task도 수행하게 된다. 해당 연구를 보면서 당연하지만 놓친 간단한 아이디어라고 생각했다. Augmentation 결과를 함께 고려해서 학습을 진행해보자는 간단한 아이디어임에도 좋은 성과를 낸 연구였다. 이 논문을 보면 Multi-task Learning, Self-supervision, Self-Distillation과 같은 내용들이 등장하게 되는데 우리 연구원들이 연구하는 내용에 모두 포함되었던 내용이었다. 이 발표를 보며 최신 연구 트렌드와 우리 연구실에서 진행되는 다양한 과제 및 연구들을 관심 갖고 공부하는 일이 항상 선행되어야 하고 중요함을 다시 한번 느낄 수 있었다.

제목: Do We Need Zero Training Loss After Achieving Zero Training Error?

딥러닝 모델이 발전하면서 모델이 잘 학습 될 수 있는 기법에 대한 연구도 다양하게 함께 진행되고 있다. 그 중 모델이 학습을 진행하면서 Training Data에 너무 과적합(=Overfitting) 되는 경우를 방지하기 위한 Regularization 연구도 중요한 영역 중 하나이다. 모델이 Training data에 너무 Overfitting 되는 경우 Testing data에 대해서는 오히려 성능이 떨어지게 되는 경우가 많다. Training data 패턴만 정확하게 맞추고 다른 데이터는 크게 고려하지 않는 모델이 형성되기 때문이다. 이러한 Overfitting을 완화하기 위해 Dropout, Batch normalization, L1, L2 regularization 등 다양한 기법들이 연구되고 발전되어 왔다. 하지만 이러한 기존 기법들이 가지는 한계점은 Training loss가 ‘0’까지 떨어지지 않게 하는 것이 목표가 아니라는 것이다. 단순히 Training loss가 떨어지는 것을 완화하는 역할만 하기 때문에 Overfitting의 근본적인 문제를 해결하지는 못한다. 본 연구는 전통적인 Regularization 방식이 지니는 한계점을 보완하기 위해 Flooding 방식을 제안하고 있다. Flooding 방식이란 학습 진행 시 배치 단위 Gradient descent 방식으로 모델을 학습하다가 Training Loss가 일정 수준에 도달하면 Gradient ascent 방식으로 전환하여 의도적으로 Training loss값을 올리는 것이다. 이를 통해 Training loss가 최저 수준을 유지하면서 Testing loss가 더 떨어질 수 있도록 유도한다. 본 연구에서는 여러 실험을 통해 본 연구에서 제안한 Flooding 기법을 활용하면 모델 성능을 더 향상된다는 것을 보여준다. 개인적으로 연구를 진행하면서 Overfitting이 되는 경우를 많이 보면서 ‘추가적으로 적용 할 수 있는 Regularization 방식은 없을까’라는 고민을 많이 했는데 이번 발표를 보면서 그 답을 일정 부분 얻은 것 같아 좋았다.