고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 도형록

2020년 8월 3일 오전 2:24
조회수: 664

Reviewed by

도형록

이번 ICML은 코로나19로 인해 다른 많은 학회들과 마찬가지로 온라인으로 진행되었다. 장소와 시간애 대한 제약 없이 발표를 들을 수 있다는 점은 장점이기도 했지만 단점이기도 했다. 원래는 학회가 열리는 장소에 가서 학회에 모든 일정을 맞추고 듣는데 집중하게 되는데, 학회가 온라인으로 진행되다보니 기존 일정을 모두 진행하면서 듣게되어서 집중도가 떨어지는 아쉬움도 있었다. 특히 발표 주제에 따라 하나하나 골라서 듣다보니 학회장을 돌아다니다가 별 생각 없이 들어간 세션에서 우연히 재밌는 주제를 듣게 되거나 하는 일이 없었던 점이 아쉬웠다.

아쉬움과는 별개로 이번 ICML에서는 다양한 주제의 연구들이 발표되었다. 특히 관심이 갔던 주제들과 그 주제들에 해당하는 발표 몇 가지를 정리해보았다.

1. Accountability, transparency, and interpretability

예전부터 머신러닝 모델들이 어떻게 작동하는지를 알아내기 위한 연구가 많이 진행되어 왔다. 특히 최근 neural network가 좋은 성능을 보이기 시작하면서, neural network의 내부 연산 과정이 어떻게 이루어지는지를 알아내기 위해 model transparency 또는 interpretability를 얻기 위한 다양한 연구들이 진행되고 있다.

Model interpretability나 transparency라고 하면 neural network에서 activation map이나 attention을 이용해서 모델이 input의 어떤 부분을 사용해서 output을 만드는지를 조사하는 방식이 대부분이라고 알고 있었다. 실제로 activation map을 잘 찾아내기 위한 연구들이나, 데이터나 문제 상황에 맞는 attention mechanism을 제안하여 모델이 input의 어떤 부분을 사용하는지 알아내기 위한 연구들이 상당히 많이 제안되었다.

하지만 이번 ICML에서 발표된 논문들을 보니 interpretability를 위해 정말 다양한 주제의 연구들이 진행되고 있다는 것을 알 수 있었다.

Interpretations are useful: penalizing explanations to align neural networks with prior knowledge라는 논문에서는 domain knowledge를 neural network에 끼워넣을 수 있는 contextual decomposition explanation penalization이라는 방법론을 제안했다. CDEP는 supervised learning task에서 label을 예측할 뿐만 아니라 그에 해당하는 explanation도 같이 출력을 해 준다. 물론 적절한 explanation을 얻기 위해서는 학습 데이터에 label과 같이 explanation도 추가해줘야 하기는 하지만, 이런 방식을 채택함으로써 복잡한 task에서 보다 더 높은 예측 성능과 함께 model interpretability를 얻을 수 있다는 점이 흥미로웠다. 지금까지는 model interpretability에 대해서 항상 unsupervised setting을 기준으로 생각해왔는데, interpretability가 정말 중요한 task라면 이런 supervised 방식으로 접근하는 것도 좋을 것 같다.

Transparency promotion with model-agnostic linear competitors라는 논문에서는 linear model의 interpretablility와 black-box model (주로 neural network)의 좋은 예측 성능을 모두 갖는 model-agnostic linear competitors (MALC)라는 방법론을 제안하였다. 이 연구의 메인 아이디어는 데이터 공간을 여러 개로 분할하고, 각 공간에서 가장 잘 작동하는 linear model을 사용하는 것이다. 또한, 어떤 linear model도 제대로 작동하지 않는 경우에 대해서는 black-box model을 사용해서 최대한의 예측정확도와 linear model의 interpretability를 활용한다. 이 논문을 보면서 아직까지도 linear model의 장점을 최대한 살리려는 연구가 게속되고 있다는 것을 알 수 있었다.

2. Fairness, equity, justices, and safety

머신러닝 모델들이 현실 문제들을 해결하는 데 적극적으로 활용되기 시작하면서, 다양한 문제들이 제기되고 있다. 가장 대표적인 문제가 model fairness 또는 fair performances와 관련된 내용인데, 특정 집단 (인종 또는 성별 등)에 따라 모델의 예측 성능의 차이가 존재하지 않아야 한다는 주제이다. 특정 집단에 대해 모델의 성능이 다르거나 예측에 편향이 존재하게 되면 이는 사회적으로 큰 문제가 될 수 있기 때문이다. 머신러닝 모델이 적용되는 분야가 다양하기 때문에, fairness에 관련된 연구도 다양한 분야에서 진행되는 것으로 알고 있었고, ICML에서도 중요한 주제 중 하나로 다루어지고 있는 것 같다.

Model fairness와 관련된 연구는 크게 두 가지로 나누어지는 것 같은데, 하나는 fair performance를 갖는 모델을 학습하기 위한 방법론에 대한 연구이고, 다른 하나는 모델 성능의 저하와 fairness의 trade-off와 관련된 것들을 다루는 연구인 것 같다. 이번 학회에서는 fairness와 accuracy간의 trade-off와 관련된 연구들이 상당히 흥미로웠다. 평소에 두 가지는 분명 trade-off 관계가 있을 것이라고 생각하고 있었는데, 그 관계를 이론적으로 밝히려고 하거나, 어떤 조건에서 trade-off 없이 동일한 performance를 유지하면서 fairness를 얻을 수 있는지를 연구한 내용들이 있었기 때문이다.

Bounding the fairness and accuracy of classifiers from population statistics, is there a trade-off between fairness and accuracy? A perspective using mismatched hypothesis testing, too relaxed to be fair와 같은 논문들에서 이런 주제들을 다루고 있었다.

3. Sequential, network, and time-series modeling

머신러닝이 적용되는 분야와 데이터의 종류는 아주 다양하지만, 이번 학회에서는 sequential data와 time-series data를 다루는 연구들을 조금 자세히 들여다보았다. 그동안 time-series나 sequential data를 모델링하는 연구들에 상대적으로 관심이 적었는데, 최근에 이런 데이터들을 다룰 일이 많아졌기 때문이다.

Self-attentive Hawkes process에서는 어떤 종류의 event가 언제 발생할지를 모델링하는 Hawkes process를 self-attention network를 통해서 모델링했다. Hawkes process는 discrete time events를 나타내는 temporal point processes를 위한 모델이며, 기존 history를 바탕으로 앞으로 어떤 event가 언제 발생할지를 예측하기 위한 방법론이다. 최근 많은 연구들이 RNN 보다 self-attention이 다양한 종류의 sequential data (time-series를 포함한) 를 다루는데 더 좋은 성능을 보였기 때문에, 이 논문에서도 Hawkes process에 self-attention mechanism을 결합하였다. 기존에 생각해 본 적 없는 TPP라는 개념과 이를 다루기 위한 방법론들에 대해 처음 접하였는데, 알아두면 event data를 다루는데 유용하게 사용할 수 있을 것 같다.

Temporal logic point processes에서도 비슷한 문제를 다루었는데, 이 연구에서는 neural network를 사용하지 않는 probabilistic model을 제안하였다. 내용이 조금 복잡해서 자세하게 읽어보지는 못했지만, logic rule에 기반하고 있어 높은 interpretability를 보인다는 특징을 갖고 있어 공부해보면 좋을 것 같다.

이외에도 관심이 갔지만 시간이 부족해서 자세히 리뷰하지 못한 주제들도 있었다. 사실 healthcare application과 관련된 연구들을 자세하게 보고싶었는데, 어떤 연구들이 발표되었는지도 제대로 확인하지 못했다. 또한 Gaussian process와 관련된 연구들이 상당히 다양하게 발표되었고, awarded paper도 GP와 관련된 연구였는데, 막상 GP를 자세하게 알지 못해서 해당 연구들을 자세히 알아들을 수 없었다. 최근 상당히 많은 연구들이 GP를 직/간접적으로 이용하고 있는데, 자세히 알아둘 필요가 있을 것 같다.