고려대학교 DMQA 연구실

2020 International Conference on Machine Learning - 배진수

2020년 8월 2일 오후 9:57
조회수: 481

Reviewed by

배진수

올해 ICML 학회는 코로나 사태로 온라인으로 1주일간 개최되었다.

여러 저자들이 연구한 논문과 저자들의 설명 영상이 업로드 되었고, 청취하고 질문하는 방식으로 진행되었는데, 덕분에 여러 질 좋은 논문과 설명을 시간과 공간 제약없이 접할 수 있는 기회를 얻었다. 대학원에 입학 후 처음으로 듣는 학회로 아직 아는게 많이 부족한 신입생으로써 잘 이해할 수 있을까 걱정부터 앞섰지만, 코로나 덕분에(??) 온라인으로 청취하기 때문에 설명 중간 중간 이해가 안되는 곳마다 멈춰 인터넷 자료 검색을 하면 괜찮겠지(?) 걱정을 달래며 청취할 영상을 고르기 시작했다. 이해가 잘 가야하며, 흥미를 돋울 수 있는 논문을 고르려고 아주 오랜시간 동안 찾아본 결과, 두 개 조건을 모두 만족하는 영상을 두개 선정하였다.

첫번째는 [Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention]으로 Transformer 모델의 Self-Attention 계산 효율성을 높이고 이에 따르는 여러 장점들을 소개한 논문이다. 비정형데이터 분석론 팀프로젝트에서 직접 짜보고 많이 부딪혔던 Transformer 모델인지라 이론적으로만 알고 있는 다른 딥러닝 모델 개선 논문들보다 더욱 이해가 쉽고 흥미를 돋구어줬던 논문이다. Transformer는 요즘 자연어 처리 분야에서 SOTA를 찍고 있는 언어 모델

BERT,GPT 등의 근본이 되는 모델이다. Attention과 병렬 처리를 통해 학습속도와 성능을 많이 상승시킨 모델인데, 문장의 길이가 길어질수록 Attention 연산량이

많이 늘어나 학습 속도가 늘어진다는 단점이 있었다. Attention 계산량이 많이 발생하는 곳은 문장 내 토큰 벡터들 사이의 내적과 Softmax 연산에서 발생하는데,

이 부분을 kernel 함수를 사용하게 되면 계산 복잡도를 낮춰줄 수 있다. 또한, 이것의 장점이 본 논문은 기존 트랜스포머 디코딩 블락 내에서 수행되는 masked self attention에서

적용될 수 있는데, kernel 함수를 활용한 연산 과정에서 사용된 특정 Term들이 메모리에 저장되고 RNN의 Hidden state 역할처럼 수행될 수 있게 한다. 이 것을 통해 트랜스포머

디코딩 블락 내 추론 과정을 병렬 처리로 수행할 수 있게 한다. 기존 트랜스포머 모델은 다음 시점의 토큰을 예측하기 위해 이전 시점까지 발생한 모든 토큰들을 입력해야 했기 때문에(Autoregressive),

추론 과정에서 병렬처리를 할 수 없었지만, 본 논문이 개선한 추론과정 병렬 처리를 통해 제목을 Fast Autoregressive Transformer라고 지은 이유를 알 수 있었다.

두번째는 [Representation learning without labels]로 Deep Mind에서 딥러닝 표현학습에 대한 연구 역사와 미래를 전체적으로 설명한 Tutorial 영상이다.

튜토리얼 영상은 특정 연구에 대한 이해를 초점에 두고 제작되었다기 보다는 여러 연구 분야의 동향과 역사 소개를 목적으로 제작되었다는 느낌을 받았다.

내가 이해한 [Representation Learning without labels] 연구 분야의 목적은 다량의 Unlabeled 데이터로 부터 데이터 특징들을 학습한 뒤, 학습된 데이터 특징들을 지도 학습 훈련에

활용하면 더 좋은 효과를 볼 수 있게끔하는 것이다. 이 때, 이를 위한 Representation learning 연구 분야를 과거부터 친절하게 설명해준 장표와 영상은 다른 연구원들에게도 추천할 정도로

너무 이해가 잘 갔던 영상이다. Support vector machine의 Kernel trick을 통한 고차원 데이터 특징 추출부터

Likelihood 기반 표현학습 모델 Auto-encoder, VAE와 더 나아가 Generative Model 연구 분야 소개, 그리고 마지막으로 Attention까지 접목된 표현학습 딥러닝 모델들을 이해할 수 있었다.

또, 튜토리얼 영상이 좋았던 점은 연구 분야 흐름과 더 관심 있는 경우 참고할 수 있는 논문까지 같이 소개하여 Representation learning의 초심자가

따라갈 수 있는 논문 가이드라인 제시가 너무 좋았다.

연구실에 들어온 뒤 많고 다양한 연구 분야를 학교 수업, 연구실 오픈 세미나, 기업 프로젝트 등을 통해 접할 기회가 많았다.

이 중 들으며 매번 설렜던 연구 분야는 '시각화', '차원 축소', '설명 가능한' 연구 분야들이였는데, 이 분야가 'Representation Learning'이라는 것을 본 튜토리얼 영상에서

구체적으로 알 수 있어 이번 학회 소기의 목적을 이룰 수 있었다.