고려대학교 DMQA 연구실

The Transformer Network: Attention is All You Need

2018년 11월 19일 오후 10:24
조회수: 2326

REFERENCES

20181123_강현구_Attention-is-All-You-Need_배포용.pdf

INFORMATION

2018년 11월 23일
오후 1시 30분 ~
고려대학교 신공학관 218호

발표자:

강현구

TOPIC

The Transformer Network: Attention is All You Need

OVERVIEW

요약: 현재 대부분의 텍스트 분류, 기계번역, 질의응답 시스템, 문서 요약 등의 language modeling task에서는 주로 CNN 혹은 RNN에 attention 기법을 가미한 딥 러닝 모델이 하나의 표준처럼 자리매김하였다. 하지만 RNN 기반 모델은 입력 시퀀스(문장)을 순차적으로 처리하기 때문에 병렬처리가 힘들다는 치명적인 단점이 있는 한편, CNN 기반 모델의 경우 병렬처리에는 용이하나 여전히 위치 상 거리가 먼 토큰(단어) 간 관계를 학습하려면 필요 이상으로 여러 개의 합성곱층을 쌓아야만 한다. 본 세미나에서는 CNN/RNN과 같은 구조를 사용하지 않고, 오로지 attention 기법만을 사용하여 위 언급된 단점들을 극복한 Transformer 구조의 배경과 이론, 그리고 확장된 연구들을 다루고자 한다.

참고문헌:

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (pp. 5998-6008).

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.

발표자 후기

강현구

금일 세미나는 2017년 발표된 'Attention is all you need' 논문에서 처음 등장한 Transformer 네트워크 구조에 대해 공유하는 시간을 가졌다.Transformer에서는 입력되는 문장 내 단어들에 대한 좋은 feature를 학습하기 위한 self-attention 기법을 새롭게 제안하고 있으며, 기계번역을 포함한 다양한 자연어처리 task들에서 탁월한 성능을 보인다. RNN 기반의 seq2seq의 경우 입력 값들을 순차적으로 처리하기 때문에 입력 문장의 길이가 길어질 경우 학습속도가 느려지는 단점을 가지고 있었는데, Transformer에서는 연산이 입력 문장 내 순서에 영향을 받지 않기 때문에 효율적인 병렬 처리가 가능해진 것은 큰 장점이라고 할 수 있다. 요새 등장하는 복잡한 알고리즘들보다 구현이 비교적 쉽고, 그 장점 및 성능도 명확하기 때문에 본 세미나에 참석한 분들이 각자의 연구에 적극 활용할 수 있으면 좋겠다. 한시간이 훌쩍 넘는 시간동안 경청해준 분들께 감사의 말씀을 드립니다.

청취자 후기

이한규

딥러닝의 장점은 유연한 구조로 인하여 다양한 형태의 데이터를 제약없이 다룰수 있다는 점인것 같다. 오늘 세미나는 기존 기계번역에서 우수한 성능을 보였던 seq2seq 모델을 개선하여 새롭게 제안된 transformer에 대해 다뤘다. seq2seq와 seq2seq with attention 모델을 기계번역 뿐만아니라 text summarization 방법까지 넓은 범위에서 사용되는 모델구조이다. 그러나 seq2seq 모델이 RNN을 기반으로 하기 때문에 sequence 길이에 따라 학습시간이 길고, computational cost가 높다는 단점이 있다. 오늘 다룬 transformer 알고리즘의 경우 이러한 단점을 극복하고자 기존의 seq2seq과 같은 역할을 수행하되, RNN 구조를 탈피한 모델을 소개하였다. encoder와 decoder를 구성하되 각각을 간단한 형태의 encoder를 여러개를 쌓고 더불어 decoder 또한 간단한 구조로 만들되 여러개를 구성하여 이를 통해 정보가 흐를수 있도록 구성하였다. 그리고 매 encoder 얻어진 정보를 decoder로 지속적으로 보내어 초기의 정보가 사라지지 않고 decoder에도 작용할 수 있도록 하였다. 상당히 특이한 구조로 복잡한듯 보이지만 그 개념은 상당힌 간단한것 으로 생각된다. 최근 text summarization 관련 과제를 수행하면서 seq2seq에 대해 공부하고 있었는데 정리할 수 있어서 흥미로웠던 세미나라 생각된다.

이민정

오늘은 'Attention is All You Need'에 관한 논문 세미나가 이루어졌다. 발표자는 우리 연구실의 캡틴강이었다. 세미나 발표 자료는 유다시티에서 만든 블로그의 내용으로 구성되었다. 그동안 세미나를 준비하면서 공부는 하였으나 시간이 부족하여 장표를 구성하는데 애먹은 적이 많았었는대 왜 이런 방법을 생각하지 못하였는가 한탄스러웠다. 처음에 기본적인 설명을 위해 Seq2Seq 모델과 Attention에 관한 개념을 설명하였다. 이 부분이 추가되었기에 우리 연구실 모든 인원이 무엇인가 하나는 얻어갈 수 있는 유익한 시간이 될 수 있었던거 같다. 그리고 교수님이 항상 강조하시는 Input, Output에 대한 언급을 명확히 해주어서 그부분도 이해하기 좋았던거 같다. 중간중간에 모델의 구성물을 설명하면서 이런 부분에는 이런 종류들이 있는대 이게 가장 많이 활용되는 것 같다. 이런 얘기를 해주어서 나중에 비슷한 주제의 모델을 만들때 도움될 것 같다. 그리고 모델의 큰 설명을 하고 Training을 위한 Trick같은 것을 과감하게 생략하여 발표함으로써 핵심을 확실히 이해시키기 위해 발표구성을 한 점이 배울 점이라고 생각한다. 다만 오늘의 핵심인 Transformer 모델에 대한 것보다 앞의 Attentional Seq2Seq 모델에 너무 큰 비중을 두어서 Tansformer모델 뒷부분에 축약되어 설명되는 부분이 많았던 것이 아쉬웠다. 유익한 시간을 갖게 해준 캡틴강에게 박수를 보낸다.

조용원

금일세미나는 ‘The Transformer : Attention is All You Need’ 라는 주제로 현구가 발표를 해주었다. 주제를 선정하면서, 연구원들에게 좋은 정보를 알려주기 위해 고민하는 현구를 보고 이를 본 받아야 하겠다고 생각했다. 해당 주제에 관해서는 주로 Sequence data에 적용하는 알고리즘이다. 기존의 RNN은 병렬처리가 불가능하다는 단점이 있다. 그래서 학습에 걸리는 시간이 매우 길었다. 하지만 Attention기법을 이용하면 시간을 단축할 수 있다. 또한 해당 알고리즘은 기존의 Seq2Seq과 달리, Encoder를 통해 만들어지는 모든 Hidden States를 Context Vector로 사용함으로써, Sequence가 길어지더라도 전부 사용할 수 있게 변환하였다. 또한 encoder의 hidden vector와 decoder의 hidden vector의 내적을 이용하여 score를 구했고 이를 Decoder에 넣어 번역된 Sequence를 생산하였다. 또한 Self-Attention의 개념을 이용해서 문장 내의 단어 사이에 관계를 고려할 수 있었다. 또한 영어에서 사용되는 대명사가 무엇을 지칭하는지에 관해 Multi-Head Attention을 사용하면 각각의 Head에 대해 대명사와 원래 명사를 찾는 역할도 할 수 있었다. 해당 알고리즘의 장점은 명확했다. 기존에 Sequence에 유용하다는 RNN은 연산을 많이 해야하지만, Attention 기법은 문장에 대해서만 진행하기 때문에 연산의 횟수가 약 100배 정도 감소한다. 또한 해당 알고리즘은 GPU를 이용 할 수 있기 때문에 연산을 동시에 진행이 가능하다. 즉 Attention 기법을 이용한다면 계산량과 시간을 줄일 수 있다는 것이다. 매번 현구의 발표 들을 때 마다 현구에게 감탄을 한다. 발표하면서 자신이 직접 그린 자료는 없다고 했지만, 해당 알고리즘을 잘 설명하는 그림을 잘 찾아서 청취자들이 알기 쉽게 설명해주었다. 또한 말을 하는 것이 전부가 아니라, 몸짓과 직접적으로 스크린을 가르치면서 해준 설명은 이해를 도와주었다. 해당 내용을 잘 이해하고 있기에, 여유를 가지고 설명해주는 모습 또한 멋졌다. 지금 내가 보고 있는 논문에도 Attention Mechanism 이라는 용어가 나왔지만 이해가 어려웠는데 현구의 발표를 듣고 다시 이해 하는 것에 도전해 보아야겠다. 어려운 주제를 알기 쉽고 재미있게 장 시간을 발표해준 현구에게 감사를 표한다.

이상민

금일세미나는 기계번역 분야에 시간 복잡도를 줄인 Attention이라는 기법연구를 소개하였다. Attention 이란 query(Q)와 key(K)-value(V) pair를 output으로 변환하는 함수이다. Attention mechanism은 뉴럴 네트워크의 구조를 최대한 간단하게 유지함으로써 recurrent나 convolution 방식 대비 알고리즘의 시간복잡도를 크게 줄이고자 한다. 이외 상대적으로 거리가 떨어진 position 간의 관계성(input 간에, 그리고 input과 output 간에)에도 동등한 학습이 가능하다는 점에서 정확도 성능을 향상시킬 수 있다. 대표적인 예시로 번역을 해야 하는 문장 중에 대명사가 포함된 경우, 문장 내 관계성을 최대한 파악하여 더 정확하게 번역할 수 있다고 한다. attention 구조를 처음 접했는데, 기존 recurrent 방식과 convolution 방식과는 다소 상이하여 충분히 이해하지는 못했다. 허나, 학습모델의 시간복잡도를 중요시 여겨야 하는 large data set을 다루는 문제나 seq2seq을 활용한 time series prediction modeling시 long-term prediction을 위해서 좋은 대안이 될 수 있을 것으로 보인다. 좋은 발표를 해준 현구에게 감사의 마음을 전하고, 또 현구가 개인적으로 좋은 연구성과를 낼 수 있기를 응원한다.

이영재

금일 세미나는 기계 번역에 있어서 RNN(병렬 처리가 불가능), CNN을 이용하는 것보다 더 효율적인 Attention기법을 이용한 발표였다. 기계 번역에서 RNN은 병렬 처리가 불가능한 단점이 있어 이를 극복하기 위해 Attention 기법의 효율적인 면을 알아보았다. 이 세미나의 핵심인 Attention의 기법을 추가한 경우에는 각 단어들이 encoder RNN으로부터 나온 hidden state 들을 Attention decoder RNN 으로부터 각각의 output 을 내보내는 방식이다. Attention 기법은 각 hidden state 에 점수를 주고 softmax score로 정규화한 vector 들을 더하여 이것이 context vector로서 작용하는 방법이다. 병렬 처리에 효과적인 Transformer는 self- attention 기법이 encoder 내에 존재한다. Input은 각 단어가 아닌 문장 전체가 들어가 encoder 내의 self-attention에서 각 단어들이 독립적으로 나오며 독립적으로 나온 vector들은 feed forward를 통해 다음 encoder로 보낸다. 제일 위 층의 encoder 에서 나온 vector가 각각 decoder들로부터 output을 내보낸다. Self- attention 방법을 이용함으로써 단어의 중요성 및 문장에서의 단어 사이의 관계를 짐작할 수 있다. 또한 multi-head attention을 사용하면 각 head에 대해 대명사와 이를 의미하는 명사를 찾을 수 있었다. 기존에 RNN은 병렬 처리가 불가능하고 연산 시간이 오래 걸리지만 Attention 기법을 적용함으로써 단점들을 보완할 수 있음을 알 수 있었다. 세미나 시간에 많은 질문들과 이에 대한 대답들은 유익한 정보였고 이해하기가 좀 더 수월했다. 또한 오늘 설명한 기법이 기계 번역 뿐만 아니라 다른 분야에서도 사용될 수 있다는 점에서 충분히 연구해볼 가치가 있다고 생각했다. 좀 더 공부해보며 다양한 분야로도 고민해볼 필요성을 느꼈고 오늘 세미나 발표를 해준 현구에게 고마움을 전한다.

조윤상

오늘 전체세미나는 'The Transformer: Attention is All You Need'라는 주제로 현구가 진행하였다. Sequence 데이터를 처리하고 분석하는 기법은 텍스트, 의료 내 유전자, 이벤트 등 여러 분야에서 필요하다. 그 분야 중 텍스트 번역에 초점을 맞추어 Transformer 모델을 소개해주었다. 현재 대부분의 sequence model은 cnn이나 rnn을 encoder, decoder로써 활용하고 있다. 그 중 가장 좋은 성능을 보이는 모델은 attention mechanism을 활용한 encoder, decoder모델이다. 오늘 소개해준 논문은 cnn과 rnn을 없애고 attenton에만 기반을 둔 단순한 network인 Transformer를 제안하였다. 이를 통해 paralleizable이 가능해졌고, train 시간을 대폭 감소시켰다. 2개의 machine translation 실험을 해본결과 성능을 보였다. 알고리즘을 디자인한 분석 방법론뿐만 아니라 분석를 발표자의 짜임새 있는 슬라이드 구성과 설명이 이해하기 수월하여 인상적이었다. 최종적으로 번역을 더 잘할 수 있는 모델이라는 점은 Sequence와 Sequence 간 특징을 잘 추출한 것으로 다양한 분야에 이용할 수 있을 것으로 생각한다. 요즘 수면 seuquence 데이터를 분석하고 있는데 Sequence Autoencoder로써 Transformer모델을 사용하여 Sequence Embedding에 적용해 보면 좋을 것 같다.

백인성

오늘 세미나의 주제는 "The Transformer Network : Attention is All You Need"였다. 기존에는 텍스트 분류, 문서 요약 등 Language Modeling Task에서 RNN, CNN에 Attention 기법을 가미한 딥러닝 모델이 하나의 표준처럼 사용 되고 있었다. 하지만 RNN에서는 입력 Sequence(문장)가 순차적으로 처리 되어 병렬 처리가 어렵기 때문에 시간이 오래걸린다는 단점이 있었고, CNN에서는 위치상 거리가 먼 단어 간의 관계를 학습하기 위해서는 필요 이상의 여러개의 합성곱 층을 쌓아야 하는 단점이 있었다. 기존에 주로 사용 되었던 RNN과 CNN model의 단점을 극복하고자 제안 된 것이 Transformer Network Model이었다. 먼저 RNN의 Attention을 가미한 Model에서 생기는 단점인 느린 속도를 극복하기 위해 RNN을 빼고 Attention만 가지고 modeling을 해보자는 아이디어가 나온다. 이는 Input에 문장 전체를 넣고(기존에는 단어 vector를 넣음) 이에 대한 Encoder space를 Convolution Layer처럼 쌓은 뒤, 마지막 Encoder space에서 각 Decoder space로 연결해 병렬 처리가 가능하게 하는 아이디어이다. 그리고 위치상 거리를 파악하기 위해 Multi-Head Attention에 대해 Positional Encoding기법을 활용하여 값을 계산한다. 이를 통해 CNN이 가지는 단점을 극복할 수 있다. 최종적으로 model의 성능을 비교하면 기존에 비해 Transformer Network model이 계산량도 적고 처리 속도도 약 100배 빨라지고, 성능도 좋아짐을 확인할 수 있었다. 이번 발표를 준비해 준 현구에게 정말 큰 감사함을 느꼈다. 청취자들에게 전달할 가치 있는 주제에 대한 깊은 고민과 청취자들에게 쉽게 전달하려는 고민과 핵심을 명확하게 전달하려는 고민의 흔적들이 보였던 것 같다. 먼저 많은 사람들이 아직 접하지 못했지만 최근에 뜨고 있는 주제를 선정하는 데에 많은 고민이 있었을거라고 느꼈다. 두번째로 청취자들에게 쉽게 전달하기 위해 다이내믹한 그림들을 찾아 활용하고 실제 예시 문장을 바탕으로 설명해 준 점이 매우 좋았다. 마지막으로 핵심을 명확하게 전달하기 위해 기존에 있었던 RNN, CNN에 Attention을 더한 model을 먼저 설명 해주고 기존 모델의 단점을 바탕으로 Transformer model이 가지는 장점을 설명해 준 점도 좋았다. 중간 중간 새로운 아이디어에 대해 '기존의 가정을 깨야 한다', '하지만 여기서는 또 뭐가 부족한가?' 이런 이야기들을 해주면서 더 집중할 수 있게 해주었던 점도 좋았던 거 같다. 이번 발표를 들으며 '청취자들의 관점에서 생각하고 진행하는 발표란 이런 것이 아닐까'라는 생각을 하게 되었다. 좋은 내용을 최대한 이해하기 쉽게 설명해준 현구에게 다시 한번 감사함을 표한다.

채선율

오늘 세미나에서는 기계 번역으로 잘 알려진 language modeling task에 attention 기법을 사용한 Transformer 구조를 제안한 논문을 소개하였다. 먼저 기본적인 Seq2seq 모델에 대하여 설명하고, 여기에 attention을 차용한 모델을 설명한 뒤에 Transformer 구조를 설명하였다. Seq2seq 모델은 RNN 기반으로 입력 단어의 순서를 고려할 수 있다. 다만 이 같은 특성 때문에 병렬 처리가 어렵다. Attention은 query와 key, value를 받아서 output에 매핑하는 함수이다. 여기서 query는 decoder의 hidden state이고 key는 encoder의 hidden state이다. 또한 value는 key에 해당하는 정규화된 가중치 값을 의미한다. 해당 논문에서는 앞서 소개한 모델들의 한계점을 지적하며 attention만을 사용한 Transformer 구조의 장점을 말하고 있다. 첫째, computation cost가 줄어든다. 둘째, 병렬 연산이 가능하다. 셋째, 먼 거리에 있는 단어 간 관계도 학습이 가능하다. 발표자는 Seq2seq 모델부터 Transformer 모델까지 큰 흐름에 따라 상세하고 친절하게 설명하여 전체적인 내용을 따라가기에 무리가 없었다. 그러나 이번 세미나에서 가장 핵심적인 개념인 attention을 소개할 때 attention을 어떻게 계산하는지 단계적으로 설명하기에 앞서 attention의 개념에 대해 더 자세하게 설명했으면 뒤이어 나오는 수식들을 이해하기가 보다 수월했을 것 같다. 대부분의 연구실 인원들에게 생소할 수 있는 최신 기법에 대해 잘 설명해준 강현구 연구원에게 감사의 인사를 전한다.

이창현

금일 세미나는 Attention is all you need 논문을 주제로 진행되었다. 2017년 google 에서 제안된 논문으로 기계번역 분야에서 기존에 있던 모델의 단점을 극복하는 새로운 방법론을 제안하였다. 기존의 기계번역은 RNN 을 기반으로 진행되었다. 입력되는 문장을 인코더를 통하여 축약하고 디코더를 통하여 번역된 문장을 제시하게 된다. RNN 구조를 가지고 있기 때문에 입력 문장의 단어를 순차적으로 학습하여 축약된 벡터인 context 벡터를 생성하게 되는데 과련 이 context 벡터가 입력 문장을 잘 반영하고 있는 것인가에 대한 의문을 가질 수 있다. 문장 내의 A 단어는 문장내의 B 단어와는 관련이 높지만, C 단어와는 관련이 낮을 수 있다. 이런 상황에서 A 다음에 C 단어가 오는 문장이라면 둘 사이의 상관도는 높게 형성되지만 실제로는 B 가 더 높게 형성되어야 하는데 이러한 부분을 Attention 이라는 개념으로 보완한다. Attention 은 입력 단어중에 어떤단어를 중요하게 봐야하는지에 대한 정보라고 볼 수 있다. 기존 RNN 방식에 attention 방식을 추가하여 더 나은 성능의 모델을 생성할 수 있지만 RNN 에 기반을 두기 때문에 입력이 커질 경우 시간 효율이 낮은 단점이 있다. 속도 문제를 개선하기 위하여 transformer 라는 모델을 제안한다. 이 모델은 병렬처리가 가능하기 때문에 입력이 길어져도 복잡도가 유지되는 장점이 있다. Transformer 에서 self-attention 이 가장 주요한 개념으로 query, key, value 를 생성하여 마치 convolution layer 와 같은 처리를 할 수 있다. 평가 결과 transformer 에서 기존 대비 가장 좋은 성능의 결과를 얻을 수 있었다. 금일 세미나를 통하여 기계번역분야의 모델을 보았지만 attention 의 개념은 변수 선택이나 다른 문제 상황에서도 충분히 응용될 수 있는 방안으로 생각된다. 기존의 모델이 가지고 있는 약점을 파악하고 개선하는 방안에 대해서 쉽게 이해할 수 있었던 좋은 세미나였다.

안건이

오늘 오랜만에 세미나가 진행되었다. 현구가 “Attention Is All You Need”라는 논문을 소개해주었다. 기본적으로 seq2seq이라면 RNN 계열을 많이 생각한다. 하지만, RNN 계열은 CNN 계열보다 시간이 훨씬 많이 걸린다. 실제로 5~6배 정도 많이 걸리는 것으로 알려져 있다. RNN은 말그대로 Sequence가 있기 때문에 병렬 처리가 불가능하다. 순서가 있는 데이터(시그널, 문장 등)는 하나의 데이터가 순차적으로 들어가야 하기 때문에 병렬 처리가 불가능하다. 하지만, 그렇게 하게 되면 시간이 너무 오래 걸리기 때문에 현실적으로 사용되기 어렵다. 이러한 단점을 보완하여, Attention Is All You Need라는 논문이 나왔다. 기본적으로 RNN 계열이 아닌 CNN 계열을 사용하여, 병렬 처리를 가능하게 했고, 문장 안에서 단어 간 Attention 즉, 내 자신을 기준으로 가장 흥미로운 단어에 스코어링을 해주는것이다. 정말 준비를 많이 해오고 멋진 발표를 해준 현구에게 고맙다는 말을 전한다.

성유연

금일 세미나는 “Transformer Network: Attention is All You Need”라는 주제로 진행되었다. Attention 의 개념은 Seq2seq 구조의 모델에서 많이 봐왔던, 긴 input sequence를 효과적으로 기억하는 것을 목표로 한, 기술이다. 금일 세미나에서는 seq2seq 구조의 인코더 디코더 구상은 유지하되 input과 output에 변형, 특정 weight에 대한 학습 과정에 대한 변형을 통해 time complexity에 대한 개선점을 찾고자 고안된 transformer의 구조에 대한 설명이 있었다. Transformer의 input 은 sample의 전체 sequence이고 모델 내에서 self attention에 대한 weight 가 학습되어 encoder input 내 관측치들의 관계성을 학습한다. 이는 모델이 encoder input을 전체적으로 파악할 수 있게 해줌으로써 정확한 y를 예측하는 데의 확률을 높인다. 여기서 의문점은 ‘Co-reference task’에 이 기술을 활용할 때 에서 인코더 input의 특정 단어(“Law”)가 각 단어(‘this’, ‘that’)마다 다른 weight를 줄 때 decoder의 영향을 받지 않을까 라는 것이다. 앞서 attention 개념에 녹아 있던 decoder input, 즉 y data와의 encoder input의 loss fuction을 활용하여 self attention의 weight를 학습시키는 것이 transformer 구조의 핵심이라는 생각이 든다.

곽민구

금일 세미나에서는 Attention is All you Need라는 논문에 대한 리뷰를 진행하였다. 세미나의 첫 부분에서는 주로 기계번역에서 사용되는 seq2seq의 기초 형태에 대한 간단한 리뷰부터 시작해서, attention의 개념 및 한계점까지 다루었다. 예전에 종종 접했던 개념이었지만 실제로 사용해본적이 없었기 때문에 항상 헷갈렸던 부분이었는데, 다시금 개념을 정리할 수 있는 좋은 기회였다고 생각한다. 오늘 세미나 내용에서 다룬 내용 매우 많았지만, 그 중에서 가장 인상 깊었던 부분은 self-attention이었다. 기존의 attention 알고리즘은 output이 나온 결과에 대해서 input의 어떤 부분을 참조 했는가를 밝혀내기 위한 것이었다면, self-attention은 input sequence 자체에서 좋은 feature를 학습하기 위한 알고리즘이다. 또한, multi-head attention을 사용해서 convolution처럼 다양한 종류의 feature를 학습하기 위한 attention을 여러 개 사용하는 것 또한 인상 깊었다. 제안된 알고리즘은 기존 RNN 기반의 seq2seq 모델과는 달리 입력 문장의 길이가 길어지더라도 병렬 처리를 통해 속도를 향상시킬 수 있으며, 모델의 성능과 해석력 또한 향상되었다. 복잡하고 많은 내용에 대해서 공부하고 준비를 했다는 것을 많이 느낄 수 있었다.

김영훈

오늘 세미나에서는 Deep Learning 구조에서의 Attention 방법론에 대해서 자세한 설명을 들을 수 있었다. 최근 Deep Learning을 이용한 번역기에서 Seq2Seq 구조가 많이 활용되고 있다. 이 구조는 순차적으로 입력되는 정보를 압축해서 Thought Vector를 만들고 이 정보를 이용해 Decoding하는 방식이다. 이와 같은 구조를 사용할 경우 전체적인 맥락을 고려할 수 있는 정보 추출이 가능하다는 점에서 기존의 RNN 구조와 차이점을 보이고 실제 번역 성능에서도 더 좋은 모습을 보여왔다. 최근에는 이러한 구조에서 Attention이라고 하는 개념이 널리 사용된다. 내 생각에는 Adaptive한 가중치 계산 개념이라고 생각이 되었다. 입력되는 정보들에 대한 가중치를 주는 구조를 추가적으로 부여하고 이를 활용하는 것이다. 이렇게 되면 우리가 특정 출력값을 계산할 때 어떠한 부분에 좀 더 집중해서 계산해야하는 지를 추정할 수 있게 되고 예측의 정확도가 향상된다. 이러한 RNN 구조의 한계점은 입력이 Sequential하게 들어와야 한다는 점이다. 이렇게 되면 분산처리의 효율성이 많이 감소하게 된다. 그래서 이러한 처리 효율성을 높이기 위해서 Self Attention 개념이 제안되었다. 이 방법은 CNN과 같은 구조를 가지고 있으면서 Attention 기법을 적용할 수 있는 방법이다. 이를 활용하게 되면 문장의 길이에 상관없이 일정한 Complexity를 가지고 계산을 할 수 있게 되고 예측 성능도 향상시킬 수 있다. 최근 번역이나 NLP 영역에서 Deep Learning이 많이 활용되고 있는데 인간의 해석 과정을 반영한 흥미로운 방법이라고 생각이 되었다. 관련해서 다른 데이터나 응용 분야에 적용해보면 흥미로울 것 같다.

Seminar