- 2023년 7월 27일 오후 3:30
- 조회수: 15855
INFORMATION
- 2023년 7월 28일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 ChatGPT 및 ChatGPT에 근간이 되는 다양한 Large Language Model(LLM)에 대해 진행되었다. Language Model은 인간의 언어를 이해하는 인공지능 모델을 의미하는데, 최근에는 학습 데이터 및 모델의 크기가 증가함에 따라 Large라는 단어가 수반한다. LLM의 시초는 2017년에 나온 Transformer이며, 이후 Language Model을 더욱 더 Large하게 연구한 결과 최근의 ChatGPT가 탄생했다고 봐도 무방하다. 본 세미나에서는 이러한 ChatGPT가 탄생하게 된 LLM의 흐름을 다룬다.
최초의 시작은 RNN이다. RNN을 통해 인접한 Input간 관계성을 학습할 수 있게 됨에 따라 모델은 발전하였다. 이후 Seq2Seq /w attention 이 생겨나고 Transformer가 생겨남에 따라 LLM이 본격적으로 시작하게 된다. ChatGPT는 이름처럼 GPT를 기반으로 한다. GPT는 Transformer의 Decoder로 Autoregressive하게 학습하는 모델로, 많은 데이터와 Multitask Learning 등을 포함하는 모델 구조로 모델의 크기를 확장함에 따라 최근에는 GPT4까지 발전하였다. 특히나, 최근에는 별도의 미세조정을 필요로 하지 않는 Zero-shot Learning이 가능한 수준까지 도달하여 인공지능의 언어에 대한 이해도가 높아졌다. 이후에는 ChatGPT의 근간이 되는 InstructGPT가 등장한다. 이는 인간 기반의 강화학습을 도입하여 사용자의 의도와 부합하지 않는 출력값을 최소화하였다.
본 세미나를 통해 ChatGPT가 만들어질 때까지 달려온 LLM의 역사를 훑어볼 수 있었다. 이전에는 주어진 Task에 대해 예측성능이 높은 모델이 최고였지만, 이제는 Truthful, Helpfulness 등을 함께 고려하는 모델이 각광받는 시대가 왔다. 이는 인간이 추구하는 목표와 유사하며, 인공지능이 정말로 인간과 유사한 지능으로 발전하고 있다는 생각이 들었다. 기회가 된다면 어떤 메커니즘으로 좋은 성능을 내면서, 유해한 출력값을 걸러낼 수 있는지 알고리즘적으로 공부해보고 싶어졌다. 유익한 세미나를 준비해준 채고은 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Large Language Model (LLM)을 주제로 진행되었다. LLM에 관한 설명을 하기에 앞서 RNN, LSTM 그리고 GRU와 같은 단순 언어 모델과 transformer와 같은 사전 학습된 언어 모델에 관한 간략한 설명을 해주어 언어 모델의 흐름을 파악하는 데 도움이 되었다. 그리고 단순 언어 모델, 사전 학습된 언어 모델과 거대 언어 모델에 관해 관련 논문을 간략히 소개해 주었다.
단순 언어 모델: Seq2Seq, 인코더와 디코더로 이루어진 모델을 사용해 문장 내 토큰의 의미적인 관계를 학습하여 문장을 생성해 주는 것이 핵심이다. 여기서 생성된 문장이란, 기계 번역처럼 영어(입력)에 대해 번역한 한국어(출력)로 말할 수 있다. 하지만, 해당 모델이 기계 번역을 수행한다고 할 때, 입력 시퀀스의 길이가 길다면 주어에 해당하는 정보가 희석되어 디코더에서 주어에 해당하는 단어를 생성할 때(인코더의 마지막 정) 적절하게 반영하지 못하는 한계가 존재한다. 이러한 한계를 개선하기 위해 어텐션 메카니즘을 활용한다.
사전 학습된 언어 모델: Attention is All You Need (Transformer), 경험적으로 어떤 도메인에서든 활용도가 높은 방법론이라고 생각한다. Seq2Seq과 동일하게 인코더와 디코더로 구성되어 있지만, 인코더와 디코더로 구성되어 있다는 말만 동일할 뿐 실제로는 훨씬 복잡한 구조로 구성되어 있다. 자세한 설명은 생략한다.
거대 언어 모델: 말 그대로 굉장히 거대한 언어 모델이다. 학습을 위해선 굉장히 오랜 시간과 비용이 든다. 하지만 모델의 크기가 거대해질수록 성능이 크게 상승하게 되는데, 이를 거대 언어 모델에서 발현되는 능력인 Emergent Abilities라고 한다. GPT-1~GPT-3로 갈수록 점점 모델의 사이즈가 커질 뿐만 아니라 사용하는 데이터 셋의 크기도 더 커지는데, 이에 따른 성능도 비례하여 향상된다. 심지어, GPT-3에서는 미세조정 단계 없이 사전 학습된 모델만을 사용해 답변(출력)을 생성하는데 이는 인간의 의사 결정과 유사하다고 한다.
마지막은 ChatGPT에 관한 설명인데, 인간이 판단한 Ranking을 반영하기 위해 Ranking을 보상을 설정해 강화학습을 학습에 활용한다는 점이다. 이와 관련해 강화학습에 기본적인 요소인 상태, 환경, 에이전트 등을 ChatGPT와 연관 지어 설명해 준 덕분에 이해가 수월했다. 본 세미나는 단순 언어 모델부터 거대 언어 모델까지 순차적인 흐름과 각 모델에 관한 핵심적인 설명이 주를 이루었다. 방대한 내용이었지만, 좋은 설명 덕분에 재밌게 들을 수 있었다. 좋은 세미나를 준비해 준 채고은 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 LLM(Large Language Model)라는 주제로 진행되었다. ChatGPT가 등장하면서 AI로 가장 큰 주목을 받고 있는 분야이고 이제는 모르는 사람이 없을정도이기 때문에 세미나 청취에 앞서 기대가 되었다. 뿐만 아니라 딥러닝을 공부해오면서 언어 관련해서는 공부를 많이 하지 못해서 생소한 부분이기에 더욱 집중하며 청취할 수 있었다. 가볍게 RNN을 설명하여 LLM까지의 과정을 설명하였고, 대부분의 언어처리 모델의 초석이되는 Seq2Seq를 설명하였다. Seq2Seq의 한계점을 지적하며 자연스럽게 Transformer를 설명하였다. Transformer에서 Encoder와 Decoder를 각각 기반으로 발전시킨 모델이 구글의 BERT와 OpenAI의 GPT라는 사실은 흥미로웠다. 그리고 기존의 PLM(Pre-trained LM)과 LLM의 가장 큰 특징은 Emergent Abilities라고 한다. 새로운 개념이였고 작은 모델에서는 나타나지 않지만, 거대한 모델에서 발현되는 능력이라고 한다. 굉장히 신기하게 느껴졌고 왜 이런 현상이 발생하는지는 궁금증으로 남았다. 이어서 GPT 시리즈에 대하여 세미나가 진행되었고 어떤 식으로 발전되어 왔고 어떻게 효과적으로 학습할 수 있었는지 알 수 있었다. 마지막으로 ChatGPT에 대해서 설명했다. 구체적으로 InstructGPT와 이에 사용된 RLHF를 설명하였는데 기존에 OpenAI에서 튜닝한다고 했을때 어떻게 ChatGPT에서 불완전하고 잘못된 답변을 튜닝하는지 궁금했었는데 이번 세미나를 통해서 궁금증을 해소할 수 있었다. 언어모델의 흐름에 대해서 알기쉽게 정리해주어 많은 도움이 되었던것 같다. 평소 궁금했던 것도 해소되고 설명을 잘해주어 편하게 들을 수 있었던 만큼 발표자는 준비하느라 많은 고생을 했을것 같다. 유익한 세미나를 준비해준 채고은 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

대규모 언어 모델 및 ChatGPT에 대한 세미나를 청취하였다. 강필성 교수님의 비정형 데이터 분석 수업 이후로, 오랜만에 듣는 NLP 세미나였는데 수업 내용이 새록새록 떠오르며 흥미롭게 청취하였다. 특히, 최근 많은 이들이 관심을 가지고 있는 ChatGPT에 대한 내용도 다뤄져서 여러 연구원들에게 유익한 내용일 것 같다. 세미나에서는 언어 모델의 기원인 seq2seq와 transformer 모델에 대한 설명도 제공되어, GPT 설명까지 큰 어려움 없이 세미나 내용을 이해할 수 있었고, 귀여운 애니메이션 캐릭터와 흥미로운 예시들을 보며 끝까지 흥미를 잃지 않고 세미나를 청취할 수 있었다. 이제는 Fine-tuning 없이도 다양한 특수 과제들을 효과적으로 수행하는 언어 모델의 놀라운 능력을 보며, 이러한 모델이 어떤 반열에 위치하고 있는지 생각해볼 수 있었다. Emergent abilities? 나 또한 경험해보고 싶다.
개인적으로, gpt3을 기반하고 있는 chatgpt에서 놀라울 정도의 성능과 함께 큰 만족감을 경험을 하고 있는데, 강화학습으로 gpt3을 추가적으로 조율한 3가지 학습이 꽤나 큰 역할을 했을 것이라 생각한다. 관심 연구로 강화학습 또한 함께 생각하고 있는 고은이가 멋진 연구 이어나갈 수 있길 응원하며 세미나 후기를 마치도록 한다.