고려대학교 DMQA 연구실

Training Techniques and Research Trends of LLMs

2023년 8월 4일 오후 4:14
조회수: 18127

REFERENCES

[230804]DMQA_Open_seminar_Training_Techniques_and_Research_Trends_of_LLMs_김현지-홈페이지 게시용.pdf

INFORMATION

2023년 8월 4일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

김현지

TOPIC

Training Techniques and Research Trends of LLMs

On-Line Video

OVERVIEW

Large Language Model (LLM)은 거대한 모델을 기반으로 대량의 데이터를 사용하여 자연어를 이해하고 생성할 수 있도록 학습된 언어 모델이다. LLM은 텍스트 생성을 통해 복잡한 작업을 해결하는 강력한 능력을 보이며, LLM에 대한 연구는 많은 관심을 받고 있다. 큰 비용으로 인해 초기 LLM 연구는 일부 테크 기업들을 중심으로 이루어졌지만, Llama와 같은 작은 크기의 오픈 소스 모델의 등장으로 LLM 연구의 진입 장벽이 낮아지면서 최근에는 산업계 뿐만 아니라 학계에서도 LLM에 대한 연구가 활발히 진행되고 있다. 특히, LLM이 다양한 작업에서 인간의 가치와 선호에 부합하면서도 우수한 성능을 발휘할 수 있도록 하는 pre-training 및 adaptation 기법들의 개발과 적용이 LLM 연구의 주요 흐름으로 떠오르고 있다. 본 세미나에서는 LLM을 효과적으로 학습하고 활용하기 위한 주요 기법들을 살펴보고, LLM 연구의 흐름과 함께 최신의 LLM 연구들을 소개하고자 한다.

[1] Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., ... & Wen, J. R. (2023). A survey of large language models. arXiv preprint arXiv:2303.18223.

[2] Lou, R., Zhang, K., & Yin, W. (2023). Is prompt all you need? no. A comprehensive and broader view of instruction learning. arXiv preprint arXiv:2303.10475.

[3] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M. A., Lacroix, T., ... & Lample, G. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

[4] Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., ... & Scialom, T. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv preprint arXiv:2307.09288.

[5] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.

[6] Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N. A., Khashabi, D., & Hajishirzi, H. (2022). Self-instruct: Aligning language model with self generated instructions. arXiv preprint arXiv:2212.10560.

[7] Penedo, G., Malartic, Q., Hesslow, D., Cojocaru, R., Cappelli, A., Alobeidli, H., ... & Launay, J. (2023). The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116.

[8] MosaicML NLP Team et al. (2023). Introducing mpt-7b: A new standard for open-source, commercially usable llms.

청취자 후기

김정인

이번 세미나는 Large Language Model (LLM)의 학습 기법들과 연구 동향을 주제로 진행되었다. LLM이란, 파라미터 수가 매우 많은 거대한 모델을 기반으로 많은 양의 데이터를 활용하여 학습된 언어 모델을 말한다. 학습 데이터와 파라미터의 수가 많다 보니 사전 학습된 모델 자체로도 여러 task에 적용될 수 있으며 미세 조정을 진행할 시에 특정 task를 위한 많은 데이터가 요구되지 않는다는 장점이 있다. 본 세미나에서는 LLM의 pre-training, adaptation training과 활용에 대한 소개를 시작으로 연구 동향과 이와 관련된 용어에 관한 설명이 주를 이룬다.

* LLM의 pre-training
LLM의 사전 학습을 위해서는 입력으로 연속적인 토큰 시퀀스가 주어졌을 때 다음 토큰을 예측하고 예측된 토큰까지 포함해서 다시 입력으로 사용하는 자기 회귀적 예측을 진행한다. 대부분의 자연어 처리 문제에서 입력 데이터를 기반으로 한 예측 문제를 다루기 때문에 이러한 방식으로 학습된 LLM이 '일반적인 능력'을 습득하게 된다고 본 세미나에서 언급하고 있는 것 같다.

* LLM의 adaptation training
가장 흥미롭게 들었던 부분이 adapatation training인데, 해당 부분도 크게 세 가지 방법에 관해 소개되었다. 먼저 instruction tuning은 지시문과 입력 데이터를 함께 입력으로 사용하고 출력 데이터를 하나의 쌍으로 활용하는 지도 학습 형식으로 학습시키는 것을 말한다. 그리고 alinment tuning은 LLM이 학습 데이터에 포함된 거짓 정보 등 인간의 가치와 선호도를 반영하지 않는 답변을 생성하는 문제를 방지하고자 제안된 방법으로 본 세미나에서는 강화학습을 활용해 인간의 선호도를 반영하는 방법을 소개해 주었다. 마지막으로 LLM은 파라미터의 수가 매우 많기 때문에 전체 파라미터를 조정하는 데 큰 비용이 든다는 한계가 존재한다. 이를 한계점을 개선하기 위해 학습 가능한 파라미터 수를 줄이며 조정을 진행하는 방법인 parameter-efficient model tuning에 대한 설명도 존재한다. 자세한 내용은 세미나 살펴보기를 바란다.

본 세미나에서는 위에서 간략하게 언급한 LLM의 pre-training과 adaptation training에 대한 설명 덕분에 발표자가 의도한 대로 현재 많이 활용되고 있는 chatgpt를 포함한 LLM이 학습 방식에 대해 파악할 수 있었다. 게다가, LLM을 학습하기 위해 사용된 데이터 셋 및 모델 파라미터를 공개하지 않는 closed-source LLM과 이와 반대되는 open-source LLM (LLaMA, Alpaca ..)에 관한 핵심 설명 덕분에 연구 추세 및 동향 파악도 수월했다. 좋은 세미나를 준비해 준 김현지 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

고병은

이번 세미나는 LLM의 학습 기법 및 최근 동향에 대하여 진행되었다. 지난주에 LLM 관련 세미나가 진행되었기에 친숙하게 본 세미나를 청취할 수 있었다. 먼저 본 세미나에서는 LLM의 학습 기법을 Pre-training, Adaptation Tuning, Utilization으로 구분하고 각각을 설명하였다. 이전 세미나를 통해서 기억나는 부분도 있었고 생소한 부분도 있었지만, 각각에 대한 예시를 같이 설명하여 이해에 많은 도움이 되었다. 특히 이번에는 ChatGPT로 대변되는 Closed-source LLM이 아니라 Open-source LLM에 대해서 많이 다루었다. 기업 단위에서만 학습 및 사용이 가능하고 베타적인 모델을 효율화 하여 보다 쓰임이 많도록 만들어서 대단하다는 생각이 들었다. 이어서 Alpaca 등의 후속 모델들을 소개하였고 각 모델이 어떻게 이전 모델의 한계점을 극복하는지 설명하여 물 흐르듯이 세미나를 청취할 수 있었다. 하지만 생소한 분야에 굉장히 많은 내용이 엄청난 속도로 발전되고 있기 때문에 각 모델의 전체적인 흐름을 이해했다고 스스로 말하기는 어려울 것 같다. 또 하나 특이한 점으로는 뒤 이어 소개되는 모델들에서 GPT를 사용하여 모델을 학습하고 성능을 평가하는 방법을 볼 수 있었는데 각 모델에서 다른 모델을 활용하고 개선하는 Loop가 굉장히 신기하게 느껴졌다. 아직 까지는 Open-source LLM이 Closed-source LLM의 성능을 뛰어넘지는 못하고 있지만 Open-source의 힘을 등에 업고 더 높은 성능을 내는 때가 곧 올 것 같으며 이러한 과정을 통해서 보다 효율적인 방법론이 개발되기에 AI의 상용화 속도가 더욱 빨라 지지 않을까 싶다. 굉장히 많은 내용을 세미나에 담고 있는데 100% 다 이해하지 못한것 같아서 오히려 발표자에게 미안한 마음이 든다. 본 세미나를 위하여 힘들게 준비하였을 김현지 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

김성수

이번 세미나는 최근 화두가 되는 LLM에서 활용되는 기술들과 이들의 Trend에 대해 진행되었다. ChatGPT 이후, 인공지능 연구자들 뿐만 아니라 일반인들도 LLM이라는 단어를 한 번쯤 들은 경험이 있는 시대가 되었다. 이러한 연구들은 Transformer가 나온 이후 급속하게 발전되었는데, 본 세미나에서는 이러한 공로를 Pre-training, Adaptation Tuning, Utilization 관점에서 서술한다. 각 내용의 요점은 다음과 같다.

1) Pretraining: 결국 사전학습은 데이터, 모델 크기, 최적화 방식 세 가지로 요약된다. 다양한 데이터가 들어올수록 모델은 다양한 케이스를 학습할 수 있으며, 모델이 클수록 모델이 담을 수 있는 지식의 폭은 커진다. 또한 적절한 최적화 방식은 효과적인 모델 학습에 도움을 줄 수 있다.
2) Adaptation Tuning: 이는 “Accuracy”와 같은 성능 척도 뿐만 아니라, “Safety” 등 기타 요소들을 함께 고려하여 학습하는 것이다. 대표적으로는 Instruction Tuning 및 Alignment Tuning으로 사용자의 의도에 맞고, 유해하지 않은 문장을 생성한다. 이때 활용되는 대표적인 기법은 RLHF로, 강화학습을 기반으로 인간의 선호도를 모방한 모델을 활용하여 인간의 선호도가 반영된 모델을 함께 활용한다.
3) Utilization: LLM을 잘 사용하기 위한 방법으로, Prompt Engineering이 포함된다. ChatGPT를 사용하다보면 느끼는 것이지만, 내가 “잘” 요청해야 “잘” 답변받을 수 있다. 본 세미나에서는 질문 전에 추가 예제를 제공하거나, 트리거 문장을 추가하는 방식 등을 소개한다.

추가적으로, 본 세미나는 LLM의 흐름에 대해서도 소개한다. 특히, 불과 1달전인 2023년 7월에 나온 모델들까지 소개한다. ChatGPT 및 LLAMA처럼 큰 모델들은 IT대기업이 아닌 이상 자원적으로 연구하기 힘든 상황이다. 따라서, 이러한 Foundation 모델보다 이들을 Tuning하여 효율적으로 모델을 개선한 연구들을 소개한다. LLAMA Family 뿐만 아니라, FalCON, MPT 등 다양한 연구들의 핵심 내용들이 세미나에 잘 소개되어 있다.

본 세미나를 통해 LLM에서 어떤 기술들이 활용되고 최근에는 어떤 연구들이 이뤄지는지 알아볼 수 있었다. “ChatGPT가 처음 나왔을 때 자연어처리 연구가 더 할 것이 있을까?”라는 느낌이 들었지만, 이를 해소할 수 있었던 좋은 세미나였다. 유익한 세미나를 준비해준 김현지 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.

배진수

대규모 언어 모델의 연구 트렌드에 관한 세미나를 청취하였다. 고은이 연구실 세미나와 비슷한 주제로, 이해하기 한결 쉬우니 이어서 듣는 것을 추천하고 싶다.

ChatGPT와 같은 게임 체인저 언어 모델 등장 이후, 현재 NLP 연구가 어떤 관점과 목적을 갖고 진행되고 있는지를 이해하는데 큰 도움이 되었다. 세미나를 모두 듣고 난 후에 가장 크게 느낀 점은 NLP 연구가 점차 산업공학적인 측면을 강조하기 시작한 것 같았다. 물론, 기술적인 면에서도 새롭게 보이는 여러 테크닉들이 있었지만 말이다. (Transformer 모델 이후로, NLP는 규모와 돈으로 승부하기 시작한 연구 분야일지도 라고 생각한 본인이 살짝 부끄럽기도 하였다.)

라마의 연구 시작 계기가 참 인상 깊고, 인간(연구진)의 의지가 참 대단하다고 느낀다. 이렇게 좋은 성능을(chatgpt) 확보한 시점에서 더 이상 진보하지 않고 머물기에 안주한 나를 돌아보게도 되었다. 이에 더해, 라마가 등장한 이후로 새로운 논문들이 물 밀듯 새롭게 쏟아지는 "현상" 자체에 대해서도 다시 한번 오픈 소스 결과물의 중요성을 느낄 수 있었다.

발표 자료부터 준비해온 내용들까지 부족함 없이 귀불르게 청취한 세미나였다. 특히, ChatGPT의 RLHF 파트 부분은 그 어느 블로그 및 유튜브 자료들보다 전문성이 높다고 생각한다. 좋은 세미나를 준비하느라 고생했을 현지에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

심세진

이번 세미나는 Training Techniques and Research Trends of LLMs을 주제로 진행되었다. LLM은 사전 학습된 단일 모델이 여러 task에 사용될 수 있으며, fine tuning을 위해 많은 데이터를 필요로 하지 않고 학습 데이터와 모델의 파라미터를 증가시키면 성능을 지속적으로 향상시킬 수 있다. 본 세미나에서는 LLM의 성능을 향상시키는 기법들과 흐름에 대해 소개되었다.

Instruction tuning 기법은 지시문, input, output text pair를 통해 supervised 형식으로 학습시켜 효과적인 성능 향상을 보인다. FLAN은 Instruction tuning이 처음으로 소개되었으며, 효과를 얻기 위해 모델의 크기가 일정 수준 이상이어야 한다는 결과를 보인다. Alignment 기법은 편향된 답변을 방지하기 위해 human alignment을 하는 기법으로 RLHF는 강화학습을 통해 인간의 피드백으로부터 LLM을 최적화하는 방법이다. GPT-3에서 RLHF가 적용되어 ChatGPT가 되면서 더 나은 품질의 답변을 생성할 수 있게 되었다. Parameter-Efficient Model Adaptation은 파라미터 개수를 줄이는 기법으로 Task에 따라 adapter layer를 최적화하는 Adapter Tuning 방법이 존재했으며, 병렬적인 LoRA 방법론이 소개되었다. Prompt Engineering은 prompt 즉, 응답 생성을 위한 입력 값에 의해 결과물이 크게 좌지우지되기에 이를 개선시키는 기법이다. Chain-of-Through Prompting은 본 질문 전 미리 태스크와 추론 과정을 포함한 답변 예제를 제공하여 데이터셋을 확장시켜 모델의 성능이 향상되었다.

LLM의 연구흐름으로는 LLaMA가 소개되었다. LLaMa는 기존 LLM 모델들이 리소스를 고려하지 않고 모델 성능을 늘렸는데, 이를 개선하기 위해 학습 성능은 유지하면서 추론 컴퓨팅 비용을 낮추는 방법을 제시하였다. 그 다음 소개된 Alpaca는 self-instruction을 활용해 다양한 데이터를 생성했으며, 모델 학습 및 데이터 생성 코드를 공개했다. Vicuna는 LLaMa를 fine-tuning한 오픈 소스 챗봇 모델이며, GPT-4를 활용한 새로운 LLM 평가 방법을 제안하였다. Falcon은 오픈 소스 LLM 중 SOTA를 달성했으며, 상업으로 사용이 가능하다. MPT-7B는 매우 긴 입력 문장을 처리할 수 있는 특징을 가진 모델이다. Liama2는 MPT보다 우수한 성능을 달성했으며, SFT, reward modeling, RLHF 등의 기법을 새롭게 제안하는 GAtt를 적용하였다.

챗GPT를 사용하고 있음에도 사실 해당 분야에 대해 알아보거나 공부할 생각은 딱히 하지 못했고 도구로만 지금까지 사용을 했던 것 같은데, 해당 세미나를 통해 어떻게 고품질의 답변을 내놓을 수 있는지에 대한 답변을 들은 느낌이었다. 매우 최신 모델들을 이해하기 쉽고 간단하게 소개해주었으며, 중간에 발표자 본인이 생각하는 컨셉에 대해 전달해주어 좀 더 재밌게 청취하였던 것 같다. 유익한 세미나를 해준 김현지 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.

허종국

한 달 전 쯤인가 신문 기사를 봤을 때, 거의 매일마다 ChatGPT, BARD, Llama등의 LLM 모델에 대한 이야기로 도배되어있던걸 기억한다. 자연어 쪽 연구를 거의 팔로잉하지 않다보니 GPT3와 T5 이후로 나온 논문들은 거의 무슨 차이가 있는지 알지 못했었다. 오늘 세미나를 통해 우후죽순처럼 생겨나는 LLM 모델들에 대해 간략히 이해할 수 있었다.

이름은 LLaMa, Alpaca, Vicuna 등으로 다 각양각색이지만 결국 모델 구조적인 측면에서는 원종 Transformer와 거의 별반 다르지않고, Inference 단계에서 어떻게 Prompt를 줄 것인지, 데이터셋은 어떻게 구축을 할 것인지, Fine-tuning할 때 어떻게 adpatation 할 것인지에 대한 차이로 구분되는 것 같다. 요새 LLM 연구들을 보면 확실히 이제 연구 단계를 넘어 실용 단계에 가서 그런지 모델 구조 혹은 학습 프레임워크의 대격변은 보이지 않고 테크니컬한 요소들이 주를 이루는 것 같다.

인상 깊었던 부분은 RLHF 부분이다. 아무래도 요새 preference-based reinforcement learning 쪽을 연구하다보니, reward estimator를 어떻게 학습하는지 쉽게 와닿는다. 본 세미나에서 소개 되지는 않았지만, Human Feedback을 이용해 Summarization Task를 수행하는 연구도 봤던 기억이 있다. 다만 강화학습 잼민이로써 조금 의아했던 부분은 왜 그 수많은 알고리즘 중에 PPO를 썼을까이다. PPO도 물론 좋은 알고리즘이긴 하지만 이후에 나온 더 좋은 Off-Policy 알고리즘들이 많고 실제로도 강화학습 벤치마크에서 해당 알고리즘들과 PPO의 격차는 꽤 큰것으로 안다. 뭐 나중에는 TD3나 SAC (심지어 얘들도 이제 나온지 5년정도 되긴했다) 같은거로 뭐 좀 더 개선시켰다라는 연구가 나올 것 같긴하다.

저번 Clustering 기반 SSL 세미나도 그렇고 현지의 세미나 템플릿과 구성은 기깔난것 같다. 덕분에 매우 재밌게 봤다.

이정민

이번 세미나는 최근 각광 받는 LLM의 트렌드 및 학습 기법들에 대해 현지가 진행해주었다. 다량의 일반적인 텍스트로 사전 학습을 시킴에 따라 LLM은 여러 task에 적용되고 있고, 기존에는 closed-source로 발표 되었던 방법론들이 최근 들어 open-source(LLaMA, Falcon, MPT, LLaMA2 등)로 발표 되면서 더 주목을 받고 있다.
모든 방법론들이 Transformer 구조를 기반으로 수행 되지만, 사전 학습 데이터의 품질이나 양, instruction tuning에 사용 되는 테크닉, 그리고 인간의 선호도 반영 등을 통해 계속해서 발전되고 있다. 흥미로웠던 점은 LLaMA2의 chat버전에서 PPO 수행 시 생성된 답변의 안전성에 따라 safety model의 점수를 reward로 할지, helpfulness model의 점수를 reward로 할지로 나눠서 학습하게끔 하는 부분 이였다.
예전에는 많은 사람들이 사용하는 Chat GPT로 인해 NLP 연구가 이제 끝인건가 하고 생각했었는데, 이후 등장한 LLM들을 공부하면서 아직 발전될 길이 많이 있구나 하는 생각이 들었었다. 추가로, LLM들은 일반적인 text로 사전 학습 되기 때문에 특정 도메인에서는 성능이 저조하기도 하는데, 이러한 부분들에 대해서도 연구들이 진행되고 있는 것으로 알고 있고, 따라서 아직 발전 가능성은 많은 것 같다.
본 세미나에서는 LLM의 등장 배경부터 학습 기법, 최신 트렌드들을 매우 잘 설명해 주었다. 특히 트렌드를 설명하는 부분에서는 한 편의 다큐멘터리를 보는 것 같은 느낌 이였다. 현재 현지와 LLM을 활용하여 공동 연구를 진행하고 있는데 전반적인 LLM들에 대해 다시 상기할 수 있는 좋은 세미나였다. 좋은 세미나를 준비하느라 고생한 현지에게 감사의 말을 전하며 본 세미나 후기를 마친다.

Seminar