고려대학교 DMQA 연구실

Re-organizing Representations through In-context Learning

2025년 1월 17일 오후 5:54
조회수: 511

REFERENCES

20250117_Open_DMQA_Seminar_장건희.pdf

INFORMATION

2025년 1월 17일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

장건희

TOPIC

Re-organizing Representations through In-context Learning

On-Line Video

OVERVIEW

사전학습된 대형언어모델(LLM)은 추가적인 파라미터 업데이트 없이도 주어진 context를 기반으로 태스크를 수행하는 in-context learning 능력을 갖추고 있다. 일반적으로 언어모델은 사전에 학습한 prior를 바탕으로 주어진 context의 패턴을 파악하며 응답을 생성한다. 이때, 만약 사전학습에서 봐왔던 역할과 다른 역할을 하는 예제들이 in-context로 제공된다면 모델은 이 새로운 맥락에 따라 표현을 재구성할 수 있을까? 예를 들어, 새로 출시된 소프트웨어 제품 이름이 "strawberry"라고 모델에게 설명하는 경우 이상적으로 모델은 이 context를 기반으로 "strawberry"의 의미를 기존의 <과일>이 아닌 <제품>으로 파악해야 한다. 이번 세미나에서는 이러한 이상적인 상황이 언어모델의 in-context learning에서 발생할 수 있는지 분석한 연구에 대해 알아본다.

참고자료:

[1] Park, Core Francisco, et al. "ICLR: In-Context Learning of Representations." arXiv preprint arXiv:2501.00070 (2024).

[2] Dong, Qingxiu, et al. "A survey on in-context learning." arXiv preprint arXiv:2301.00234 (2022).

청취자 후기

이정민

이번 세미나는 LLM이 in-context learning(ICL)을 수행하는 과정에서 analysis 관점으로 다양한 분석을 수행한 연구에 대해서 소개해주었다. 사전 학습된 LLM을 추가 학습하는 것은 시간적, computing 측면에서 큰 자원을 요구하기 때문에, 다양한 측면에서 ICL 분야가 연구되고 있다. 해당 논문에서는 그래프 분야에서 검증된 이론들을 통해 LLM이 context를 어떻게 반영하는지를 다양한 시각화 분석을 통해 보여주었다. 또한 제시한 정량적 지표들을 통해서도 LLM의 여러 패턴도 보여주었다. LLM이 context를 이해하는 방식으로 그래프 이론에서 에너지 최소화 방식으로 해석할 수 있다는 것을 보여주는 측면이 매우 흥미로웠다.
어떻게 모델을 잘 학습해서 SOTA의 성능을 내는지가 아닌, 다양한 분석을 통해 인사이트를 제시한 매우 흥미로운 논문이었다. 개인적으로 논문 제목을 ICLR이라고 한 후에 ICLR 학회에 제출한 점도 재밌는 부분이었고 좋은 결과로 마무리되면 좋겠다는 생각을 했다. 이런식으로도 유의미한 연구가 진행될 수 있다는 것을 다시금 느끼게 되었고 흥미로운 주제로 세미나를 진행해준 건희에게 고마운 마음이 들었다. 다시 한 번 좋은 세미나를 만드느라 고생한 건희에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.

김성수

이번 세미나는 In-context Learning (ICL)에서 모델이 주어진 맥락에 맞게 정보를 잘 파악했는지 그래프 관점에서 분석하는 세미나였다. 본 세미나에서는 그래프 관점에서 Dirichlet Energy 등을 활용하여 Pretrained LLM이 추가적인 파라미터 업데이트 없이 기존에 보지 못한 문맥을 잘 파악할 수 있다는 것을 증명한다. 다만, 내가 ICL과 그래프에 대한 자세한 개념이 없어서 엄청 와닿지는 않았다. 사실 “ICL은 어떻게 파라미터 업데이트 없이 문맥을 파악하는 것인가?”라는 의문부터가 해소되지 못했어서, 다소 어려운 세미나였다. 다만, 파라미터 없이 문맥을 파악할 수 있는 하나의 연구분야라는 그 자체가 매력적이기에, 향후 내 개인연구에 큰 도움이 되지 않을까 생각하였다. 유익한 세미나를 준비해준 장건희 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

* ICL이 뭔지를 몰라서, ChatGPT랑 간단하게 대화하며 무엇인지 알아보았다. 혹시나 세미나 청취하는 사람들에게 도움이 될까 한 줄 남겨놓는다.
ICL: 새로운 문맥을 입력 받음 → 기존 지식과 비교 및 조정 → 새로운 문맥을 반영하여 추론
- 이때, 새로운 개념이 들어왔을때, Self-attention 가중치가 조절되어 새로운 문맥을 반영될 수 있다고 한다. 다만, "가중치 조절"에서 가중치가 바뀌는 것이 아닌, 재구성(Re-organizing)이 되는 것이기에 재학습이라고 칭하지는 않는다.

손병우

본 세미나는 사전학습된 LLM이 추가적인 파라미터 업데이트 없이도 주어진 컨텍스트를 기반으로 태스크를 수행하는 In-Context Learning(ICL) 능력을 표현 학습(Representation Learning)의 관점에서 분석한 연구를 소개하였다.
먼저 세미나의 핵심 질문은 "모델이 사전학습을 통해 습득한 강력한 지식과 상충하는 새로운 정보가 주어졌을 때, 이를 어떻게 처리하는가?"였다. 예를 들어 'strawberry'라는 단어가 과일이 아닌 신규 제품명으로 정의되는 상황에서, 모델이 단순히 패턴을 암기하는 것인지 혹은 내부적인 Representation을 재구성하여 새로운 맥락을 구조적으로 이해하는 것인지를 분석하였다.

연구팀은 이를 검증하기 위해 Graph Tracing과 Words on a Ring과 같은 그래프 구조의 시퀀스를 활용하였다. LLaMA 3.1 모델을 대상으로 컨텍스트 내 토큰들의 Activation을 추출하고 이를 PCA로 시각화한 결과, 컨텍스트 길이가 길어질수록 모델의 표현이 실제 그래프의 기하학적 구조인 격자 또는 링 형태와 일치하도록 정렬되는 양상을 확인하였다. 특히 요일과 같은 강력한 사전 지식이 개입되더라도, 컨텍스트 개념의 Node가 충분히 누적되면 하위 주성분 차원에서 임의로 정의된 관계를 정확히 파악해낸다는 점이 인상적이었다.

이후 세미나에서는 이러한 현상을 정량적으로 평가하기 위해 디리클레 에너지(Dirichlet Energy)와 Rule-Following Accuracy라는 지표를 도입하였다. 디리클레 에너지는 인접한 노드 간의 표현 차이를 측정하는 지표로, 에너지가 최소화될수록 모델이 구조적 관계를 더 정밀하게 표현하고 있음을 의미하며, Rule-Following Accuracy는 인접 노드에 대한 예측 정확도를 나타내는데, 실험 결과 디리클레 에너지가 최솟값에 도달하는 지점 직후에 정확도가 급격히 상승하는 현상이 관찰되었다. 특히 흥미로웠던 지점은 ICL의 동작 원리를 Energy Minimization Hypothesis 로 설명한 부분이다. 연구는 LLM이 내부적으로 표현 구조를 찾기 위해 라플라시안 행렬(Laplacian Matrix)의 eigenvector를 활용해 디리클레 에너지를 최소화한다고 분석하였다. 이는 모델이 단순히 이전 토큰을 암기하는 것이 아니라, 그래프 이론의 Spectral Embedding과 유사한 방식으로 최적의 구조적 좌표를 찾아내고 있음을 시사한다.

결론적으로, 이번 세미나를 통해 LLM의 컨텍스트 이해 방식을 그래프 이론과 에너지 최적화라는 물리적/수학적 프레임워크로 해석하는 신선한 관점을 접할 수 있었다.
평소 물리적 제약을 AI 모델에 결합하는 Physics-Informed Machine Learning(PIML)이나 기계공학적 도메인 지식을 AI에 이식하는 연구에 많은 관심을 두고 있는데, 모델 내부의 에너지 최소화 과정을 통해 구조적 이해가 발생한다는 분석은 향후 Physical AI 관련 연구에서도 중요한 영감을 줄 것으로 기대된다. 복잡한 언어 모델의 추론 과정을 그래프 이론의 명확한 언어로 풀어내어 깊이 있는 통찰을 공유해주신 장건희 연구원께 감사의 말씀을 전하며 세미나 후기를 마친다.