- 2025년 11월 28일 오후 7:05
- 조회수: 852
INFORMATION
- 2025년 11월 28일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
박소연
TOPIC
On-Line Video
OVERVIEW
이를 해결하기 위해 단일 LLM이 아닌 여러 LLM 에이전트들이 서로 의견을 제시하고 토론하며 협업하여 더 나은 해결책을 도출하는 Multi-Agent Debate 접근법이 주목받고 있다.
이번 세미나에서는 AI Agents Debate의 근간이 되는 연구들을 알아보고자 한다.
청취자 후기
김수림
본 세미나는 LLM이 복잡한 추론 문제를 해결하는 과정에서 겪는 한계를 살펴보고, 이를 극복한 Multi-Agent 기반 접근법에 대해 소개하였다. 특히 단일 LLM이 새로운 관점을 생성하는 데 한계가 있고, 스스로의 오류를 판별하기 어렵다는 문제를 해결하기 위해 여러 에이전트가 협력하는 다양한 방법론이 제시되었다.
Multi-Agent 접근에는 대표적으로 수렴(convergence), 심판(judge), 투표(voting)와 같은 방식을 통해 최종 답을 결정한다.
먼저 DEBATE는 여러 에이전트가 서로 토론을 진행하며 답을 점진적으로 개선하는 방법이다. 각 에이전트는 다른 에이전트의 관점을 비판적으로 검토하고 이를 반영해 자신의 답을 수정하며, 여러 라운드를 거칠수록 하나의 수렴된 답변에 도달한다.
MAD는 self-reflection 방식에서 스스로 생성한 답변에 과도하게 확신을 가지는 한계를 보완하기 위해, 에이전트간 반박 구조(tip for tat) 토론을 수행하고, 별도의 judge 에이전트가 최종 답을 결정하는 방법이다. 추가 실험 결과에서 judge 에이전트가 자신과 동일한 LLM을 사용한 에이전트의 답변을 더 자주 선택하는 경향이 나타났는데, 이를 통해 judge 에이전트의 LLM 모델 선택 또한 편향되지 않게 신중해야겠다는 생각이 들었다.
마지막으로 Reconcile은 서로 다른 LLM 모델을 활용해 신뢰도 기반 가중 투표 방식으로 최종 답을 도출한다. 각 에이전트의 confidence score를 반영해 합의를 도출하며, 서로 다른 모델 간 상호 피드백을 통해 성능을 향상시킨다.
최근 매우 각광받고 있는 분야인 LLM Multi-Agent에 공부해보고 싶었는데, 핵심 방법론을 쉽게 이해할 수 있었던 유익하고 알찬 시간이었다. 좋은 세미나를 준비해 준 박소연 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.
김성수
이번 세미나는 LLM들 간 토론을 활용하여 복잡한 Task를 잘 푼 연구들을 소개한다. 우리 인간도 혼자 생각하는 것보다 여럿이 머리를 맞대고 생각할 때 더 합리적인 결정을 할 수 있다. 해당 세미나는 이러한 인간의 사고방식을 LLM Agent에 적용한다.
(1) DEBATE: 해당 연구는 2~3개 LLM 에이전트가 토론을 한다. 첫 라운드에서는 토픽과 관련하여 각각 LLM이 답변을 하고, 두번째 라운드에서는 첫 라운드의 상대 LLM의 답변과 토픽을 다시 프롬프트로 입력하여 다시 답변한다. 그리고, 라운드를 거듭할 때 두 에이전트의 의견이 맞게 된다면 토론을 종료한다. 실험에서는 1) Self-Reflection이나 다수결 보다 Debate가 우수했으며, 2) 라운드 수나 에이전트 수가 커질수록 우수한 성능을 보였다. 다만, 어느정도부터는 수렴하는 경향을 보였다. 3) 더불어 2라운드 부터는 다른 LLM 에이전트의 답변을 함께 프롬프트로 활용 시 효과적이었다.
(2) MAD: DEBATE는 두 답변이 일치할 때 까지 진행했다면, MAD는 특정 라운드까지만 토론하고 Judge LLM 에이전트한테 최종 결정을 맡긴다. 이때 토론 시에는 찬성측과 반대측을 정의한다. 1) 실험에서는 CoT나 Self-Reflect보다 우수한 경향을 보였다. 그리고 2) 똑똑한 Debater를 쓰는 것이 중요하고, 3) Judge랑 Debater가 동일한 모델이면 Judge는 동일한 Debater를 더 자주 선택하는 경향이 있으며, 4) 모든 LLM 에이전트가 동일한 모델 구조이면, Negative를 자주 고른다는 것도 인상깊었다. 5) 또한 Debater 수가 오히려 많거나 지나치게 극단적인 주장은 비효과적이며, 6) 복잡한 질문일수록 많은 Round가 필요하다고 한다.
(3) RECONSILE: 서로 다른 LLM 에이전트들의 예측 결과를 신뢰도 기반 Voting을 통해 결정한다. 역시나 라운드를 거듭할 때마다 이전 라운드의 각 에이전트들의 답변 결과를 활용한다. 실험에서는 강하지만 동일한 에이전트 3개를 쓰는 것보다 약한 에이전트 1개를 포함하는 것이 효과적이었다. 이는 다양한 피드백이 도움이 된 것으로 보인다.
개인적으로 실험결과들이 꽤나 직관적이어서 좋았다. 이번에 Multi-Agent를 활용한 연구를 계획하고 있는데, Base 지식을 쌓기에도 차근차근 따라갈 수 있는 정말 최고의 세미나라고 생각한다. 유익한 세미나를 준비해준 박소연 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
김현이
본 세미나는 LLM이 복잡한 추론 문제를 해결하는 과정에서 가지는 구조적 한계를 짚고, 이를 보완하기 위한 Multi-Agent 기반 접근법을 중심으로 다양한 방법론을 소개하였다. 특히 단일 LLM은 언어 생성이나 요약에서는 우수한 성능을 보이지만, 복잡한 reasoning이 필요한 문제에서는 하나의 사고 패턴에 갇히거나 스스로의 오류를 정확히 판단하지 못하는 한계가 있다는 점이 강조되었다. 기존의 self-consistency나 self-reflection과 같은 방법 역시 이러한 문제를 완전히 해결하지 못한다는 점에서, 외부 피드백과 다양한 관점을 도입하는 Multi-Agent 접근의 필요성이 자연스럽게 이어졌다.
Multi-Agent 접근 방식은 크게 convergence, judge, voting의 세 가지 구조로 나뉘어 설명되었다.
(1) 먼저 convergence 방식은 여러 에이전트가 서로의 답변을 읽고 수정하는 과정을 반복하면서 점진적으로 하나의 답으로 수렴하는 구조이다. 각 에이전트는 다른 에이전트의 논리를 비판적으로 검토하고 이를 반영하여 자신의 답을 개선하며, 라운드가 반복될수록 논리적 오류가 줄어들고 근거가 강화되는 특징을 보인다. 단순히 하나의 모델이 여러 번 생각하는 것이 아니라, 서로 다른 관점 간의 상호작용을 통해 성능이 향상된다는 점이 인상적이었다.
(2) 다음으로 judge 방식은 에이전트 간 토론 이후 별도의 심판 에이전트가 최종 결정을 내리는 구조이다. 특히 MAD에서는 찬성과 반대 역할을 명확히 나누어 반박 중심의 토론을 유도하고, 이를 통해 self-reflection에서 발생하는 ‘자기 확신 고착 문제’를 해결하고자 하였다. 흥미로웠던 점은 judge 에이전트가 동일한 LLM 기반 에이전트의 답변을 더 자주 선택하는 경향이 관찰되었다는 점이다. 이는 단순히 구조를 설계하는 것뿐만 아니라, 어떤 모델을 judge로 사용할 것인지 또한 결과에 영향을 미칠 수 있음을 보여주며, Multi-Agent 시스템에서도 여전히 편향 문제가 존재할 수 있음을 시사한다.
(3) 마지막으로 voting 방식은 여러 에이전트가 독립적으로 답을 생성한 후, 신뢰도 기반 가중 투표를 통해 최종 답을 결정하는 방식이다. 서로 다른 종류의 LLM을 활용하여 다양한 관점을 확보하고, 각 에이전트의 confidence를 반영해 합의를 도출한다. 인상적이었던 점은 반드시 가장 강력한 모델만 사용하는 것이 아니라, 상대적으로 성능이 낮은 모델도 유의미한 피드백을 제공하여 전체 성능 향상에 기여할 수 있다는 점이다. 실제로 일부 실험에서는 GPT-4를 사용하지 않고도 더 높은 성능을 달성한 결과가 제시되어, 모델 자체의 성능보다 구조적 설계가 더 중요할 수 있다는 점을 보여주었다.
이번 세미나를 통해 LLM의 한계를 단순히 더 큰 모델로 해결하는 것이 아니라, 여러 에이전트 간의 상호작용 구조를 통해 극복할 수 있다는 새로운 관점을 얻을 수 있었다. 특히 “하나의 똑똑한 모델”보다 “여러 모델 간의 토론 구조”가 더 중요한 역할을 할 수 있다는 점이 매우 인상 깊었다. 최근 주목받고 있는 Multi-Agent 연구 방향에 대해 핵심 아이디어를 이해할 수 있었던 유익한 시간이었으며, 향후 관련 연구를 더 깊이 탐색해보고 싶다는 생각이 들었다.
이렇게 이해하기 쉽게 좋은 세미나를 준비해 준 박소연 연구원께 고마움을 전하며 세미나 후기를 마친다.
손병우
본 세미나는 복잡한 추론 문제에서 LLM이 보이는 한계를 극복하기 위한 전략으로, 여러 에이전트가 협업과 토론, 경쟁을 수행하는 'AI Agents Debate'의 흐름과 주요 방법론을 체계적으로 소개하였다. LLM은 그간 비약적인 발전을 거듭해왔으나, 단일 모델의 고정된 사고 패턴에 갇히는 'Bias trap'이나 스스로의 오류를 판별하기 어려운 'No external feedback' 문제로 인해 고도화된 추론에서는 여전히 취약함을 보인다. 이를 해결하기 위해 기존에는 다수결 방식인 Self-consistency나 스스로 답을 고치는 Self-reflection 등이 시도되었으나, 본 세미나에서 다룬 멀티 에이전트 기반의 토론 방식은 이보다 한 단계 나아간 대안을 제시해 주었다.
첫째로, 구글 브레인에서 제안한 Debate (Convergence 방식)는 여러 에이전트가 서로의 답변을 읽고 수정하며 하나의 결론으로 수렴해가는 과정을 보여주었다. 특히 실험을 통해 2~3라운드의 토론과 5명 내외의 에이전트 구성이 가장 효율적이며, 단순히 답변을 나열하는 것보다 요약된 정보를 공유하는 것이 추론 능력 향상에 결정적임을 확인할 수 있었다.
둘째로, MAD(Multi-Agent Debate, Judge 방식)는 확산적 사고를 촉진하기 위해 에이전트들에게 대립적인 페르소나를 부여하고, 별도의 심판(Judge) 에이전트가 토론 내역을 바탕으로 최종 결론을 도출하는 구조를 취한다. 이는 자가 수정 과정에서 답변이 변하지 않는 기존의 문제를 해결하며, 번역이나 산술 추론 등에서 상용 모델을 능가하는 인상적인 성능을 입증하였다.
마지막으로 ReConcile(Voting 방식)은 이전 2가지 방식이 단일 종류, 다중 에이전트였던 점을 지적하며, 다중 모델로써 GPT, Claude 등 서로 다른 종류의 LLM을 동시에 활용하는 접근법을 제안하였다. 각 에이전트가 답변과 함께 제출한 확신도(Confidence Score)를 기반으로 가중 투표를 진행함으로써, 성능이 낮은 에이전트로부터도 유용한 피드백을 이끌어내어 전체 시스템의 일반화 성능을 높이는 메커니즘이 매우 흥미로웠다. 특히 성능이 낮거나, 도메인 특화 모델을 범용 모델과 함께 사용할 때 더 많은 의견을 수렴함으로써 더 높은 시너지가 발생한다는 결과는 멀티 에이전트 설계의 중요성을 다시 한번 일깨워 주었다.
최근 파운데이션 모델의 효율적 학습을 위한 Prompt Tuning 및 도메인 일반화 연구에 관심을 두고 있는 입장에서, 본 세미나는 단일 모델의 성능 개량뿐만 아니라 '에이전트 간의 상호작용 및 시스템 구조 설계'가 새로운 성능 돌파구가 될 수 있다는 중요한 인사이트를 제공해 주었다. 특정 도메인에서 VLM을 비롯한 다양한 모델들을 어떻게 유기적으로 연결하여 난제를 해결할 수 있을지 깊이 고민해 볼 수 있는 유익한 시간이었으며, 귀한 연구 사례들을 열정적으로 강연해 주신 박소연 선배님께 감사의 인사를 전하며 후기를 마친다.
허종국
금일 세미나는 여러 개의 LLM을 활용하여 복잡한 추론 문제를 해결하는 multi-agent debate 관련하여 박소연 연구원이 발표하였다. Single LLM의 경우, 1. 고정된 사고 패턴으로 인한 편향 (bias trap), 2. 외부 평가 부재로 인한 자기 오류 식별 불가 (no external feedback)으로 인해 복잡한 추론 문제를 해결하기 어렵다. 이러한 문제를 해결하기 위해 금일 세미나에서는 여러 LLM이 서로 대화 및 토론하여 답변을 교정한 후 최종 결론에 도달하는 3가지 방식에 대해 알아보았으며, 각각 아래와 같이 요약할 수 있다.
1. Convergence 방식 : 여러 에이전트가 서로의 답변을 참고하여 자신의 의견을 교정 혹은 반박하는 방식으로 여러 round 동안 iteration 한 뒤, 최종 답변을 도출하는 방식이다. 서로 다른 관점을 가진 모델로부터 외부 피드백을 받을 수 있다는 장점 덕분에 다양한 추론 태스크에서 single LLM 대비 높은 성능을 나타내었다. 각 라운드에서 서로의 답변을 concat하여 입력해야하는 만큼, round가 지나갈수록 context length가 늘어나기 때문에 별도의 summarization phase가 필요하거나, 고정된 답변 템플릿에서 parsing을 통해 핵심적인 부분만 추출하는 등의 테크닉이 필요할 듯 하다.
2. Judge 방식 : 찬성/반대의 페르소나를 입힌 두 모델을 서로 tit-for-tat 방식으로 토론하게 한뒤, 별도의 judge agent가 결론을 내리는 방식이다. 다만 judge 에이전트가 자신과 동일한 LLM 을 사용한 part에 좀 더 손을 자주 들어준다는 점, 그리고 보통 반대 페르소나 쪽에 편향이 치우쳤다는 점에서 judge의 validation이 critical할 것 같다.
3. voting 방식 : 서로 다른 LLM을 사용하여 찬반 투표를 진행한 뒤, 신뢰도를 활용해서 weighted voting한다. 다만 LLM이 산출하는 confidence score가 어떠한 수식을 통해 산출하는 uncertainty 방식이 아니라 LLM이 내재적(black-box 느낌)으로 산출하는 text에 불과하다고 생각해서, 과연 이 confidence score가 옳은가에 대해서는 좀 더 생각해볼 필요가 있다.
금일 세미나를 준비하느라 고생한 박소연 연구원에게 감사의 말을 전한다.
장성인
이번 세미나는 단순히 LLM을 이용해서 답변을 받을 떄 하나의 agent로만 받는 것이 아닌 여러개의 agent를 이용해서 가장 최선의 답변을 받을 수 있는 방법이 무엇일까에 대해서 알아볼 수 있었다. 혼자서 생각하는 것이 아닌 다수의 사람이 하나의 안건에 대해서 같이 생각해서 서로의 의견을 나누고 공유하는 것과 같이 토론하는 방법을 LLM에 이용하였으며 이를 Multi-Agent에 적용하였으며 총 3가지 구조인 convergence, judge, voting 구조로 나뉘어 설명하였다.
1) Convergence
여러 agent가 본인이 답변을 내놓으면 나온 답변을 서로의 답변을 읽으면서 계속해서 수정의 과정을 거치고 최종적으로 하나의 수렴된 답변을 도출하는 Debate 방법이다. 라운드를 진행할 때마다 각각의 agent가 질문에 대한 답변을 진행하고 다음 라운드에서 다른 agent가 했던 답변과 질문을 같이 받아서 계속해서 답변을 생성할 때 하나의 의견이 나올 때까지 진행하는 방법이다. 단순 하나의 agent가 추론하는 것보다 여러 agent를 이용하고 그 답변을 이용하는 것에서 성능이 향상된 것을 확인할 수 있었다.
2) Judge
이전에는 agent끼리 토론을 진행하여 결론을 냈다면 이번에는 토론 내용을 보고 최종적으로 답변을 결정하는 judge역할을 하는 agent를 하나 생성하여 최종 답변을 생성할 수 있도록 하고 이에 대한 대표 방안이 MAD이다. MAD 토론 방식은 단순히 추론 결과를 이용한 토론이 아님 하나의 주제에 대해서 찬성과 반대가 있는 것처럼 찬성 측 agent와 반대 측 agent로 2개의 영역으로 나눠서 서로 토론을 진행하고 judge는 찬성과 반대의 의견과 토론 내용을 받아서 최종적으로 의견 결정을 하게 된다.
3) Voting
Voting 방법능 여러 agent가 답변을 내면 투표를 통해 최종 답변을 결정한다. 서로 다른 LLM을 이용하여 하나의 질문에 대한 각자 다른 답변을 확보할 수 있고 confidence를 이용해서 스스로가 낸 답변에 점수를 매긴다. 계속해서 라운드를 거쳐가면서 답변과 점수가 나오게 되면 이 점수를 이용해서 가중치 투표를 통해 가장 높은 수치를 가진 답변을 최종 결과로 선택한다.
Multi-Agent를 이용하는 3가지 방법론을 알아볼 수 있었고, 단순히 하나만 사용하는 것이 아니라 동시에 여러개를 사용할 수 있고, 성능이 향상된다는 것이 인상적이였다. 이 3가지 과정에 대해서 쉽게 설명해줘서 각 과정에 대해 알아볼 수 있었으며 세미나를 잘 준비해준 박소연 연구원님께 감사의 말씀을 전한다.
김다빈
이번 세미나는 복잡한 추론 문제를 해결하기 위해 여러 LLM 에이전트가 서로 토론하고, 비판하고, 합의하는 Multi-Agent 기반 방법론들을 소개하였다. 단일 LLM은 언어 생성이나 요약처럼 비교적 단순한 작업에서는 좋은 성능을 보이지만, 복잡한 reasoning이 필요한 문제에서는 하나의 사고 패턴에 갇히거나 자기 답변의 오류를 스스로 판단하기 어렵다는 한계가 있다. 이번 세미나에서는 해당 한계를 극복하기 위한 3가지 방법론이 소개되었다.
Multi-Agent 활용 방식을 크게 DEBATE, MAD, ReConcile 세 가지 방법이 있다.
(1) DEBATE는 여러 LLM 에이전트가 각자 답변을 생성한 뒤, 서로의 답변을 다시 읽고 수정하는 과정을 반복하면서 하나의 결론으로 수렴하는 방식이다. 첫 라운드에서는 각 에이전트가 독립적으로 답을 내고, 이후 라운드에서는 다른 에이전트의 답변을 추가 정보로 활용하여 자신의 답을 보완한다. 단순히 같은 모델에게 여러 번 답을 묻는 것이 아니라, 서로 다른 답변을 비교하고 수정하는 과정을 통해 더 정확한 추론으로 이어진다는 점이 인상적이었다.
(2) MAD는 토론 이후 별도의 Judge 에이전트가 최종 답변을 결정하는 방식이다. DEBATE가 에이전트들의 의견이 같아질 때까지 수렴하는 구조라면, MAD는 찬성측과 반대측처럼 서로 다른 역할을 부여하여 토론을 진행하고, 마지막에 Judge가 더 타당한 답변을 선택한다는 점에서 차이가 있었다. 특히 기존 Self-Reflection 방식은 LLM이 한 번 잘못된 방향으로 생각하면 이후에도 그 오류에서 벗어나기 어렵지만, MAD는 서로 반대되는 관점을 충돌시켜 새로운 논리를 만들 수 있다는 점이 흥미로웠다. 또한 Judge와 Debater가 같은 모델일 때 특정 Debater를 더 선호하는 경향이나, Debater 수가 너무 많아지면 오히려 성능이 저하될 수 있다는 분석도 Multi-Agent에서 단순히 에이전트를 많이 쓰는 것보다 역할과 구성이 중요하다는 점을 보여주었다.
(3) ReConcile은 서로 다른 종류의 LLM 에이전트들이 각자 답변과 confidence score를 제시하고, 이후 라운드에서 이전 답변과 근거를 참고하며 최종적으로 신뢰도 기반 가중 투표를 통해 답을 도출하는 방식이다. 이 방법에서 특히 인상 깊었던 점은 confidence score을 사용하는 것이었다. 자신의 답변에 대한 신뢰도를 출력함으로써 답변의 퀄리티를 높여나가는 과정이 다소 신선하게 다가왔다.
이번 세미나를 통해 LLM의 한계를 단순히 더 큰 모델을 사용하는 방식으로만 해결하는 것이 아니라, 여러 에이전트 간의 토론, 반박, 합의 구조를 통해 보완할 수 있다는 점을 이해할 수 있었다. 특히 인간이 혼자 생각할 때보다 여러 사람과 의견을 나누며 더 합리적인 결론에 도달할 수 있는 것처럼, LLM도 다양한 관점의 상호작용을 통해 더 나은 추론 결과를 만들 수 있다는 점이 매우 흥미로웠다. 최근 Multi-Agent 연구가 활발히 진행되고 있는 만큼, 관련 연구를 이해하는 데 좋은 기반이 되는 유익한 세미나였다고 생각한다.
이렇게 누구나 이해하기 쉽게 세미나를 준비해준 소연 연구원님께 고마움을 남기며 세미나 후기를 마치고자한다.