고려대학교 DMQA 연구실

AI Agents Debate: Solving Complex Problems with LLMs

2025년 11월 28일 오후 7:05
조회수: 468

REFERENCES

[DMQA Open Seminar] 251128 AI Agents Debate_Soyeon Park_발표자료.pdf

INFORMATION

2025년 11월 28일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

박소연

TOPIC

AI Agents Debate: Solving Complex Problems with LLMs

On-Line Video

OVERVIEW

요약:

최근 대규모 언어모델(LLM)은 다방면으로 뛰어난 성능을 보이지만, 여러 단계의 추론을 요구하는 복잡한 문제 해결에 있어서는 여전히 한계를 보인다.
이를 해결하기 위해 단일 LLM이 아닌 여러 LLM 에이전트들이 서로 의견을 제시하고 토론하며 협업하여 더 나은 해결책을 도출하는 Multi-Agent Debate 접근법이 주목받고 있다.
이번 세미나에서는 AI Agents Debate의 근간이 되는 연구들을 알아보고자 한다.

참고자료:

[1] Du, Yilun, et al. "Improving factuality and reasoning in language models through multiagent debate." International Conference on Machine Learning (ICML 2024), 2024.

[2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), pages 17889-17904.

[3] Chen, Justin Chih-Yao, Swarnadeep Saha, and Mohit Bansal. "ReConcile: Round-table conference improves reasoning via consensus among diverse LLMs." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024), Volume 1: Long Papers, pages 7066-7085.

청취자 후기

김수림

본 세미나는 LLM이 복잡한 추론 문제를 해결하는 과정에서 겪는 한계를 살펴보고, 이를 극복한 Multi-Agent 기반 접근법에 대해 소개하였다. 특히 단일 LLM이 새로운 관점을 생성하는 데 한계가 있고, 스스로의 오류를 판별하기 어렵다는 문제를 해결하기 위해 여러 에이전트가 협력하는 다양한 방법론이 제시되었다.

Multi-Agent 접근에는 대표적으로 수렴(convergence), 심판(judge), 투표(voting)와 같은 방식을 통해 최종 답을 결정한다.

먼저 DEBATE는 여러 에이전트가 서로 토론을 진행하며 답을 점진적으로 개선하는 방법이다. 각 에이전트는 다른 에이전트의 관점을 비판적으로 검토하고 이를 반영해 자신의 답을 수정하며, 여러 라운드를 거칠수록 하나의 수렴된 답변에 도달한다.

MAD는 self-reflection 방식에서 스스로 생성한 답변에 과도하게 확신을 가지는 한계를 보완하기 위해, 에이전트간 반박 구조(tip for tat) 토론을 수행하고, 별도의 judge 에이전트가 최종 답을 결정하는 방법이다. 추가 실험 결과에서 judge 에이전트가 자신과 동일한 LLM을 사용한 에이전트의 답변을 더 자주 선택하는 경향이 나타났는데, 이를 통해 judge 에이전트의 LLM 모델 선택 또한 편향되지 않게 신중해야겠다는 생각이 들었다.

마지막으로 Reconcile은 서로 다른 LLM 모델을 활용해 신뢰도 기반 가중 투표 방식으로 최종 답을 도출한다. 각 에이전트의 confidence score를 반영해 합의를 도출하며, 서로 다른 모델 간 상호 피드백을 통해 성능을 향상시킨다.

최근 매우 각광받고 있는 분야인 LLM Multi-Agent에 공부해보고 싶었는데, 핵심 방법론을 쉽게 이해할 수 있었던 유익하고 알찬 시간이었다. 좋은 세미나를 준비해 준 박소연 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.

김성수

이번 세미나는 LLM들 간 토론을 활용하여 복잡한 Task를 잘 푼 연구들을 소개한다. 우리 인간도 혼자 생각하는 것보다 여럿이 머리를 맞대고 생각할 때 더 합리적인 결정을 할 수 있다. 해당 세미나는 이러한 인간의 사고방식을 LLM Agent에 적용한다.

(1) DEBATE: 해당 연구는 2~3개 LLM 에이전트가 토론을 한다. 첫 라운드에서는 토픽과 관련하여 각각 LLM이 답변을 하고, 두번째 라운드에서는 첫 라운드의 상대 LLM의 답변과 토픽을 다시 프롬프트로 입력하여 다시 답변한다. 그리고, 라운드를 거듭할 때 두 에이전트의 의견이 맞게 된다면 토론을 종료한다. 실험에서는 1) Self-Reflection이나 다수결 보다 Debate가 우수했으며, 2) 라운드 수나 에이전트 수가 커질수록 우수한 성능을 보였다. 다만, 어느정도부터는 수렴하는 경향을 보였다. 3) 더불어 2라운드 부터는 다른 LLM 에이전트의 답변을 함께 프롬프트로 활용 시 효과적이었다.

(2) MAD: DEBATE는 두 답변이 일치할 때 까지 진행했다면, MAD는 특정 라운드까지만 토론하고 Judge LLM 에이전트한테 최종 결정을 맡긴다. 이때 토론 시에는 찬성측과 반대측을 정의한다. 1) 실험에서는 CoT나 Self-Reflect보다 우수한 경향을 보였다. 그리고 2) 똑똑한 Debater를 쓰는 것이 중요하고, 3) Judge랑 Debater가 동일한 모델이면 Judge는 동일한 Debater를 더 자주 선택하는 경향이 있으며, 4) 모든 LLM 에이전트가 동일한 모델 구조이면, Negative를 자주 고른다는 것도 인상깊었다. 5) 또한 Debater 수가 오히려 많거나 지나치게 극단적인 주장은 비효과적이며, 6) 복잡한 질문일수록 많은 Round가 필요하다고 한다.

(3) RECONSILE: 서로 다른 LLM 에이전트들의 예측 결과를 신뢰도 기반 Voting을 통해 결정한다. 역시나 라운드를 거듭할 때마다 이전 라운드의 각 에이전트들의 답변 결과를 활용한다. 실험에서는 강하지만 동일한 에이전트 3개를 쓰는 것보다 약한 에이전트 1개를 포함하는 것이 효과적이었다. 이는 다양한 피드백이 도움이 된 것으로 보인다.

개인적으로 실험결과들이 꽤나 직관적이어서 좋았다. 이번에 Multi-Agent를 활용한 연구를 계획하고 있는데, Base 지식을 쌓기에도 차근차근 따라갈 수 있는 정말 최고의 세미나라고 생각한다. 유익한 세미나를 준비해준 박소연 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.