- With 삼성전자종합기술원
- 2023-10-19 ~ 2024-10-18
시스템의 규모가 커짐에 따라 결함 발생 빈도가 증가하고, 이러한 결함에 정확하고 신속하게 대응할 방법이 요구되고 있다. 본 프로젝트는 정보 집약적인 답변이 가능한 거대 언어모델(LLM)을 활용하여 결함을 보다 효율적으로 해결할 수 있는 진단 모델을 구축하는 것을 목표로 한다. 이를 위해 Retrieval-Augmented Generation(RAG) 기법을 활용하였으며, 특수 도메인의 문서-질의-응답 쌍 데이터를 생성하고, 생성된 데이터를 기반으로 RAG를 미세 조정하여 강건한 답변 성능을 확보하고자 하였다.
1. 데이터 생성
특수 도메인 데이터셋은 관련 문서가 풍부하지만, 질의-응답 데이터 쌍이 부족하다는 특징이 있다. 이러한 특징을 고려하여, 본 프로젝트에서는 관련 문서만을 입력으로 사용해 RAG를 미세조정하기 위한 문서-질의-응답 쌍 데이터셋을 생성할 수 있는 LLM 프롬프트를 설계하였다. 이를 위해 LLaMa 2-7B 모델을 사용하였고, 프롬프트는 복잡한 Question Answer Generation 작업을 세 단계로 나누어 구성하였다: 1) Answer Entity Recognition 2)Question Generation 3) Answer Generation. 이처럼 단계를 명확히 구분하여 LLM에게 지시함으로써 Chain of Thoughts 효과를 극대화하였다. 이러한 접근법을 통해 기술 문서의 수만큼 원하는 양의 특수 도메인 데이터셋을 생성할 수 있었고, 데이터 부족 문제를 효과적으로 해결하였다. 본 프로젝트에서는 기술 도메인에 특화된 TechQA 데이터셋을 활용하여 기존 450개의 질의-응답 쌍을 5000개로 증강하여 사용하였다.
2. RAG 미세조정
앞서 생성된 증강 데이터셋을 활용하여 RAG 프레임워크를 미세 조정하였다. Generator 미세조정 과정에서는 50% 확률로 정답 문서를 사용하였으며, 여러 연관 문서를 활용할 때 유사도가 높은 상위 K개의 문서를 학습에 활용하도록 설계하여 Generator의 강건한 답변 성능을 확보하였다. Retriever의 경우, 최대 3.6%의 성능 향상을 기록하며, 미세 조정된 retriever가 기존 모델보다 연관 문서를 더 효과적으로 검색함을 입증하였다. Generator의 경우에도 무작위 문서를 학습에 사용하던 기존 방식이나 사전 학습된 모델만 사용했을 때보다, 제안한 학습 기법을 적용했을 때 BERTScore 기준으로 더 높은 성능을 보였다. 결론적으로 본 프로젝트는 특수 도메인에서 데이터 부족 문제를 해결하고, RAG 모델의 성능을 개선하여 결함 대응의 시간 효율성을 높이는 데 기여하였다.