- 2024년 11월 7일 오후 9:38
- 조회수: 17621
INFORMATION
- 2024년 11월 8일
- 오전 10시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
본 세미나는 질의응답 생성(QAG)에 관한 내용으로, 질의응답 데이터셋이 부족한 분야에서 양질의 데이터셋을 구축하는 것을 목표로 한다.
QAG는 문서나 문단을 입력으로 받아 가능성이 높은 질문과 답을 생성하는 문제로 정의된다. 세미나에서는 이를 해결하기 위한 pipeline QAG, multitask QAG, End-to-End QAG 세 가지 방법론을 소개하였다. Pipeline QAG와 multitask QAG는 질문과 답 생성이 별도로 이루어지지만, End-to-End QAG는 질문과 답을 하나의 출력으로 정의하는 1-Stage 방식이다.
RGX Framework는 pipeline QAG를 활용해 질의응답 모델을 self-training한다. 생성된 모든 QA 쌍이 학습에 유용하지는 않으므로, 사용할 데이터를 선택하는 과정이 필요하다. 논문에서는 질의응답 모델의 손실값을 선택 기준으로 삼았다. 손실 값이 지나치게 높은 질문은 노이즈로 간주되어 학습에 적합하지 않다고 보았다. 손실 값에 대한 threshold 설정은 분야별 변동이 커 하이퍼파라미터로 설정하기 어려우므로, EM 알고리즘을 통해 자동으로 threshold를 설정하는 방법이 적용되었다.
LIQUID Framework는 pipeline QAG를 사용하여 한 질문에 대해 다수의 정답을 생성하는 방법론이다. 우선 한 질문에 대한 복수 정답은 연관되어 있다는 가정 하에, 먼저 입력 문단을 요약한 후 NER 모델을 통해 동일 유형 정답 후보를 선정한다. 이 중 적합한 정답 후보를 찾기 위해 confidence score를 계산하여 기준치 미달 후보를 걸러낸다. 남은 후보들을 바탕으로 질문을 생성하고, 이를 기반으로 답변을 생성한 후 다시 confidence score를 계산하여 필터링하는 과정을 반복해 신뢰도 높은 답변 후보를 결정한다.
세미나를 통해 QAG 분야를 접할 수 있었다. 개인적으로는 EM 알고리즘을 통한 threshold 설정이 흥미로웠다. FixMatch에서 pseudo label 관련 threshold를 설정할 때 이러한 방법을 응용할 수 있지 않을까 생각한다.
좋은 세미나를 준비해준 추창욱 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
이번 세미나는 NLP의 Question & Answering (QA) Task에서 학습 데이터셋을 만드는 방법론들에 대해 진행되었다. 이러한 방법론은 Question & Answering Generation (QAG)라고 부른다. 해당 모델은 “관련문장-질의-응답” 3가지 Pair를 필요로 하며, 본 세미나에서는 크게 3가지 종류의 갈래를 소개한다.
1) Pipeline QAG: 이는 Answer Extraction과 Question Generation 모델이 독립적으로 구성된다. 먼저, Answer Extraction 모델은 특정 문서 내 “관련문장-응답”이 Pair가 되어 학습한다. 또한, Question Generation은 “관련문장-생성된 응답-질의”를 Pair로 묶어 학습한다. 대표적인 방법론으로 RGX와 LIQUID가 있다. 이들은 신뢰하기 어려운 데이터는 필터링하거나, 보다 신뢰도 높은 데이터를 확보하는 테크닉을 추가하여 학습한다는 특징을 갖는다.
2) Multitask QAG: 이는 미세조정 시, 각각 독립된 모델이 아닌 하나의 모델로 학습하고자 한다. 만약 데이터셋만 있다면 더 많은 정보를 확보할 수 있을 것 같지만, 사실상 이러한 “관련문서-질의-응답” 데이터셋이 희소하기에, 적용이 어려운 것이 현실이다.
3) End2End QAG: Multitask QAG처럼 하나의 모델로 학습하지만, 한 Step으로 이루어진다. Multitask QAG은 Answer Extraction 후, Question Generation이 진행되나, 이는 Answer Extraction과 Question Generation이 한 스텝으로 진행된다. 하지만 이 또한 Multitask QAG처럼 데이터셋 한계를 가질 것으로 생각된다.
본 세미나를 통해 QAG에 대해 새롭게 알 수 있었다. 회수모델 (RAG)이라는 개념을 최근에 알게 되었는데, 이렇게 실제 연구적으로 활용되는 사례를 보니 조금 더 와닿았다. 또한, 본 세미나는 학습 데이터가 불완전한 상황을 데이터 생성을 통해 극복한다. 최근 Diffusion 등 고도화된 모델이 나오면서 컴퓨터 비전에서도 데이터를 생성해서 데이터 부족 문제를 극복하는 연구들도 많이 본 적이 있다. 오늘을 계기로 생성모델의 힘이 엄청남을 다시 한 번 실감할 수 있었다. 유익한 세미나를 준비해준 추창욱 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
이번 세미나는 언어 모델을 활용하여 질의응답 데이터셋을 생성하는 방법론들에 대해 소개해주었다. 언어 모델이 발전하면서 뛰어난 추론 성능을 보여주고 있지만, 특수 도메인에 대해서는 아직 저조한 성능을 보여주고 있고 이를 보완하기 위해 RAG 프레임워크 등이 개발되어 왔다. 그러나 RAG 프레임워크도 미세 조정을 해야 성능을 더 끌어올릴 수 있기 때문에, 특수 도메인에 대해 데이터셋을 생성하는 연구들이 같이 진행되고 있다.
크게 pipeline QAG, multitask QAG, end2end QAG로 구분할 수 있고 본 세미나에서는 pipeline QAG 방법론들에 대해 소개해주었다. RGX와 LIQUID 모두 여러가지 복잡한 단계를 거쳐야 하는 방식이고 그 만큼 여러 모델들이 사용되기 때문에, 여기서도 발전시킬 방향은 많은 것 같다. 특히 이런 추출형 QAG 방법론들은 long form 으로 생성하기에는 한계가 있기 때문에, 생성형 QAG 방법론들이 더 각광을 받을 것 같다. 세미나 내용을 직관적으로 잘 설명해주어 많은 도움이 되었고, 좋은 세미나를 준비하느라 고생한 창욱이에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.