- 2025년 1월 24일 오전 11:04
- 조회수: 272
REFERENCES
INFORMATION
- 2025년 1월 24일
- 오전 12시 ~
- 온라인 비디오 시청 (YouTube)
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 대조학습 기반의 information retrieval 모델에 대해 소개하고 있다. Information retrieval은 '검색'과 같은 의미로 보면 된다. 질문을 입력하면 그에 알맞은 적절한 정보를 가져오는 문제이다. 기존에는 질문의 키워드와 정보의 키워드 간의 매칭되는 비율을 가지고 통계 기반의 유사도를 구하는 방식(sparse retrieval)이 주를 이루었다면 최근에 딥러닝이 발전하면서 나온 BERT 모델이 이 분야 주요 방법론(dense retrieval)으로 자리 매김을 하였다. BERT를 information retrieval을 잘 수행하기 위해서 학습할 때 대조학습 모델링을 주로 사용한다. 대조학습은 특징 공간 상에서 positive pair 간에는 가까워지도록, negative samples과는 멀어지도록 학습을 한다. 따라서 이 분야에서는 사용자의 질문과 그에 적절한 정보를 positive pair로 맞추어서 대조학습을 수행한다. 그렇기 때문에 BERT로부터 나온 질문과 정보의 특징벡터의 내적이 클 수록 질문에 연관된 정보라고 본다. Contriever는 이 때 대조학습 중 MoCo 모델링을 활용한 경우이다. PAIR는 정보 간의 유사도 또한 학습에 고려한 경우이다. 이는 질문-정보(postivie pair)의 유사도가 정보 간(negative samples)의 유사도보다 커지도록 한다. ReContriever는 Contriever를 개선한 방법론으로 MoCo를 수행하면서 발생할 수 있는 false positive로부터의 영향을 완화하기 위한 방법을 제시하였다. Contriever 학습 과정 중에는 주어진 문서를 여러 개의 문단으로 잘라서 positive samples를 만들게 되는데 이 때 일부 관련 없는 문장이 섞일 수도 있게 된다. 따라서 노이즈가 섞인 positive sample의 경우 학습 가중치를 낮추어서 모델을 업데이트하는 방식이다.
최근에 해당 분야를 연구할 일이 있었는데 기존에 공부했던 대조학습을 다양하게 시도해볼 수 있어서 재밌게 진행하였다. 한편 거대언어모델에 많이 사용되고 있는 RAG 프레임워크의 핵심 요소이기도 해서 관심 있는 사람은 꼭 알아두고 가면 좋을 분야라고도 생각한다. 유익한 세미나를 준비해준 이정민 연구원에게 감사의 말을 전한다.