2024 한국데이터마이닝학회 춘계학술대회 - 김재훈
- 2024년 5월 31일 오후 12:47
- 조회수: 343
Reviewed by
김재훈

[학회 후기]
한국데이터마이닝 학회는 2019년 겨울에 내가 인턴으로 연구실을 다닐 때 처음 참가하였고 올해 두 번째로 참여하게 되었다. 발표 목록들을 보면서 가장 흥미로웠던 점은 거대언어모델 연구가 상당히 활발하게 진행되고 있다는 점이다. 아예 단독 세션으로 만들어져서 발표가 진행되었고 최근에 산학 프로젝트 역시 연관성이 있었기 때문에 해당 세션을 관심있게 들었다. 또한 어플리케이션 연구에 대한 발표도 많았다. 부동산 가격이나 혹은 바로크 음악 생성 등 실생활에 밀접한 주제 뿐 아니라 개성있는 연구들도 발표가 되어서 전반적으로 재밌게 청취할 수 있었다. 자세한 내용은 발표 후기에 적고자 한다. 한편 신기했던 점은 내 멘토링을 해준 선배가 이제는 교수님이 되어서 학회에 참여를 한 것이다. 세션 좌장에 등록이 되어있었고 또 지도 학생이라고 소개를 해주셨는데 뭔가 감회가 새로웠다. 여담이지만 2012년에 학회장으로부터 멀지 않은 곳에서 재수 학원을 1년 간 다녔었다. 학회장을 가기 전에 한 번 둘러보면서 추억 여행도 할 수 있었다.
[청취 후기]
## LLM 세션
이전의 언어 모델 세션은 보통 '학습'과정이 꼭 들어가 있었다. 하지만 언어모델의 크기가 급격하게 증가하는 반면 이에 대한 학습을 수행할 수 있는 하드웨어의 가격은 비싸지면서 랩실 수준에서의 연구 트렌드가 점점 사전학습된 모델을 추론 위주로 활용하는 방향으로 바뀌고 있는 것 같다.
1. HaluCheck: Integrating Hallucination Detection Techniques in LLM-based Conversational Systems
HaluCheck는 외부 정보를 기반으로 LLM의 답변에서 환각 문장을 판별하고 이를 시각화하는 알고리즘이다. 이 연구의 목표는 기존 방법론들은 사람의 검수를 기반으로 모델의 답변에 거짓이 섞여있는지를 라벨링하여 모델을 학습하였는데 이 작업을 프롬프트로 작성하여 LLM으로 자동화하는 것이다. 추론만으로 파이프라인을 짜는 일은 정말 어렵다는 것을 최근에 느꼈는데 그러한 점에서 많은 고민이 들어갔을 연구로 보였다. 우선 주어진 답변의 문장 별 키워드를 추출한 다음 이것이 사실인지 질의하는 문장으로 작성을 한다 (atomic fact). 그 다음 해당 문장과 연관된 외부정보를 활용하여 해당 문장이 사실인가에 대한 점수를 산출한다. 다만 이 연구를 곱씹어보면서 드는 생각은 atomic fact가 과연 답변의 문맥을 반영할 수 있는가?이다. 예를 들어 "그는 어렸을 때부터 나를 챙겨주던 사람이다. 따라서 내게는 아버지와도 같은 사람이다." 라는 문장이 있다면 atomic fact와 기대되는 결과 값은 "그는 어렸을 때 나를 챙겨주었나? > Fact", "그는 내게 아버지와 같나? > ???" 이지 않을까 싶다.
2. WHY-Chain: Learning Language by Repeated "Why?" Questions as Children Do
개요가 많이 흥미로웠던 발표였다. 어린 아이들이 세계에 대한 심층적인 이해를 계속해서 "왜?"라는 질문을 던지면서 수행하는 것을 모티브로 삼아서 시작된 연구이다. LLM(LLaMA-chat 70b)에게 특정 문장을 준 뒤 계속해서 why?를 쿼리로 입력하여 나온 답변들로 상식 추론 데이터셋을 만들었고 이를 T5에 학습시켜 commonsense reasoning의 성능을 확인하였다. 발표를 들으면서 약간 확인을 하고 싶었던 점은, LLaMA의 사전학습에 사용된 데이터 중에서 commonsense와 유사한 데이터셋이 있어서 WHY-Chain 데이터를 생성할 때 관련 지식이 포함되어 있지 않을까였다. T5의 사전학습 데이터에는 commonsense 관련 데이터는 없는 것으로 알고 있다. 따라서 정말 WHY-Chain 데이터셋의 의도에 따라 모델이 학습된건지 아니면 단순히 commonsense 지식이 추가되어서 성능이 더 잘 나왔는지는 검증이 필요해보였다.
3. Large Language Model 평가자를 사용한 코드 유사성 판단
해당 연구는 두 코드 쌍의 의미론적인 유사도를 측정함으로써 모델이 코드를 얼마나 잘 이해할 수 있는가를 확인하는 것에 의의를 두고 있다. CodeBERT와 LLM의 앙상블을 통해서 알고리즘을 구축하였고 확실히 각각의 모델을 단독으로 수행하였을 때보다 앙상블의 성능이 더 잘 나오는 것을 확인하였다. 이 때 성능 향상에 있어 주어진 텍스트를 더 잘 이해할 수 있는 LLM의 영향력이 더 큰 것으로 추정된다고 하였다.
4. 기술 문서의 도메인 특화 관계형 지식 온톨로지 구축에 기반한 지식맵 생성 시스템 및 방법 연구
해당 연구는 반도체 분야에 대한 지식 온톨로지를 구축할 때 거대언어모델을 사용하여 일부 자동화를 목표로 하고 있다. 사실 온톨로지라는 개념을 모르고 있었는데 이번 기회에 알 수 있었다. 간단하게 말해서 지식 정보 자원들 간의 의미 관계를 그래프 형태로 정의한 형태이다. 이 온톨로지 구축을 위해서는 추출된 키워드들에 대한 레이블링 작업에 사람이 필요했으나 이를 LLM으로 자동화하였다.
5. 테이블-투-텍스트 생성을 위한 토큰 기반 데이터 증강 기법
테이블-투-텍스트는 말 그대로 표에 있는 정보를 문장으로 풀어서 쓰는 것을 의미한다. 이번 발표에는 전장 상황 보고서 분야를 가지고 연구를 진행하였다고 한다. 분야마다 전문가의 작업이 꼭 필요한 경우에는 만들어 낼 수 있는 데이터에 한계가 있을 수 있다. 제안한 방법론은 이에 적합한 증강기법을 적용해서 부족한 데이터 수를 보완하는데 목표를 두고 있다. 각각의 정보에 대해서 관련된 필드와 연결되는 토큰을 만들어주고 이를 마치 positional encoding 처럼 입력하는 방식이다. 이 때 입력 값 내에서 셔플링을 하는 방식으로 증강기법을 수행하는데 단 같은 필드의 토큰에 대해서는 순서를 유지하고 필드 단위로 섞는 방식을 취한다.