2024 한국데이터마이닝학회 춘계학술대회 - 배진수
- 2024년 5월 31일 오후 5:01
- 조회수: 700
Reviewed by
배진수

[학회 후기]
2024년 서울 양재에서 열린 한국데이터마이닝학회에 참석하였다. 입학한 이후로 약 3번 정도의 데이터마이닝학회 방문 및 발표 경험이 있었는데, 3번 모두 연구실 일부 인원들끼리만 진행했었다. 하지만, 이번에는 특별하게도 모든 연구실 인원이 전부 참석하는 경우였고, 학회가 끝난 뒤, 오랜만의 연구실 단체 회식이 있어서 더욱 뜻깊고 좋은 하루였다. 이번 학회 때는 LLM 및 최적화와 관련된 세션들을 주로 들었으며, 튜토리얼 세션이나 내가 많이 관심 갖고 있는 Semi / 이상(고장) 진단 알고리즘 연구들도 포함해 풍성하게 구성된 알찬 학회였다.
[청취 후기]
1. 튜토리얼 : 생성형 모델 및 LLM 모델 사용으로 인해 우리들은 온라인에 더욱 빠져들어 살고 있다. 그만큼 온라인상에서 공격 받을 일이 더 많아졌다는 소리기이도 하며, 특히 LLM 관련 사이버 범죄 사례들이 어떤 것인지 살펴볼 수 있었다. 특히, 다크웹 쪽에서는 해킹 쪽으로 발달된 LLM 모델이 유료로 배포되고 있다는 소식이 인상 깊었고, LLM 사용 과정 중에 있어 우리가 입력한 프롬프트 내용을 해킹 및 조작하여 해커의 의도가 반영된 대답을 사용자에게 전달할 수도 있다는 소식을 듣고, 범죄자들의 지능이 참 대단하구나 생각했다. 연구자의 입장으로써 이런 부분들을 어떻게 대응할 수 있는지 고민해보는 시간을 갖게 되어 참 유용하였다.
- (1) 자연어 처리/거대언어 모델 세션
- LLM의 Hallucination 현상을 탐지하여 잘못된 정보가 제공되는 것을 방지하는 연구가 많았다. 내가 평소에 관심 갖고 있는 모델 Calibration 쪽도 같이 엮어서 연구될 수 있겠다고도 생각했으나, 해당 연구들은 위키피디아의 Fact 정보들을 활용하여 LLM이 제공한 정보가 옳은지 틀린지를 평가하는 방식이었다. 그리고, 인간의 본능적인 질문인 'why'를 연속적으로 LLM에 던져 얻어진 답변들을 다시 모델에 학습시키는 연구도 있었는데, 마치 인간이 물음을 던지고 해결해가는 모습을 모방함으로써 모델의 전반적인 지식을 향상시켜보자는 연구 가설이 특히 재밌었다. LLM이 컴퓨터 언어 프로그래밍들도 잘 이해하고 있는지 검증하는 연구들도 있었는데, 파이썬과 C++간의 코드적 유사성을 LLM이 잘 판단하는지 검증하고 실제로 꽤나 잘한다는 것을 입증한 연구 결과가 재밌었다.
(2) 의료/헬스케어 데이터마이닝 세션
- 삼성 종기원 프로젝트를 진행하면서 사람의 생체 신호를 기반해 질병 유무를 진단하는 것이 얼마나 값지면서도 도전적인 태스크인지를 알고 있기에, 해당 세션에 많은 집중을 쏟아 청취하였다. 측두하악관절 골관절염 진단을 위해 멀티 모달 딥러닝을 사용한 연구 사례, 퇴원요약지를 기반하여 환자 질병 코드를 분류하는 연구 사례, 디퓨전 모델을 통한 MRI 이미지 데이터 증강 기법 연구 등 사람의 복지 정도를 증대 시켜줄 수 있다는 효과를 가지고 진행된 연구들이 많았다. 개인적으로, 생체 데이터하면 도메인 적응, 일반화 연구가 많이 생각났는데, 해당 연구들이 그렇게 잦은 문제는 아닐수도 있겠다는 생각이 들었다.
- (3) 최적화 및 강화학습 응용
- 연구실 졸업 선배인 강현구 교수님이 좌장을 맡으셨고, 우리 연구실 정진용, 김정인 연구원이 발표하는 세션이었다. 평소에 해당 연구원들이 어떤 연구를 하고 있는지 알 기회가 적었는데, 이번 발표를 통해 어떤 것을 연구하고 있는지 잘 알 수 있었다. 진용이 형은 특정 도메인에 치우져진 학습을 피하기 위한 도메인 일반화 연구를 진행하고 있었고, 도메인-specific 분류기를 이용하면서 도메인 별 worst-loss를 기반하여 학습하는 전략을 제시하였다. 정인이 형은 다중 에이전트 강화학습 중에서 데이터의 샘플 효율성을 높이기 위해 역할 모델 개념을 사용하였고, 다중 에이전트들의 정보 이해 효율성을 높이기 위해 자기 집중 방식을 사용할 것을 제안해 좋은 연구 성과를 보여주었다.
- (4) 산업인공지능 응용 2
- 해당 세션은 산업인공지능 응용을 주제로 가지고 있다보니, 주로 이상 탐지, 고장 진단, 산업 deep learning application 연구가 많았다. 우리 연구실의 민지 누나의 경우 해당 세션에서 멀티모달 이상치 탐지 연구를 발표하여, 상을 받기도 하였고, 누나가 평소에 어떤 연구를 하고 있는지 자세히 알 수 있어 좋은 시간이었다. 그리고, 최근에 두산 에너빌리티와 고장 진단을 수행하는 프로젝트를 하게 되었는데, 해당 세션에서 전이학습 기반의 비지도 기반 고장 진단 연구 사례를 소개해주는 시간이 있었고, 큰 집중을 가지고 청취하여 고장진단 관점에서 여러 인싸이트를 얻어갈 수 있었다.