2025 한국데이터마이닝학회 추계학술대회 - 허종국
[학회 후기]작년 데이터마이닝 학회는 경주에서 개최되었었는데, 올해는 하계 학술대회로 평창에서 개최되었다. 작년에 대비해 포스터 세션이 늘어나 더 많은 발표를 심도있게 들을 수 있었다. 가장 좋았던 점은 카이스트 권창현 교수님 그리고 한국인공지능 협회의 박연정 전무님 등 새로운 연사분들이 대거 참여하셔서 물류 시스템 쪽에서의 AI 연구 동향이나 연구를 넘어 산업계에서 필요한 AI가 무엇인지 등에 대해 발표해주셨다. 마지막에는 4분의 연사분들이 'AI 시대의 교육, 연구, 산학협력, 국제화'라는 주제로 토론을 진행해주셨는데, 그 중 특히 강필성 교수님께서 말씀해주신 AS-IS(Answer, Memorize)에서 TO-BE(Ask, Retrieve)하는 인재가 되라는 장표가 가장 인상 깊었다. 해당 장표에 인상깊었던 사람이 많았는지, 패널 디스커션 때 가장 많은 질문이 오갔던게 기억이 남는다.[발표 후기]제목: Policy-Relevant Query Sampling and Dynamic Critic Reset for Efficient Preference-based Reinforcement Learning발표 후기 : 이번에 발표한 주제는 선호 기반 강화학습에서 발생하는 두 가지 문제를 해결하기 위한 연구를 발표하였다: 첫 번째는 query-policy misalignment로써, 기존 PbRL에서 선택되는 query가 현재 정책과는 거리가 멀어 실제로 정책 개선에 도움이 되지 않는 현상이다. 기존 연구인 QPA에서는 이러한 문제를 해결하기 위해 가장 최근 데이터에서 query를 뽑는 방법을 제시하였지만, 가장 최근 데이터라고 해서 현재 policy와 연관성이 높지는 않다는 것을 실험적으로 보였다. 이후, 이러한 문제를 해결하기 위해 현재 정책을 활용하여 해당 query가 발생할 확률인 likelihood를 계산해서 likelihood가 높은 데이터를 뽑는 샘플링을 제안하였다. 두 번째 문제는 online learning에서 발생하는 primcy bias, 그리고 이로 인해 발생하는 overestimation 문제이다. PbRL에서 보상 함수는 순차적으로 쌓이는 feedback data에 계속해서 학습이 되게 되는데, 이로 인해 학습 초기 데이터에 과한 영향을 받게 된다. 이로 인해 학습 초기에 발생한 low-quality feedback에 대한 reward divergence가 커지게 됨으로써, overestimation이 발생하게 된다. 이러한 현상을 해결하기 위해 보상 함수와 이에 영향을 받는 Q 함수를 reset하는 방법을 제안하였으며, monotonic하게 증가하는 threshold에 대해 Q값이 임계값을 넘으면 reset하는 방식으로 고안되었다.학회 발표를 할 떄 마다 느끼는 것 중 하나는 강화학습, 그 중에서 선호 기반 강화학습이라는 분야가 생소한 만큼, 좀 더 장표를 쉽고 직관적으로 만들 수는 없었을까라는 아쉬움이다. 매번 개선하려고 노력하고 발표도 연습하지만, 실제 현장에 가서는 좀 처럼 잘 되지 않는다. 이번 학회 포스터에서 아쉬웠던 것을 발판 삼아 다음 확회에서 보완하는 방식으로, 조금씩 나아가는 것을 목표로 하고 있다.질문 1 : 두 번째 컴포넌트인 리셋 부분에서 threshold 선정 방식이 너무 heuristic한데 그 근거가 무엇인가요?답변 1 : 해당 threshold의 구체적인 산정 방식은 다소 heuristic할 수 있지만, monotonic하게 increasing한다는 점을 주목해야합니다. 실제 강화학습에서 1. reset은 primacy bias를 줄일 수 있다는 점, 2. critic output(Q-value)는 overestimation을 파악하는데 도움이 된다는 점, 3. policy improvement theorem에 의해 Q-value는 항상 증가해야한다는 점을 토대로 만들어졌습니다. monotonic하게 증가하는 스케줄 방식이라면 다른 스케줄링 방식도 큰 효과가 있을 것이라 생각합니다.[청취 후기]제목 : Calibration for Improving Safe Semi-Supervised Learning내용 : 실제 환경에서 자주 발생하는 label distribution mismatch 문제, 소위 out-of-distribution (OOD) 문제를 해결하기 위한 연구이다. 이러한 safe SSL 방법론들은 overconfidence로 인해 classification의 pseudo-label이나 OOD detection에서 오류를 증가시키는 원인이 된다. 이러한 문제를 해결 하기 위해 classifier와 ood detector에 calibration을 적용하는 safeSSL 방법론을 제안하였다. 가장 대표적인 이미지 데이터셋인 CIFAR-10/100, SVHN, TinyImageNet 벤치마크, 그리고 공인된 비교방법론들과 함꼐 폭넓게 비교 실험한 후 성능을 입증하였다.진수형의 발표였는데, 전반적으로 연구 배경, 실험의 구성, 방법론 수식의 탄탄함이 돋보이는 연구였다. 연구의 흐름이나 진행 방식에서 본받을 부분이 많았다.
Reviewed by
허종국
2025.09.03