[학회 후기]

2025 한국데이터마이닝학회 하계학술대회가 강원도 평창에서 개최되어 포스터 발표를 진행하게 되었다. 작년에 이어 올해도 포스터 발표에 참여하며, 연구를 공유할 수 있는 뜻깊은 시간을 가졌다. 이번 학회에서는 예상보다 많은 연구자들이 포스터 발표를 통해 활발히 토론하는 모습이 인상 깊었다. 특히 수준 높은 연구들이 다양하게 발표되어 학회장을 돌아다니며 흥미롭게 여러 연구들을 청취할 수 있었다. 또 작년과 비교했을 때, 대규모 언어 모델(LLM)을 다루는 연구가 눈에 띄게 증가하여 발표 주제의 절반 이상이 LLM 및 LLM 활용 연구였던 점이 인상적이였다. 이를 통해 학계의 흐름을 직접 체감할 수 있었고, 저 역시 LLM에 대해 더 깊이 공부해야겠다는 동기를 얻을 수 있었다. 발표 시간에도 많은 연구자들과 교류하며 소중한 의견을 나눌 수 있어 뜻깊은 경험이였다.


[발표 후기]

주제: 선호 기반 강화학습에서 피드백 효율성 향상을 위한 High Q-value Sampling 기법

강화학습에서 복잡한 목표를 달성하기 위해서는 보상을 통해 에이전트의 학습 방향을 정의해야 하지만, 정교한 보상 함수를 설계하는 데에는 높은 비용과 전문성이 요구된다. 이를 해결하기 위한 대안으로 *선호 기반 강화학습(Preference-based Reinforcement Learning, PbRL)*이 주목받고 있다.그러나 기존 PbRL에서는 쿼리 선정 기준이 정책 학습과 정렬되지 않아, 보상 모델은 개선되더라도 실제 정책 향상에는 효과가 제한적이라는 한계가 존재한다. 이에 본 연구에서는 에이전트가 실제로 관심을 가지는 고품질 행동을 Q-value 기준으로 선택하는 High Q-value Query Sampling 기법을 제안하였다. 이 방법은 보상 모델을 정책 학습 방향과 정렬시켜 불필요한 피드백을 줄이고, 보다 적은 피드백으로도 정책 성능을 효과적으로 향상시킬 수 있도록 한다.

-질문 1: LLM 기반 모델에서도 보상 학습이 활용되는 것 같은데, PbRL이 앞으로도 유망한 분야일까요?

-답변 1: PbRL은 기초적이면서도 매우 유망한 분야라고 생각합니다. 실제로 LLM 튜닝에도 널리 사용되고 있으며, 앞으로는 로보틱스와 같은 다양한 도메인 데이터에 적용될 수 있어 그 활용 가능성이 더욱 확대될 것으로 기대됩니다.


-질문 2: 전체 실험 결과에서 High Q-value Sampling이 항상 좋은 성능을 보이지는 않는데, 그 이유는 무엇인가요?

-답변 2: 환경의 특성에 따라 Sampling bias에 의해 학습 과정이 잘못 진행되면 오히려 성능이 저하되는 경우가 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 향후에는 데이터 증강과 함께 더 다양한 데이터를 활용하여 안정적인 성능 향상을 도모할 계획입니다.


[청취후기]

주제 1: AlienLM: 학습 및 추론 데이터 보호를 위한 Vocab Swap 기반 상용 LLM 암호화 프레임워크 (김재희, 강필성 - 서울대학교)

해당 발표는 최근 기업 환경에서 가장 큰 화두가 되고 있는 문제 중 하나인, 내부 데이터를 LLM에 입력할 때 발생할 수 있는 정보 유출 위험에 대해 다룬 연구였다. 최근 들어 이러한 문제가 활발히 논의되고 있는 상황에서, 연구진은 Vocab Swap이라는 방식을 통해 토큰을 변형한 뒤 이를 기반으로 LLM을 파인튜닝(finetuning)하는 방법을 제안하였다. 이 방식은 성능 저하를 최소화하면서도 원래의 민감한 정보를 유추하기 어렵게 만든다는 점에서 매우 참신하다고 느꼈다. 특히 이와 같은 주제는 선행연구가 거의 없는 상황인데, 문제 정의부터 구체적인 실험 설계와 검증까지 체계적으로 시도했다는 점에서 매우 도전적이고 흥미로운 연구라는 인상을 받았다. 실제 산업 현장에서도 충분히 적용 가능성이 높은 주제라 더욱 인상 깊게 들을 수 있었다.


주제 2: Generative AI for Causal Reasoning: Foundation and Algorithms (임성빈 - 고려대학교)

해당 발표는 Causal Reasoning이라는 주제를 생성형 모델과 접목시켜 연구하는 최근의 흐름과 그 가능성에 대해 다룬 강연이었다. Causal Reasoning이라는 개념 자체는 이전에도 접한 적이 있었지만, 이렇게 복잡한 인과적 추론 문제를 생성 모델로 풀 수 있을지에 대해서는 개인적으로 다소 의문을 가지고 있었다. 발표에서는 LLM을 활용하여 Causal Reasoning 문제를 다루는 다양한 방법론이 소개되었는데, 이를 통해 얻은 답변이 과연 학습된 지식을 활용한 것인지, 아니면 단순히 그럴듯한 결과를 생성한 것인지 판단하기 어려운 문제가 존재한다는 점이 인상 깊었다.

이러한 문제를 해결하기 위해 Diffusion 모델을 활용하는 활발히 이뤄지고 있는데 Diffusion 모델은 실제 데이터의 분포를 직접적으로 파악하기는 어렵지만, Score 분포를 추정하는 데 강점을 가지기 때문에 이를 활용하여 Causal Reasoning 문제를 풀어가는 시도가 활발히 진행되고 있다는 점이 매우 인상적이었다. 이러한 방식은 복잡한 분포 구조를 조금 더 효과적으로 다룰 수 있는 가능성을 보여주었고, 앞으로 해당 분야가 더욱 발전해 나갈 수 있을 것이라는 기대감을 가지게 되었다. 전체적으로 발표 내용이 체계적이면서도 흥미로워서 학문적 시야를 넓히는 데 큰 도움이 된 훌륭한 강연이었다.