고려대학교 DMQA 연구실

2026 IEEE-13th ICIEA - 김다빈

2026년 4월 13일 오후 3:10
조회수: 76

Reviewed by

김다빈

[학회 후기]

2026 ICIEA는 나에게 첫 해외 학회인 만큼 설렘보다는 긴장감이 더 컸고, 한 학기 동안 준비한 연구를 잘 설명하고 오겠다는 각오로 학회에 참석하였다. 교토에 도착하니 고즈넉한 분위기와 따스한 햇살 덕분에 학회에 대한 긴장이 조금씩 풀리기 시작했다. 물론 교토에서 관광을 하고 맛있는 음식을 먹은 것도 좋았지만, 가장 기억에 남는 순간은 첫날 밤 연구실 인원 전체와 교수님과 함께한 저녁 식사였다. 다 함께 연구에 대한 고민과 연구실 생활에 대한 이야기를 나누며 심리적으로도 더 가까워질 수 있는 계기가 되었다.

이번 학회에서는 영어에 대한 두려움을 조금이라도 극복해보고자 발표를 준비하는 것뿐 아니라, 다른 발표를 들으면서 영어로 질문도 적극적으로 해보고 여러 사람들과 영어로 교류하려고 노력했다. 나의 의사가 얼마나 정확하게 전달되었는지는 알 수 없지만, 스스로 먼저 시도해보았다는 점에서 큰 뿌듯함을 느꼈다. 이번 경험을 통해 연구적인 성장뿐 아니라 개인적으로도 한 단계 더 나아갈 수 있었던 것 같다. 이런 소중한 경험의 기회를 만들어주시고 지도해주신 김성범 교수님께 다시 한번 감사의 말씀을 전하고 싶다.

[발표 후기]

이번 학회에서 발표한 주제는 “Open-Set Recognition in Heterogeneous Federated Learning via Probabilistic Prompt Modeling”이었다. 연합학습은 각 클라이언트가 원본 데이터를 직접 공유하지 않고도 함께 학습할 수 있는 방식이지만, 클라이언트마다 데이터 분포가 다른 non-IID 환경에서는 성능이 저하되는 문제가 있다. 기존 연구들은 이러한 데이터 이질성 문제를 다루고자 했지만, 대부분 closed-set 환경을 가정하고 있어 실제 환경에서 자주 등장하는 OOD(out-of-distribution) 샘플을 충분히 다루지 못했다.

본 연구에서는 이러한 한계를 해결하기 위해 VLM(vision-language model)을 연합학습 환경에 적용하고자 하였다. 그러나 연합학습에서는 클라이언트 간 데이터 차이가 크기 때문에 텍스트 프롬프트 임베딩이 불안정해지고 semantic alignment가 깨질 수 있다는 문제가 있다. 이를 해결하기 위해, 단순 가중 평균 방식 대신 확률적 프롬프트 모델링 기반의 집계 방법을 제안하였다. 핵심 아이디어는 각 클라이언트의 프롬프트를 하나의 고정된 전역 표현으로 보는 것이 아니라, 여러 개의 probabilistic slot을 통해 다양한 클라이언트 분포를 보다 유연하게 표현하는 것이다. 이를 통해 non-IID 환경에서 발생하는 표현 불안정을 줄이고, 클라이언트 간 더 일반화된 의미 정렬을 유도하고자 하였다.

발표 이후에는 몇 가지 질문을 받았다.

질문 1) 실험 세팅으로 feature shift에서 데이터셋이 다른 경우와 도메인이 다른 경우는 어떤 차이가 있나요?

답변 1) 데이터셋이 다른 경우는 서로 다른 목적으로 만들어진 데이터셋을 각 클라이언트에게 분배한 설정입니다. 반면 도메인이 다른 경우는 domain adaptation 또는 domain generalization 분야에서 주로 사용되는 데이터셋처럼, 같은 목적을 가지지만 화풍이나 스타일이 다른 도메인으로 구성된 데이터를 각 클라이언트에게 분배한 설정을 의미합니다.

질문 2) OOD 데이터를 생성해서 OOD 프롬프트를 학습시킨다고 했는데, 이 데이터가 실제 OOD 데이터도 아닌데 유의미할까요?

답변 2) 본 연구에서 의도한 OOD 프롬프트 학습의 목적은 실제 OOD 데이터를 완벽하게 재현하는 것이 아니라, ID와 OOD 사이의 결정 경계를 더 잘 학습하도록 돕는 데 있다. 따라서 실제 OOD 데이터가 아니더라도 인위적으로 만든 OOD 데이터로 OOD 프롬프트로 결정경계를 학습할 수 있어 충분히 유의미한 방법이라고 생각합니다.

질문 3) 해당 연구의 목적은 무엇인가요?

답변 3) 본 연구의 목적은 데이터가 분산되어있는 상황과 데이터 이질성이 큰 연합학습 환경에서도 known class를 잘 분류하면서 동시에 unknown sample도 효과적으로 구별할 수 있는 open-set recognition framework를 만드는 것입니다.

개인적으로는 질의 응답 시간에 예상 질문이 아닌 질문에 대해 차분하게 대답하지 못했다는 아쉬움이 남았다. 그럼에도 불구하고 내가 고민해온 연구를 해외 학회에서 직접 소개하고, 여러 질문에 답하면서 내 연구를 설명해볼 수 있었다는 점에서 뜻깊은 경험이었다. 또한 발표를 준비하는 과정에서 영어 표현과 발음에 대한 부담도 컸지만, 보다 더 적극적으로 소통을 시도했다는 점에서 스스로 의미 있는 발전이라고 느꼈다. 영어 발표는 여전히 어렵지만, 앞으로 더 많이 연습하고 경험을 쌓아가야겠다는 생각이 들었다.

[청취 후기]

Time Series Forecasting on Electricity Consumption Using Ensemble Models of ARIMA and Machine Learning

해당 발표는 전력 소비량 예측이라는 실용적인 문제를 시계열 분석 관점에서 다룬 연구였다. 전력 소비량은 시간의 흐름에 따라 계절성, 추세, 외부 요인 등의 영향을 크게 받기 때문에 안정적인 예측이 중요한데, 본 연구는 전통적인 시계열 모델인 ARIMA와 머신러닝 모델을 결합한 ensemble 방식으로 이를 해결하고자 한 점이 인상적이었다.

특히 ARIMA는 시계열 데이터의 선형적 패턴과 추세를 잘 반영할 수 있고, 머신러닝 모델은 보다 복잡한 비선형 패턴을 학습할 수 있기 때문에, 두 방법을 함께 사용하는 방식이 전력 수요 예측과 같은 실제 문제에 효과적일 수 있겠다고 느꼈다. 하나의 모델만 사용하는 것보다 서로 다른 장점을 결합하여 예측 성능을 높이려는 접근이 실용적이면서도 설득력 있게 다가왔다. 또한 전력 소비량 예측은 에너지 관리, 전력 공급 계획, 비용 절감 등 다양한 산업적 활용 가능성이 크기 때문에 연구 주제 자체도 매우 현실적이라고 느꼈다. 복잡한 최신 모델만을 사용하는 것이 아니라, 비교적 해석이 가능한 전통적 모델과 머신러닝을 함께 활용했다는 점에서 실제 현장 적용 가능성도 높아 보였다.

이번 발표를 들으면서 시계열 예측 문제에서는 단순히 하나의 강력한 모델을 사용하는 것보다, 데이터의 특성에 따라 서로 다른 모델의 장점을 조합하는 방식이 중요할 수 있겠다는 점을 다시 생각하게 되었다. 전력과 같이 변동성이 크고 실제 활용도가 높은 데이터를 대상으로 이런 접근을 시도했다는 점에서 흥미롭게 들은 발표였다.

User-level Unlearning for Federated Large Language Models in Cross-silo Settings

해당 발표는 연합학습 기반 대형언어모델에서 user-level unlearning 문제를 다뤘다는 점에서 매우 인상적이었다.

기존 연구들이 주로 한 사용자의 데이터가 하나의 디바이스에만 있는 cross-device 환경을 가정한 반면, 본 연구는 실제 산업 현장과 더 가까운 cross-silo 환경을 고려했다는 점이 특히 흥미로웠다.

특히 한 사용자의 데이터가 여러 silo에 분산될 수 있기 때문에, 삭제 요청을 전체 시스템에 일관되게 반영해야 한다는 문제가 생각보다 훨씬 복잡하다는 점을 잘 보여주었다.

또한 unlearning을 단순한 삭제 문제가 아니라, 로컬 목적함수와 서버 집계를 함께 설계해야 하는 알고리즘 문제로 정식화한 점도 의미 있게 느껴졌다.

향후 연합학습과 개인정보 보호가 더욱 중요해질수록, 이런 연구가 실제 적용 가능한 unlearning 방법론과 벤치마크의 기반이 될 수 있겠다고 생각했다.

Conference