- 2025년 7월 17일 오후 9:26
- 조회수: 1641
INFORMATION
- 2025년 7월 18일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)
심세진
TOPIC
On-Line Video
OVERVIEW
요약: 최근 개인정보보호
규제 및 AI 모델 윤리 문제가 대두되면서 학습된 모델에서 특정 정보를 선택적으로 제거하는 Machine Unlearning(머신 언러닝)의 필요성이 증가하고
있다. 잊고자 하는 데이터를 제외하고 처음부터 모델을 다시 학습하는 방법도 있지만 이 방법은 막대한
계산 비용으로 인해 효율적이지 않아, 효율적인 언러닝 방법론 연구가 최근 활발히 진행되고 있다. 본 세미나에서는 머신 언러닝의 개념과 고전적인 방법론들에 대한 간단한 설명을 제공하고, 마지막으로 최근 Large Language Model(LLM) 분야에서
머신 언러닝을 다룬 연구를 소개하고자 한다.
참고자료:
[1] Nguyen, T.
T., Huynh, T. T., Ren, Z., Nguyen, P. L., Liew, A. W. C., Yin, H., &
Nguyen, Q. V. H. (2022). A survey of machine unlearning. arXiv preprint
arXiv:2209.02299.
[2] Bourtoule,
L., Chandrasekaran, V., Choquette-Choo, C. A., Jia, H., Travers, A., Zhang, B.,
... & Papernot, N. (2021, May). Machine unlearning. In 2021 IEEE symposium
on security and privacy (SP) (pp. 141-159). IEEE.
[3] Cadet, X. F., Borovykh, A., Malekzadeh, M., Ahmadi-Abhari, S., & Haddadi, H. (2024). Deep Unlearn: Benchmarking Machine Unlearning. In EuroS&P 2025.
[4] Eldan, R., & Russinovich, M. (2023). Who's Harry Potter? Approximate Unlearning in LLMs. arXiv e-prints, arXiv-2310.
청취자 후기
김성수
이번 세미나는 Unlearning에 대해 진행되었다. Unlearning은 학습된 모델에서 특정 정보를 지울 수 있는 방법론이다. 데이터 단위에서는 해당 데이터만 삭제 후 학습하면 되지만, 학습된 모델에서는 어떻게 해야 할 지 쉽게 감이 오지 않는다. 이를 학습된 모델 수준에서 극복하고자 하는 분야가 바로 Unlearning이다. 해당 갈래는 크게 Exact (정확하게 잊기)와 Approximate (정확한 것만큼 근사해서 잊기)로 구분 가능하다. Exact는 모델을 데이터셋 소분류 단위로 학습한 후, 해당 모델들의 예측 결과를 앙상블한다. 즉, 특정 데이터를 삭제하고 싶다면, 해당 데이터로 학습된 모델만 삭제한다. 그러나, 향후 삭제하고 싶은 데이터의 항목을 미리 구분하기는 어렵고, 구분 기준은 굉장히 다양하기에 쉽게 활용하기는 어려울 것이다. 이에 따라 최근에는 Approximate 방법론을 많이 활용한다. 이는 삭제하고 싶은 데이터만 배제하고 미세 조정하거나, 삭제하고 싶은 데이터에 대해 패널티를 부과한다. 본 세미나에서는 Harry Potter 논문을 예시로 들었는데, 일반적인 LLM과 Harry Potter에 대해 집중 학습(?)된 LLM의 Output을 비교하여, 실제로 예측 Logit에 차이가 큰 단어들에 대해서 패널티를 주며 학습한다고 한다. 다만 이러한 단순한 원리는 Harry Potter에서는 안 쓰이지만 “일반적인 LLM”에서 많이 활용되는 단어들도 패널티를 받지 않을까? 라는 걱정이 들었다. 또한, 이러한 Unlearning을 학습 없이 할 수 있는지에 대해서도 궁금해지는 세미나였다. 새로운 분야를 소개해준 심세진 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
김수림
이번 세미나에서는 Machine Unlearning에 대해 소개되었다. 최근 대규모 데이터로 모델을 학습시키는 과정에서 데이터 프라이버시가 중요해지며, 특히 잊혀질 권리(right to be forgotten)가 핵심 문제로 대두되고 있다. 단순히 데이터를 삭제하는 것은 가능하지만 이미 해당 데이터를 통해 학습된 모델 내부의 지식을 제거하는 것은 쉽지 않으며, 이를 위해 모델을 처음부터 재학습하는 것은 막대한 시간과 비용이 소요된다. 이러한 문제를 해결하기 위한 접근이 바로 Machine Unlearning이다.
Machine Unlearning은 크게 Exact 방식과 Approximate 방식으로 구분된다. Exact 방식은 모델 학습 단계에서 데이터를 여러 부분으로 나누어 앙상블 형태로 구성한 뒤, 특정 데이터에 대한 삭제 요청이 발생하면 해당 데이터를 포함해 학습된 서브모델만 제거하고 나머지를 재조합하는 방식이다. Approximate 방식은 완전한 삭제 대신에 언러닝된 모델과 유사한 성능을 유지하면서 특정 데이터를 ‘잊도록’ 만드는 접근이다.
Approximate 방식은 대표적으로 세 가지 방법이 소개되었다. 첫째, 미세조정(fine-tuning)을 통해 삭제 대상 데이터를 제외한 나머지 데이터로 여러 epoch 재학습하여 해당 정보를 점진적으로 약화시키는 방법이다. 둘째, 경사 상승(gradient ascent)을 활용하여 forget set에 대해 모델의 손실을 증가시키도록 학습시켜 해당 데이터를 의도적으로 잘 맞추지 못하게 만드는 방식이다. 셋째, 연속적 무작위 레이블(random relabeling)을 적용하여 forget set에 대해 잘못된 레이블을 부여함으로써 모델이 해당 정보를 혼동하도록 유도하는 방법이다.
세미나에서는 이러한 방법들을 직관적으로 이해할 수 있도록 'Who’s Harry Potter? Approximate Unlearning in LLMs' 논문이 소개되었으며 이를 통해 Machine Unlearning의 개념과 적용 방식을 보다 쉽게 이해할 수 있었다. 앞으로 Foundation Model이 더욱 발전함에 따라 데이터 프라이버시 문제의 중요성 또한 계속해서 커질 것으로 예상된다.
새로운 연구 분야를 쉽고 흥미롭게 설명해주신 심세진 연구원님께 감사드리며 본 세미나 후기를 마친다.