고려대학교 DMQA 연구실

Machine Unlearning: How to make AI model forget?

2025년 7월 17일 오후 9:26
조회수: 961

REFERENCES

[250718] DMQA_Open_seminar_Machine Unlearning How to make AI model forget.pdf

INFORMATION

2025년 7월 18일
오후 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

심세진

TOPIC

Machine Unlearning: How to make AI model forget?

On-Line Video

OVERVIEW

요약: 최근 개인정보보호 규제 및 AI 모델 윤리 문제가 대두되면서 학습된 모델에서 특정 정보를 선택적으로 제거하는 Machine Unlearning(머신 언러닝)의 필요성이 증가하고 있다. 잊고자 하는 데이터를 제외하고 처음부터 모델을 다시 학습하는 방법도 있지만 이 방법은 막대한 계산 비용으로 인해 효율적이지 않아, 효율적인 언러닝 방법론 연구가 최근 활발히 진행되고 있다. 본 세미나에서는 머신 언러닝의 개념과 고전적인 방법론들에 대한 간단한 설명을 제공하고, 마지막으로 최근 Large Language Model(LLM) 분야에서 머신 언러닝을 다룬 연구를 소개하고자 한다.

참고자료:

[1] Nguyen, T. T., Huynh, T. T., Ren, Z., Nguyen, P. L., Liew, A. W. C., Yin, H., & Nguyen, Q. V. H. (2022). A survey of machine unlearning. arXiv preprint arXiv:2209.02299.

[2] Bourtoule, L., Chandrasekaran, V., Choquette-Choo, C. A., Jia, H., Travers, A., Zhang, B., ... & Papernot, N. (2021, May). Machine unlearning. In 2021 IEEE symposium on security and privacy (SP) (pp. 141-159). IEEE.

[3] Cadet, X. F., Borovykh, A., Malekzadeh, M., Ahmadi-Abhari, S., & Haddadi, H. (2024). Deep Unlearn: Benchmarking Machine Unlearning. In EuroS&P 2025.

[4] Eldan, R., & Russinovich, M. (2023). Who's Harry Potter? Approximate Unlearning in LLMs. arXiv e-prints, arXiv-2310.

청취자 후기

김성수

이번 세미나는 Unlearning에 대해 진행되었다. Unlearning은 학습된 모델에서 특정 정보를 지울 수 있는 방법론이다. 데이터 단위에서는 해당 데이터만 삭제 후 학습하면 되지만, 학습된 모델에서는 어떻게 해야 할 지 쉽게 감이 오지 않는다. 이를 학습된 모델 수준에서 극복하고자 하는 분야가 바로 Unlearning이다. 해당 갈래는 크게 Exact (정확하게 잊기)와 Approximate (정확한 것만큼 근사해서 잊기)로 구분 가능하다. Exact는 모델을 데이터셋 소분류 단위로 학습한 후, 해당 모델들의 예측 결과를 앙상블한다. 즉, 특정 데이터를 삭제하고 싶다면, 해당 데이터로 학습된 모델만 삭제한다. 그러나, 향후 삭제하고 싶은 데이터의 항목을 미리 구분하기는 어렵고, 구분 기준은 굉장히 다양하기에 쉽게 활용하기는 어려울 것이다. 이에 따라 최근에는 Approximate 방법론을 많이 활용한다. 이는 삭제하고 싶은 데이터만 배제하고 미세 조정하거나, 삭제하고 싶은 데이터에 대해 패널티를 부과한다. 본 세미나에서는 Harry Potter 논문을 예시로 들었는데, 일반적인 LLM과 Harry Potter에 대해 집중 학습(?)된 LLM의 Output을 비교하여, 실제로 예측 Logit에 차이가 큰 단어들에 대해서 패널티를 주며 학습한다고 한다. 다만 이러한 단순한 원리는 Harry Potter에서는 안 쓰이지만 “일반적인 LLM”에서 많이 활용되는 단어들도 패널티를 받지 않을까? 라는 걱정이 들었다. 또한, 이러한 Unlearning을 학습 없이 할 수 있는지에 대해서도 궁금해지는 세미나였다. 새로운 분야를 소개해준 심세진 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

Seminar