- 2025년 4월 3일 오후 10:29
- 조회수: 152
INFORMATION
- 2025년 4월 4일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
Online Continual Learning(OCL)은 데이터가 실시간으로 연속적으로 주어지는 환경에서, 이전에 학습한 정보를 잊지 않으면서 새롭게 유입되는 데이터를 효과적으로 학습하는 것을 목표로 한다. 그러나 기존의 지도학습 기반 Continual Learning 방법론들은 제한된 자원 등의 현실적인 제약으로 인해 실시간 적용이 어렵다는 한계가 존재한다. 이번 세미나에서는 OCL에서 Gradient 정보를 기반으로 빠른 학습이 가능하면서도 Replay 기반의 방식으로 Catastrophic forgetting 문제를 해결하고자 하는 모델들에 대해 소개하고자 한다.
[1] Lopez-Paz, D., & Ranzato, M. A. (2017). Gradient episodic memory for continual learning. Advances in neural information processing systems, 30.
[2] Aljundi, R., Lin, M., Goujaud, B., & Bengio, Y. (2019). Gradient based sample selection for online continual learning. Advances in neural information processing systems, 32.
[3] Chaudhry, A., Ranzato, M. A., Rohrbach, M., & Elhoseiny, M. (2019), Efficient lifelong learning with a-gem. International Conference on Learning Representations (ICLR).
청취자 후기

이번 세미나는 online continual learning에 대해 진행되었다. Continual learning은 데이터가 계속해서 축적되고, 또한 새로운 클래스의 데이터가 지속적으로 등장하는 상황을 가정한다. 이 때, 가장 중요한 점은 이미 학습되어 탑재된 모델을 실시간으로 적용하기에는 업데이트 시간 문제가 있다는 것과 추가 학습 시 기존 데이터의 정보를 소실하는 catastrophic forgetting 문제가 있다는 것이다. 이 두 문제를 잘 해결하고자 한 것이 online continual learning이다.
GEM은 기존 데이터들의 gradient와 새로운 데이터의 gradient를 계산한 후, 새로운 데이터의 gradient가 기존 데이터와 충돌이 안 일어나도록 projection 시키는 과정이 주 요인이다. 그러나 일일히 gradient 충돌과 projection 연산이 필요하기 때문에, 이를 개선시키고자 A-GEM은 기존 데이터의 gradient들을 평균내어 계산량을 매우 감소시켰다. 결과적으로, 단순한 접근법이지만 이를 통해 비슷한 성능을 도출하면서 엄청난 효율성을 가져왔다. GSS는 충돌 검사 과정을 생략하기 위해, 기존 데이터의 메모리 버퍼에서 데이터를 잘 추출하자는 아이디어로부터 개발되었다. 버퍼 사이즈가 클수록 성능이 높아진다는 것을 보여주기는 했지만, 이것은 다른 방법론에도 당연한 현상이기 때문에 주요한 점인지는 크게 와닿지 않았다.
이번 세미나를 통해 online continual learning이 무엇인지와 기본적인 아이디어들에 대해서 알 수 있었다. 좋은 세미나를 준비하느라 고생한 시후형에게 고맙다는 말을 전하며 본 세미나 후기를 마친다.

이번 세미나는 Online Continual Learning(OCL)에 대해 진행되었다. 구체적으로, Class가 실시간으로 추가되는 상황에서 기존 정보를 잊지 않으면서 잘 학습할 수 있는 방법론들에 대해 소개한다. 그 중 Gradient Replay를 활용한 3가지 방법론을 소개한다. GEM은 가장 근본 논문으로, 새로운 데이터의 Gradient가 일부 샘플링한 기존 데이터의 Gradient와 유사해지도록 학습한다. 그러나, 이렇게 하면 계산량이 높기에, A-GEM에서는 모든 Gradient를 일일이 계산하는 것이 아닌 평균 Gradient와 비교한다. GSS는 Gradient를 통해 학습하기 보다는 애초에 Gradient를 통해 다양한 데이터를 뽑는 것에 의의를 둔다. 새로운 데이터와 Gradient가 상이한 데이터들을 함께 활용함으로써, 성능 향상을 달성했다.
본 세미나를 통해 OCL에 대해 처음 접할 수 있었다. 해당 방법론들은 오직 1Epoch으로 새로운 Class에 적응할 수 있다는 점이 꽤나 실용적이라는 생각이 들었다. 다만, 새로운 Class에 대해 학습하는 능력은 알겠으나, 이렇게 해도 기존 Class에 대한 지식이 보존 가능한지는 의문이 들었다. 오직 1Epoch만 업데이트 하기에, 정보 손실이 크지 않아 가능한건지 또는 소개하지 않은 다른 Term이 있는지 궁금하다. 유익한 세미나를 준비해준 안시후 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.