고려대학교 DMQA 연구실

Representation-based Continual Learning

2023년 6월 6일 오전 12:23
조회수: 14387

REFERENCES

[DMQA Open Seminar] Representation-based Continual Learning (Seokho).pdf

INFORMATION

2023년 6월 9일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

문석호

TOPIC

Representation-based Continual Learning

On-Line Video

OVERVIEW

요약 : 최근까지 딥러닝은 offline 상황에서 매우 우수한 성능을 보여주었다. 하지만, 현실 세계의 데이터는 순차적으로 수집되는 경우가 많으며, 시간이 지남에 따라 데이터의 분포도 변화한다. 그 결과, 현실 세계에서 모델을 새로운 데이터에 학습(fine-tune)시킬 때마다 기존 데이터에 대한 모델의 성능이 저하되는 catastrophic forgetting 현상이 발생한다. 이러한 문제를 해결하기 위해 representation, regularization, rehearsal, architecture 기반의 방법론들이 제안되었다. 이번 세미나에는 그 중에서 representation-based approach에 대해 살펴보도록 한다.

[1] Cha, Hyuntak, Jaeho Lee, and Jinwoo Shin. "Co2l: Contrastive continual learning." Proceedings of the IEEE/CVF International conference on computer vision. 2021.

[2] Madaan, Divyam, et al. "Representational continuity for unsupervised continual learning." International Conference on Learning Representations. 2022.

[3] Fini, Enrico, et al. "Self-supervised models are continual learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

청취자 후기

김성수

이번 세미나는 Representation Learning 기반의 Continual Learning 방법론에 대해 진행되었다. 일반적인 인공지능 모델은 과거 데이터로 잘 학습된 모델이 현재 데이터로 학습될 경우, 과거 데이터에 대한 역량을 잃어버린다. Continual Learning은 이러한 인공지능 모델의 한계를 지적하며, 과거 데이터에 대한 학습 능력을 지속적으로 유지하고자 한다. 이러한 Continual Learning은 다양한 접근방법이 있는데, 본 세미나에서는 대표적으로 Representation Learning 기반의 방법론 3가지를 소개한다.

3가지 방법론 모두 현재 Task에 대한 Loss와 과거 Task에 대한 Loss를 합하여 산출한다. 이때, 각 Loss를 구성하는 형태 그리고 아이디어가 조금씩 상이하다. 아래는 각 논문에서 주장하는 핵심 포인트를 정리하였다.
1) Co2L: 현재 Task에 대한 Loss는 SupCon을 기반으로 하며 현재 Task 데이터는 Positive Pair로, 과거 Task의 데이터는 Negative Pair로 설정하여 과거 Task에 대한 Overfitting을 방지한다. 또한 과거 Task에 대한 Loss는 현재 데이터와 과거 데이터의 유사도 기반의 Knowledge Distillation 형태를 활용한다. (이때 활용되는 과거 데이터들은 Memory Buffer에 저장된다고 한다.) 추가적으로, 현재 Task를 위해서는 현재 모델만 활용하고, 과거 Task를 위해서는 현재 모델과 과거 모델을 모두 활용한다.
2) LUMP: 이는 Label 정보를 활용하지 않는 구조이다. 이때 Mixup을 함께 활용하는데, 이를 통해 과거 데이터에서 현재 데이터에 도움이 되는 Representation을 Revisit 할 수 있는 효과를 얻는다.
3) CaSSLe: 해당 방법론은 과거 데이터를 기억하기 위한 Architecture로 SimSiam과 유사한 형태를 활용한다. 이전 Task에서 학습된 모델을 Target Network처럼 활용하고, 현재 Task의 모델은 Online Network처럼 활용한다. 이때, 이전 Task에서 학습된 모델에는 Gradient가 전달되지 않는다.

본 세미나를 통해 Continual Learning에 조금 더 가까워질 수 있었다. 개인적으로 LUMP의 실험결과에서 보여준 “Continual Learning에서는 지도학습보다 비지도학습 기반의 방법론이 더 효과적이다.”라는 부분이 인상깊었다. 이는 데이터의 레이블 정보보다 데이터의 본질적인 정보가 더 중요해서 그렇다고 한다. 사실 데이터의 레이블이란 가장 큰 정보라고 할 수 있는데, 이러한 정보를 무시하는 것이 더 좋다는 사실은 잘 납득은 되질 않는다. 추후 이러한 Continual Learning의 연구동향을 지속적으로 관찰해보고 싶다. 유익한 세미나를 준비해준 문석호 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

고병은

금일 세미나는 Representation-based Continual Learning에 대해서 진행되었다. Continual Learning이라는 개념을 과거 문석호 연구원의 세미나를 보면서 흥미롭게 들었던 기억이 있는데 정말 사람 같은 혹은 사람보다 뛰어난 AI가 되기 위해서는 꾸준하게 새로운 데이터나 상황을 학습하는 것이 필수적 이라는 점에서 공감하며 들을 수 있었다. 본문에서 총 3가지의 방법론을 소개하였는데 우선 첫번째인 CO2L은 지속적인 학습을 함에 따라 생기는 Catastrophic Forgetting 문제를 해결하기 위해서 Transferable Representations를 학습하는 것이 중요하다고 하고 이를 위해 Contrastive Learning을 활용하였다고 한다. Contrastive Learning을 활용하여 보다 이미지에서 본질적인 부분을 잘 추출하고 이를 학습하여 성능을 유지시키는데, 학습 과정에서 Memory Buffer를 사용하였기 때문에 과거 데이터를 학습에 사용할 수 있었고 성능이 더 높게나온 것 아닌가 라고 생각했다. 하지만 Memory Buffer만을 사용했을 때는 성능 향상이 없었다는 점에서 저자들이 주장하는 IRD/SupCon Loss가 상당히 유의미 했다는 것을 알 수 있었다. 두번째로 설명한 논문은 Unsupervised Continual Learning을 위한 연구였으며 LUMP(Lifelong Unsupervised Mixup)가 핵심 아이디어였다. LUMP는 Replay Buffer에 있는 데이터와 라벨링 되지 않은 데이터를 Mixup 하고, 이를 활용하면 강건한 Representations을 얻을 수 있다고 한다. 마지막은 CaSSLe이라는 방법론을 소개하였는데 Self-Supervised Leanring을 활용하였다. 중간에 Predictor를 사용한것이 흥미로웠다. 산업 현장에서는 Continual Learning이 필요한 경우가 굉장히 빈번하기 때문에 지속적으로 공부하고 싶은 분야인 것 같다. 이번 세미나를 통해서 Continual Learning 분야의 최신 연구가 어떻게 흘러가고 있는지 알 수 있어서 좋았다. 유익한 세미나를 준비해준 문석호 연구원에게 고맙다는 말을 전하며 세미나 후기를 마친다.

배진수

평생 지식을 습득하며 점점 지혜로워지는 인간의 특성을 모방한 딥러닝 개발을 위해 연구되고 있는 분야에 대해 세미나를 청취하였다. 새로운 데이터에 대한 지식을 얻기 위해서 가장 떠오를 방법으로 새 데이터에 대한 Fine-tuning이 존재한다. 하지만, 이는 새 데이터에 오버피팅 되어 기존 지식을 까먹기 쉽다. 기존 지식을 잊지 않으면서도 꾸준히 수집 되고 있는 데이터들의 신규 지식을 학습하기 위해, 여러 방식의 Continual Learning 알고리즘이 연구되고 있다. 오늘 세미나는 기존 및 신규 지식 학습 모두에 찰떡처럼 활용될 수 있는 특징 벡터를 학습하고 기존 Continual Learning 아이디어를 결합한 방식을 소개 받았다. 지도대조학습이 Continual learning에 적합한 특징 벡터 추출에 유리한 것을 처음 입증한 연구 소개부터, 비지도학습 방식의 첫 Continual learning 도입 연구까지 많은 양의 논문 리뷰를 본 세미나에서 받을 수 있다. 레이블 정보를 활용하지 않고 데이터 자체에 내재된 General 특징 벡터를 학습하는 것은 정말 중요하고, 이(좋은 특징 벡터)는 결국 어느 태스크에 갖다 붙이던 좋은 성과로 이어지는 것을, 비지도학습 계열의 Continual 알고리즘이 지도학습 계열의 Continual 알고리즘보다 좋은 성능을 내고 있음에 다시 한번 느낄 수 있었다 (비지도대조학습+Continual 알고리즘 성능 > 지도대조학습+Continual 알고리즘 성능). 좋은 세미나를 준비하느라 고생하신 석호형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

심세진

이번 세미나는 Representation-based Continual Learning (CL)를 주제로 진행되었다. CL은 학습되지 않은 데이터에 대해 예측할 시 성능이 저하되는 한계점이 해결하기 위해 새로운 데이터 분포나 task에 효과적으로 적응 및 학습하는 것을 목적으로 한다. CL 내에 다양한 방법론들이 있는데 Representation을 기반으로 하는 방법론들에 대해 소개되었다.

첫 번째 소개된 논문은 CO^2L로 기존 지식을 보존하는 것 보다는 전이 가능한 표현을 학습하는 것이 더 중요하다고 주장하였다. 이를 위해 Supervised 대조학습인 사용하였다. 메모리 버퍼를 사용해서 과거 데이터를 보관하여 배치 내에 current task sample과 past task sample이 섞여서 존재하며 과거 샘플을 negative sample로 두어 대조학습을 진행하였다.

두 번째 소개된 논문은 LUMP로 unsupervised continual learning을 해결하기 위한 방법론으로 믹스업 데이터를 통해 강건한 표현을 얻을 수 있다고 주장하였다. 지도 CL 보다 비지도 CL이 성능이 우수함을 실험결과 보여주었다.

세 번째 소개된 논문은 CaSSLe로 CL에서 자가지도학습을 사용하는 방법론으로 Current task loss를 자가지도학습으로 학습하고 past/current loss를 prediction network를 통해 학습하는 구조로 이뤄져 있다.

CL의 개념은 처음 접하고 생소했는데 해당 세미나를 통해 주요한 연구 주제임을 알 수 있었다. 모델 구축을 하여 좋은 성능을 도출하는 것에 그치는 것이 아니라 향후에도 계속 학습이 되어야 하는 관점에서 주요한 주제이고 공부해보고 싶다는 생각이 들었다. 자가지도 학습에서 좋은 성능을 보이는 최신 방법론들을 도입하여 디벨롭 시키고 성능을 입증하는 것이 인상 깊었다. 유익한 내용의 세미나를 해준 문석호 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.

허종국

지난 석호형 세미나에서는 개략적인 Continual Learning과 그 부류에 대해 알아보았다면, 이번 세미나에서는 지난 세미나에서 다루지 않았던 Representation-based Continual Learning에 대해 살펴보았다. 세미나를 쭉 듣고 난 생각은 'Continual Learning도 결국은 일반화라는 관점에서 Self-Supervised Learning과 같은 문제를 풀고자 하는 것 아닌가?' 였다. 금일 소개된 Co2L, LUMP, CaSSLe 모두 Continual Learning에 국한된 어떠한 방법론이기보다, SSL을 통해 학습된 모델은 전반적인 데이터 특징을 잘 추출할 수 있기 때문에, Continual Learning에 쓸 수 있다에 초점이 있다. 세 방법론 모두 Current Task에 대해 어떠한 SSL 방법의 Loss를 쓰고, 이전 태스크의 정보 보존을 위해 Distillation Loss를 Auxiliary하게 추가한 것이 공통점이다. 셋 중 Implementation 측면에서 보았을 때, Co2L은 Contrastive Learning 기반이기 때문에 컴퓨팅 파워에 제약이 많을 것 같다. 이 후 나온 LUMP와 CaSSLe은 Negative Sample이 필요 없는 Distillation-based/Information-maximization 기반의 SSL을 접목하였기 때문에 성능 차이가 별로 없다면 후자의 방법론이 좀 더 확장성있게 쓸 수 있지 않을까라고 생각한다. 세미나를 준비하느라 고생한 석호형에게 감사의 말을 전한다.