- 2023년 3월 2일 오후 11:11
- 조회수: 13279
INFORMATION
- 2023년 3월 3일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
대량의 레이블이 없는 데이터(Unlabeled Data)를 활용해 특징 추출기(Feature Extractor)를 사전 학습하는 자가지도학습(Self-Supervised Learning, SSL)이 각광을 받고 있다. 기존의 SSL 방법론은 Pretext Task, Contrastive Learning, Clustering, Distillation 기반으로 분류할 수 있다. 하지만 기존 SSL 방법론들은 의미있는 정보를 추출하기 위해 대량의 Negative Sample이 필요하거나, Stop Gradient, Batch Normalization, Target Encoder 등의 다양한 트릭을 요구하였다. 최근 등장하는 Information Maximization 기반 SSL 방법론은 이러한 트릭들 없이 의미있는 정보를 추출할 수 있는 것으로 알려져있다. 본 세미나에서는 최근 등장한 Information Maximization 기반 SSL 방법론들인 Barlow Twins, W-MSE, VICReg를 소개하고자 한다.
[3] Bardes, A., Ponce, J., & Lecun, Y. (2022, April). VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning. In ICLR 2022-10th International Conference on Learning Representations.
발표자 후기

Pretext Task 이후, Contrastive Learning, Distillation, Clustering 기반 다양한 SSL 방법론들이 쏟아져 나왔다. 이후 또 나올게 뭐가 있을까라고 생각하기 무섭게 Redundancy Reduction을 최소화하는 방향으로 사전 학습하는 Barlow Twins가 등장하였다. 이후 OBoW, W-MSE, VICReg, VICRegL 등 다양한 Information Maximization 계열의 알고리즘들이 줄을 지어 나타났다. 기존 SSL 대비 굉장히 간결하고 메모리부담도 적고, 실제로 구현함에 있어서도 어려움이 없기 때문에 해당 방법론들 중 대표적인 알고리즘 3개에 대해 공유해주고 싶었다. 다소 어조나 말하는 속도 등의 완급을 조절하며 기깔나게 발표하고 싶었는데 생각보다 쉽지 않았다. 세미나 녹화본을 들으며 발음이 뭉개진 부분이 신경쓰여 몇번이나 재녹화했는데 그래도 살짝 아쉬웠다. 녹화하다가 자꾸 교정 장치에 혀가 베여서 어쩔수가 없었다. 언제쯤 적응될지 모르겠다.
청취자 후기

이미지 데이터 분석을 위한 자가지도학습에 관한 세미나를 청취하였다. 4가지 핵심 아이디어(Pretext Task, Contrastive Learning, Distillation, Clustering)를 기반한 기존 중요 알고리즘들의 연구 발전 흐름도에 대해 리뷰 받을 수 있어서 유익하였다. 앞선 4가지 계열의 방법론의 단점들을 극복한 Information Maximization 기법들이 오늘 세미나 메인 아이템이었는데, Feature Vector 안의 여러 정보들이 중첩되어 있지 않고 독립적인 정보들로 구성되어 있어야 좋은 특징을 학습했다고 가정한 방법론들이었다. 좋은 데이터의 특징은 어떤 특성을 갖고 있을까에 대한 물음의 답과 같다고 생각이 들어, 자가지도학습말고도 다른 딥러닝 알고리즘들에서 고려할만한 방법이라 생각했다. Cross-Correlation Matrix 대각/비대각 성분 고려, Collapse 방지를 위한 Scattering(Whitening Transformation), Invariance+Variance+Covariacne Loss 등 핵심 아이디어들 모두 세미나에 잘 소개되어 있어 큰 어려움 없이 잘 이해가 되었다. 좋은 세미나를 준비하느라 많이 고생했을 종국이에게 감사의 말을 전하며, 세미나 후기를 마치도록 한다.

SSL 방법론의 발전은 굉장히 빠르고 급격하게 진행되는 것 같습니다. 출판된지 2년 내외의 논문임에도 인용 수가 3자리 인 것을 보면 많은 연구원들이 이 분야에서 노력하고 있고 그 결과로 굉장히 빠른 속도로 발전되는 분야임을 느낄 수 있었습니다.
오늘은 기존 SSL을 이끌었던 pretext task, contrastive learning, clustering, distillation 방법의 단점을 개선한 information maximization(이하 IM) 방법론이 소개되었습니다. IM의 특징은 Barlow 박사가 언급한 "The goal of sensory processing is to recode highly redundant sensory inputs into a factorial code, a code with statistically independent components." 문장에 잘 표현되어 있다고 생각합니다. 이러한 개념을 구현하기 위해 오늘 소개된 알고리즘들은 이미지를 초평면에 projection할 때 같은 부모에서 파생된 positive sample는 가깝게 두어 정보의 중복이 줄어들게 유도합니다. 또한 다른 부모의 sample과는 독립적인 정보를 나타내기 위해 projector를 covariance나 상관 관계와 같이 이미지의 관계를 나타내는 척도를 정의하고 이 척도가 작아지도록 학습시키는 특징을 가지고 있습니다.
positive sample만을 사용하는 특징으로 인해 IM 알고리즘이 신경을 쓴 부분은 collapsed representation 현상입니다. W-MSE는 whitening transform을 통해, VICReg는 Invariance/Covaricance 정규화 등을 통해 이를 효과적으로 제어하였습니다.
이번 IM 소개를 통해 개인적으로 반가운 점은 SSL의 구조가 간소화되면서 실무에도 적용 가능한 알고리즘으로써 기대할 수 있게 된 점입니다. 그 동안 상당한 augmentation pair 조합의 연산을 요구했기 때문에 SSL의 학습은 꽤 지루한 과정이었습니다. 이미지 커뮤니티는 어쩌면 오늘날 AI의 발전을 일으킨 핵심 도메인이라고 말할 수 있는 데 이미지는 다른 데이터 종류에 비해 용량이 비교적 크고 요구되는 샘플 수도 적지 않아서 현업에서는 적용하기 어려운 경우도 제법 많았습니다. 조만간 실생활에서도 SSL을 통해 적은 샘플 수 만으로도 완성도 있는 AI 응용 사례를 만날 수 있기를 기대합니다. 기존 세미나까지 관련 링크를 정리하여 SSL에 쉽게 다가갈 수 있도록 준비하느라 정말 고생 많으셨습니다.

이번 세미나는 Information Maximization(IM) 계열의 자기지도학습(SSL) 방법론에 대하여 진행되었다. 처음 딥러닝 공부를 시작할때만 해도 유명한 방법론(SimCLR, BYOL, ...)들의 논문을 읽고 이해할 수 있는 실력만 되면 좋겠다라는 목표를 가졌었던 기억이 난다. 그리 많은 시간이 흐르지 않았지만 벌써 그 유명했던 방법론 이후에도 다양한 논문들이 나와 정말 굉장히 빠른 속도로 이미지 분석을 위한 방법론이 발전하고 있다는것을 새삼 느낄 수 있었다. 세미나에서 이전 SSL방법론들에 대해서 간략하게 소개하고 각 방법론이 가지고 있는 한계점에 대해 짚어주었는데 다양한 방법론들을 정리하고 복습도 되어 굉장히 유익하게 들을 수 있었다. 이이서 IM의 개념을 설명하였는데 쉽게 설명하여 단번에 어떤 의미인지를 이해할 수 있었다. 이어서 Barlow Twins/W-MSE/VICReg 방법론을 설명하였고 각 방법론이 어떻게 독립적인 Feature를 잘 뽑아내는지를 확인할 수 있었다. 특히 상관관계를 통해서 Matrix를 만드는 과정은 처음에 이해되지 않아 몇번 돌려봤다. 재밌게도 상관관계를 비교하는 과정을 보면서 지난번 백인성 연구원님이 진행하였던 세미나 내용중 CC(Contrastive Clustering) 방법론 설명에서 이해되지 않았던 부분도 이해할 수 있었다. 여러 과정을 통해 추출되어지는 Feature를 다시 한번 규제하여 더 좋은 Feature를 만들도록 하는것을 보면서 굉장히 좋은 아이디어라는 생각이 들었다. 단계적/체계적으로 기존방법론과 새로운 방법론을 잘 설명하여 많은 도움이 되는 세미나였던것 같다. 좋은 세미나를 준비하느라 고생한 허종국 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Self-Supervised Learning Methods for Information Maximization에 대하여 진행을 하였다. Self-Supervised learning의 아이디어 중 pretext task, contrastive learning, clustering, distillation 방법에 대하여 간단한 설명을 해주고 해당 방법들의 단점들에 대하여 짚어준다. 이를 극복할 수 있는 Information Maximization Methods 에 대해서 설명을 해준다. Information Maximization Methods는 동일한 이미지에서 나온 상호 정보를 최대화하도록 학습하는 방법론이다. 즉 정보의 중복을 최소화 하고 중첩되지 않도록 학습을 한다는 것이다. 해당 방법론에 관련하여 BarlowTwins, W-MSE, VICReg 3가지 방법론을 소개해준다.
BarlowTwins는 Cross-Correlation을 감소시켜 Redundancy reduction을 해결하였고, W-MSE는 Whitening Transform을 통해 데이터를 흩어지게 하여 Negative sample 없이 Collapse를 방지한다. VICReg는 Variance,Invariance,Covariance regularization term을 활용하여 Collapse 방지와 Redundancy reduction을 수행한다. 특히 regularization term들을 활용한 부분에서 regularization의 제어 역할이 성능에 얼마나 큰 영향을 미치는지 배울 수 있었다. Variance Term은 embedding vector의 성분의 분산 특정 임계값 보다 크게 하여 constant vector가 산출되는 것을 방지, Invariance Term은 동일한 이미지에 대한 embedding이 같아지도록 하고, Covariance Term embedding 성분간의 상관성을 줄여 정보중복을 감소하도록 하는 역할을 한다.
이번 세미나를 통해서 SSL의 발전이 매우 빠르게 진행되고 있는 것을 깨달았다. 또한 세미나 중간중간에 내용과 관련된 세미나를 선택을 해주어서 이전 세미나를 시청 후 다시 본 세미나를 들음으로써 세미나를 이해하는데 도움이 되었다. SSL분야에 대해서는 아직 진행해본 연구는 없지만 해당 세미나를 통해서 최신 연구의 방향성을 자세히 배울 수 있었다. 유익한 세미나를 준비해준 허종국 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 자기지도학습 방법론 중 Information Maximization 방법론에 대해 진행되었다. 최근 자기지도학습의 흐름을 보면 Pretext Task를 정의하는 것에서 시작하여 Contrastive Learning, Non-contrastive Learning(Distillation, Clustering 등)으로 발전해왔다. Pretext Task의 경우 문제를 휴리스틱하게 다시 정의하므로 일반화 성능이 떨어질 수 있다는 한계를 갖고, Contrastive Learning은 Negative Sample을 활용하므로 메모리 등 컴퓨터 자원에 영향을 줄 수 있으며, Non-Contrastive Learning 방법론들은 구조적 제한을 갖는다. 이러한 배경 속에서 Information Maximization 기반 방법론들은 Negative Sample을 활용하지 않고, 휴리스틱한 알고리즘을 따로 정의하지 않으며, 구조적으로도 단순한 방법론이라고 할 수 있다.
본 세미나에서는 이러한 Information Maximization 방법론 3가지를 소개한다. 먼저 Barlow Twins는 중복된 정보를 최소화하고자 하는 아이디어에서 출발한다. 이는 자기자신과 상관관계를 가지며, 다른 벡터와 상관관계는 없어지도록 각 임베딩 벡터들의 Cross Correlation Matrix가 Identity Matrix가 되도록 학습한다. 두번째는 W-MSE다. 이는 중복되는 정보를 최소화하고, 두 증강된 객체가 유사해지도록 학습한다. 이때, Whitening이라는 기법을 활용하는데, 논문에는 데이터를 흩뿌려 학습 붕괴를 막아주는 효과를 갖는다고 한다. 세번째는 VIC-Reg이다. 이는 Variance, Invariance, Covariance 규제를 모두 활용한다. Variance는 임베딩 벡터들의 분산이 특정값보다 커지게 하여 학습 붕괴를 막아주며, Invariance는 유사한 객체는 서로 유사해지도록 학습한다. 또한 Covariance는 앞선 두 방법론처럼 중복되는 정보를 최소화하는 기능을 수행한다.
본 세미나를 통해 Information Maximization 방법론들에 대해 접할 수 있었다. 이들의 공통점은 중복되는 정보를 최소화한다는 관점이다. 개인적으로는 중복되는 정보를 최소화하여 Encoder를 학습하는 것이 Encoder의 성능을 올릴 수 있다는 것이 참신하게 다가왔다. 정보가 많으면 당연히 더 유리하다고 생각하였는데, 내가 갖고 있던 고정관념을 깨뜨렸다. (“오히려 중복되는 정보가 새로운 정보를 가릴 수 있다” -> 개인적으로 20p 장표 설명이 정말 와닿았다.) 아직까지 개인적으로 W-MSE의 Whitening이 어떤 기법인지 그리고 왜 그러한 수식이 효과를 갖는지 잘 이해하지 못했다. 추후 해당 부분은 논문을 보며 어떤 개념인지 이해해보고 싶다. 유익한 세미나를 준비해주신 허종국 연구원님께 감사하다는 말을 전하며 세미나 후기를 마친다.

해당 세미나는 Information Maximization을 위한 Self-supervised Learning Method(SSL)에 관련한 내용이었다. 실제 Data에는 Labeled 보다
Unlabeled Data가 많으므로, Unsupervised 방법론에 대해 알아보고 싶은 생각이 많았는데 해당 세미나는 이미지 관련 SSL 중 Previous SSL과 최근에 각광받고 있는 SSL방법론들에 대해 설명해주어 아주 유익하였다. 사실 SSL에 대해 공부가 부족한 상태라 처음 들었을 때 이해가 잘 되지 않아 소개된 Previous SSL(Pretext Task/Contrastive Learning/Distillation/Clustering)에 대해 공부하고 다시 한번 더 청강하였다. 그러고 나니 세미나가 더욱 흥미로워졌다.
세미나에 따르면 기존 SSL 방법론은 휴리스틱을 이용해 Task를 정의하기 때문에 Representation vector의 일반성이 제한되어 이와 상관없이 객체를 잘 표현할수 있는 방법론들이 등장하게 되었다고 한다. 그 중 Contrastive Learning 방법론은 이미지에 서로 다른 데이터 증강기법을 적용해도 이미지의 본질이 변하지 않는다는 것에 기반한 방법론으로 Cosine Similarity를 이용하는데 좋은 성능을 위해 1) 대량의 Negative sample을 필요로 하여 메모리 이슈가 있으며, 2) False Negative 문제가 발생한다.
이를 해결하기 위한 방법론들이 등장하였는데 Distillation 방법론은 Positive Sample만을 이용하여 학습하며 Collapse를 방지하기 위해 비대칭적 구조나 배치 정규화를 통해 해결하고 있다. Projection vector 추출 후 Online Network 대비 Target Network는 Gradient가 아닌 EMA를 통해 업데이트를 함으로써 Collpase를 방지하는 것이다. 이는 Negative를 활용하지 않음으로써 1)의 메모리 이슈는 해결할 수 있지만 모델 구조적 제약이 발생하는 단점이 있다.
또한 Clustering 방법론을 통해 2)의 False Negative문제를 해결하였는데, Feature vector에 대해 비슷한 이미지끼리 같은 Cluster로 할당되도록 K-means clustering을 수행하며 cross entropy를 최소화하며 classification한다. 이는 Instance discrimination 기반이 아니므로 False Negative 문제가 적다. 그러나 많은 Negative sample을 필요로 하기 때문에 1)과 같은 메모리 이슈가 발생한다.
따라서 세미나에서는 앞선 기존 SSL의 문제들을 해결하기 위해 새로운 SSL방법론인 동일한 이미지에서 나온 상호 정보를 최대화하도록 학습하는 방법론인 Information Maximization 계열의 Barlow Twins, W-MSE, VICReg에 대해 설명하고 있다.
먼저, Barlow Twins 방법론은 제한된 크기의 Representation vector에서 정보의 중복을 감소시키는데 각 요소별 상관관계를 줄이는 것이 목표라 할 수 있다. 서로 다른 증강기법을 이용한 데이터에서 Cross-Correlation Matrix를 만들고 그게 identity matrix에 근접하도록 학습시킨다. 학습시킬때 이미지 증강기법에 상관없이 동일한 정보를 인코딩하고 임베딩 벡터의 서로 다른요소는 독립적인 정보를 인코딩하도록 한다. 이로써 기존 SSL 방법론들이 제안했던 트릭없이 단순한 구조로 높은 성능을 나타낼 수있다. 또한 특이한 점은 Representation vector의 차원보다 Projection vector의 차원이 더 큰데, 더 클수록 전이학습 성능이 향상되는 것이 확인된다.
W-MSE 방법론은 Whitening transform을 통해 데이터를 흩뿌린 후 MSE를 통해 같은 객체로부터나온 Positive vector간의 차이를 최소화 하고자 한다. 이를 통해 Collapsed 문제를 방지할 수 있고 Negative 샘플없이 데이터를 흩뿌릴 수 있기 때문에 메모리 용량을 줄일 수있으며 Multi-positve 샘플 간의 비교가 가능하다. 추가적으로 성능을 올리기 위하여 배치 슬라이싱을 통해 파라미터를 구한 후 별도로 Whitening해서 학습 안정성을 높이기도 한다.
마지막으로, VICReg 방법론은 단순한 MSE함수에 2가지 규제함수(Variance/Covariance)를 추가하여 collapse문제를 방지하고 의미있는 Reprsentation vetctor를 추출한다. Invariance 규제화만 이용할 경우 Collapse를 야기할 수 있어 Variance 규제화를 통해 특정 임베딩 차원에 대한 분산이 임계값보다 커지도록 하고, 임베딩 벡터들이 동일한 값을 가지는 벡터로 매핑되는 collapse를 방지한다. 또 Covariance 규제화를 통해 각 인코더에서 나온 임베딩 벡터의 개별 컴포넌트간 공분산 최소화하고 각 임베딩 차원이 동일한 정보를 인코딩하는것을 방지한다.
그렇다면, 인코더의 임베딩 벡터의 상관관계를 계산하는 Barlow Twins와 VICReg간의 차이점은 무엇일까?
세미나에 의하면, Barlow Twins는 서로 다른 인코더에서 나온 임베딩 벡터간의 Cross Correlation을 계산하는 거라면, VICReg는 각각의 인코더 별로 임베딩 벡터의 상관관계를 계산하기 때문에 Muti-Modal 학습의 경우 인코더 별로 규제화 하기때문에 각 인코더의 Modality가 다르거나 혹은 통계량이 달라도 사용이 가능한 장점을 가지고 있다고 한다. VICReg는 인코더의 구조가 같든 다르든 Weight를 쉐어링 할 수 있으므로 구조적 제약이 다르고, 다른 SSL에도 추가하여 부가적인 성능을 기대할 수 있다고 한다.
금번 세미나를 통해 다양한 SSL 방법론을 알려주시고, 그를 위해 알찬 내용을 준비하시느라 고생하신 허종국 연구원님께 깊은 감사를 드린다. 허종국 연구원님 덕분에 그동안 잘 모르고 있던 SSL 방법론들에 대해 공부할 수 있는 시간을 갖게 되어 의미 깊었다. 처음 쓰는 후기라 후기라기 보단 세미나 요약에 가까운 것 같지만, 앞으로는 많이 공부하여 후기다운 후기를 쓸 수 있게 되길 기대해보며 마무리하겠다.

이번 세미나는 자가지도학습에 대한 소개와 기존 연구들, 그리고 Information Maximization 방법론들에 대해 소개해주었다. 레이블된 데이터를 확보하기 매우 어려운 상황 속에서 자가지도학습에 대한 연구들이 활발하게 진행되고 있는데 이에 대한 기존 연구들은 크게 pretext task, contrastive learning, distillation, clustering 으로 나누어 볼 수 있다. 이러한 방법론들은 메모리 비효율성 혹은 구조적 제약을 필요로 한다는 문제점이 존재한다. Information Maximization 방법론들은 이러한 문제점들을 해결해주었고 본 세미나에서는 그 중 BarlowTwins, W-MSE, VICReg 세 가지 방법론들에 대해 설명해주었다.
BarlowTwins는 인코더간의 cross-correlation matrix를 사용하였고 많은 트릭 없이 단순한 구조로 좋은 성능을 도출했다. 기존의 메모리 문제가 해결되었기 때문에 Projection vector의 차원을 보다 키울 수 있고, 이것을 더 키울수록 더 좋은 성능을 도출했다. W-MSE는 Positive-Negative 비교가 필요 없기 때문에 Multi-Positive sample간의 비교가 가능해졌고 whitening을 통해 redundancy reduction과 collapse prevention 효과를 얻을 수 있었다. 또한 sub-batch별로 parameter(u, W)를 설정하여 별도로 whitening하는 작업을 통해 학습의 안정성까지 확보할 수 있었다. VIGReg는 Varaince/Invariance/Covariance Regularization 기법들을 사용했고 각 인코더에서 나온 embedding variable 간의 상관 관계를 계산한다는 점이 어떻게 보면 BarlowTwins와 헷갈릴 수 있지만 명백히 다른 점이라 할 수 있다. 각각의 Regularization term들을 가중합하여 최종 loss 식을 정의하여 학습이 이루어진다.
아직 기존의 다양한 자기지도학습 방법론들에 대해서 완벽히 숙지되지 않은 상태로 본 세미나를 들었지만 세미나 앞단에서 잘 요약해주어 본 세미나를 받아들이기 편했다. Information Maximization 방법론들은 기존의 복잡한 테크닉을 보다 단순화하고 메모리 문제도 해결함과 동시에 좋은 성능을 도출할 수 있다는 점이 매우 흥미롭게 다가왔다. 다량의 레이블된 데이터를 확보하기 어렵다는 점이 항상 대두되고 있어 자가지도학습 및 준지도학습의 방법론들이 정말 끊임없이 연구되고 있구나를 다시 한 번 느낄 수 있었고 이러한 트렌드를 따라가기 위해서는 정말 많이 노력해야겠다 라고 다짐을 할 수 있었다. 좋은 세미나 자료를 만들어 준 종국이에게 감사의 말을 전하며 본 세미나 후기를 마친다.

이번 세미나는 자가지도 학습 Information Maximization를 주제로 진행되었다. 해당 주제에 앞서 기존 자가지도학습 방법론에서는 Pretext Task, 대조학습, Distillation, Clustering에 대해 소개되었다. 기존 방법론들이 갖고 있는 단점을 보완하기 위해 Information Maximization 방법론이 제안 되었으며, 동일한 이미지에서 나온 상호 정보를 최대화하도록 학습하는 방법론이다.
첫 번째 소개된 Barlow Twins는 표현 벡터 정보 중복을 감소 시키자는 컨셉을 갖고 있으며, 증강 된 이미지와 상관없이 Cross correlation Matrix를 만들어서 Identity Matrix와 유사해지게 학습하는 방법론이다. 자원이 적게 소요된다는 장점을 갖고 있다. 두 번째 소개된 W-MSE는 Whitening을 통해 임베딩 벡터를 넓게 분배하는 방법론이다. 세 번째 소개된 VICReg는 분산, 같은 객체로부터 나온 임베딩, 임베딩 차원 간의 상관성을 규제하는 방법론이다.
자가지도학습 관련 기존 연구에 대한 흐름과 현재 SOTA 방법론을 알 수 있었는데, 경량화에 초점을 두고 기존 정보들을 최대화하는 소개된 방법론들이 인상 깊었다. 이해를 최대한 돕기 위해 시각화에 노력한 게 보이는 세미나여서 허종국 연구원님께 무척 수고했다는 얘기를 전하며 세미나 후기를 마친다