- 2023년 4월 10일 오후 12:45
- 조회수: 16463
INFORMATION
- 2023년 4월 14일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
발표자 후기

최근에 semi-supervised learning을 공부하면서 self-supervised learning이랑 함께 활용한다면 더 좋겠다는 생각이 들었다. 이와 관련된 논문들을 찾아보면서 최근 연구들이 contrastive learning을 semi-supervised learning 그 중 fixmatch에 결합하는 논문들이 많다는 것을 알게 되었다. 이 논문들을 읽으면서 느꼈던 점은 아이디어도 간단하고 구현도 쉬운데 성능이 fixmatch보다 잘 나온다는 것이다. semi-supervised learning을 적용해야 하는 상황에서 기존에는 fixmatch만한 것이 없다라고 생각했는데 이제 더 고려해 볼 알고리즘들이 생긴 것 같았다. 이번 세미나를 통해 DMQA 연구원들에게 이 내용을 공유하고 싶었고 앞으로 프로젝트나 개인 연구에서 도움이 되기를 바란다.
청취자 후기

금일 세미나는 Semi-supervised learning에 Contrastive learning을 접목시킨 내용으로 새린이가 진행하였다. 레이블링이 적용된 데이터의 수집이 어려운 환경에 따라 다양한 Self/Semi-supervised learning을 적용한 접근 방식의 연구가 활발히 진행되고 있다. 금일 세미나의 핵심 내용인 Contrastive Learning의 경우 개인적으로 SimCLR, MoCo와 같은 Self-supervised learning 방식을 떠올리곤 했는데, Semi-supervised learning에도 contrastive learning을 적용시키는 방법론들을 알아갈 수 있어서 유익했다.
1. CoMatch
2020년에 등장해 지금까지도 높은 성능을 보이는 Semi-supervised learning의 대표적인 아키텍처인 FixMatch의 confirmation bias, suboptimal training과 같은 단점을 보완한 방법론이다. FixMatch의 unlabeled classification에 활용되는 pseudo-labeling에 memory bank 개념을 추가하여 confirmation bias 문제를 해결하고, graph-based 접근 방식을 통해 task-specific한 embedding space를 구축한다.
2. CCSSL
unlabeled data에 Out-of-distribution (OOD) 데이터가 존재할 때, 이로 인한 confirmation bias 문제를 해결하기 위해 ID data와 OOD data를 잘 구분하도록 학습된다. OOD 데이터의 pseudo-labeling 결과 logit 값이 매우 높지 못하는 특징을 활용해서, pseudo-labeling의 결과 logit 값이 특정 threshold를 넘지 못할 경우 페어링 산정 과정에서 배제하도록 설계하여 OOD 데이터의 개입을 최소화하도록 학습한다.
3. Contrastive Regularization
label propagation을 활용하는 semi-supervised learning의 느린 학습 속도를 해결하기 위해 제안된 방법론이다. 결정 경계 근처의 confidence level이 낮은 데이터를 confidence level이 높은 데이터 쪽으로 당겨주는 contrastive learning 접근 방식을 적용하여 빠른 label propagation을 도모한다.
본 세미나를 통해 semi-supervised learning, contrastive learning에 대한 전반적인 지식은 물론 self-supervised learning보다 상대적으로 연관이 덜 할 것으로 생각했던 둘을 접목하여 공부할 수 있어서 유익했다. 다음 개인 연구를 OOD data와 semi-supervised learning에 관련하여 고려해보고 있는데, 이와 관련하여 또다른 접근 방식을 알 수 있었다. 유익한 세미나를 위해 고생했을 새린이에게 감사의 말을 전하며, 세미나 후기를 마친다.

하나의 공통 주제에 대해 여러 연구원들이 다양한 시각에서 세미나를 진행하면서 관련 내용에 대해 어떤 자료보다도 풍부하고 자세한 내용들이 홈페이지에 정리되어 이해에 큰 도움이 되고 있습니다. 오늘 세미나는 contrastive learning을 활용하여 학습 초반에 좀 더 정확한 pseudo label을 확보함으로써 적은 데이터로 예측 성능을 높이는 contrastive semi-supervised learning의 3가지 논문에 대한 설명입니다. 모두 FixMatch 알고리즘을 근간으로 contrastive learning을 적용하여 성능을 높였습니다.
첫 번째 논문은 CoMatch입니다. label을 잘못 예측하여 틀린 pseudo label을 반복적으로 학습하는 confirmation bias 문제를 해결하기 위해 memory-smoothed pseudo-labeling 이라는 방법을 제안했습니다. 자신과 유사한 이미지들의 label를 같이 활용함으로써 학습 sample의 confidence에만 의존하여 잘못된 학습을 할 수 있는 문제를 보완했습니다. 또한 graph 방법을 사용하여 pseudo-label graph와 embedding graph가 유사하도록 embedding space를 형성하는 co-training 방법을 제안하여 성능을 높였습니다.
두 번째 논문은 CCSSL입니다. embedding graph 상에서 out-of-distribution data를 구분할 수 있다면 confirmation bias를 해결할 수 있을 것이라고 가정했습니다. 이를 위해 weak augmentation data로 만든 supervised contrastive matrix와 strong augmentation data로 만든 embedding matrix의 차이를 줄어가는 학습을 통해 이를 해결하고자 하였습니다.
마지막 논문은 Contrastive Regularization입니다. 기존 FixMatch는 결정 경계 근처의 데이터들이 낮은 confidence level로 인해 버러짐으로써 학습이 오래 걸리는 문제를 해결하고자 하였습니다. 이를 위해 confidence level이 낮은 데이터를 높은 데이터를 기준으로 이동하도록 embedding space를 생성하도록 고안했습니다.
약 1시간의 긴 세미나였지만 새로운 주제여서 즐겁게 들었고 특히 내부의 matrix 연산까지 세부적으로 설명해줘서 어려울 수 있는 내용을 이해하는데 매우 도움이 되었습니다. 준비하시느라 수고 많으셨습니다. * 혹시 공개가 가능하다면 발표자료(pdf) 업로드 부탁드릴게요~.

이번 세미나는 대조학습을 활용한 준지도학습 방법론에 대해 진행되었다. 그 중에서도 FixMatch Framework에 대조학습을 추가하여 Pseudo Label(PL)을 강화하고, 학습속도를 향상시킨 3가지 방법론에 대해 다룬다. 세 방법론 모두 PL을 활용하여 SupCon의 느낌으로 대조학습을 수행한다는 공통점을 갖는다. 각 방법론에 대한 핵심은 아래와 같다.
(1) CoMatch (2021, ICCV): Class간 차이뿐만 아니라, 대조학습으로 각 이미지 자체의 특성도 잘 학습해보자는 의의에서 출발한다. 기존의 PL을 약하게 증강된 이미지의 출력값 뿐만 아니라 Memory Bank 내 다른 Unlabeled 이미지들의 정보를 함께 활용한다. 또한 PL의 Confidence Level과 Threshold를 비교함으로써 False Negative의 영향력을 최소화하며, 유사도만큼만 당기도록 하여 다소 애매할 수 있는 False Negative를 지나치게 확정적으로 처리하지 않는다.
(2) CCSSL (2022, CVPR): Unlabeled 데이터 내 OOD의 영향력을 최소화하자는 의미에서 출발한다. 우선적으로, Confidence Level과 Threshold를 비교하여 OOD 여부를 식별한다. 이는 OOD 데이터의 출력값은 Uniform한 분포를 갖기에, Threshold보다 낮은 경우가 많을 것이라는 가정에 기반한다. 하지만, 이것만으로 OOD를 완전히 걸러낼 수 없기에, Confidence Level 만큼만 Positive Pair로 취급해주어, OOD의 영향력을 최소화하고자 한다. (CoMatch와 상당히 유사한 컨셉이다.)
(3) CR (2022, CVPR): Thresholding은 Label Propagation의 속도를 늦추기에, 학습속도를 개선하고자 하는 의의에서 출발한다. 이는 Confidence Level이 높은 쪽으로 학습을 유도하기 위해(그림 60p 참고), 데이터 Pair에 대해 Threshold가 넘지만, Confidence Level이 낮은 데이터 쪽에 대해서는 Masking을 활용한다.
본 세미나를 통해 대조학습을 활용한 준지도학습 방법론에 대해 접할 수 있었다. 대조학습은 자기지도학습에서 많이 쓰이는 방법론이지만, 준지도학습에 결합한 사례들은 이번에 처음 접할 수 있었다. 기존 FixMatch 시절까지는 공부한 경험이 있어서 짧은 시간동안 크게 변한 부분이 없겠지 싶었지만, 생각보다 알고리즘들이 복잡해져서 이해하는데 시간이 꽤 걸렸다. 최근 연구실의 다른 세미나를 보면 준지도학습에서는 Unlabeled 데이터를 함께 활용하여 PL을 강화하는 연구가 많이 진행되는 것으로 보인다. 추가적으로 본 세미나를 통해서는 Unlabeled 데이터 중 참고하기 까다로운 정보(OOD)는 활용하지 않는다는 아이디어도 얻어갈 수 있었다. 양질의 세미나를 준비해주신 임새린 연구원님께 고맙다는 말을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Contrastive Semi-supervised Learning이라는 주제로 진행되었다. FixMatch와 Contrastive Learning의 기본 개념을 설명하면서 최근 3가지의 방법론을(CoMatch, CCSSL, CR) 소개하였다. 우선 첫번째 CoMatch는 FixMatch에 최초로 Contrastive Learning을(대조 학습) 적용한 방법론이라는 의미가 있으며 발표 당시에 SOTA 성능을 달성했다고 한다. 2가지로 기존 FixMatch의 단점을 지적하고 개선 사항을 제안하였는데 이는 FixMatch의 학습 과정 중에 pseudo 레이블링을 하는 과정이 있는데 해당 과정을 잘못하면 잘못된 레이블을 계속 학습하면서 Confirmation bias(확증 편향)이 생기는 것과 풀고자 하는 Task와는 비교적 차이가 있는 과정을 통해서 대조 학습이 진행되므로 suboptimal을 찾게되는 문제가 발생한다고 한다. 이를 Memory bank를 통해서 해당 이미지와 유사한 정도를 계산하여 pseudo 레이블을 조정해주는 과정을 통해서 확증 편향을 해결한다. 그리고 Memory bank를 통해서 계산된 조정된 벡터를 통해서 다시 대조 학습에 활용하여 False Negative로 인한 성능 저하를 해결한다고 한다. 여기서 대조 학습에 도움이 되는 것은 직관적으로 이해가 되는데 어떻게 Task-agnostic을 해결할 수 있는지는 조금 더 고민을 해봐야 이해할 수 있을 것 같다. 두번째 CCSSL 방법론의 경우 레이블 되지 않은 전혀 다른 클래스가 있음에도 불구하고 학습했었던 레이블로 분류하는 확증 편향 문제를 가지고 있는데 이를 대조 학습을 통해 해결하고자 하였다. Class-Aware Contrastive Matrix를 생성할 때 Threshold를 사용하여 OOD 데이터를 제외하고 Threshold를 넘더라도 Re-weighting 과정을 거쳐서 최대한 OOD 데이터의 영향을 최소화 할 수 있도록 조정해준다. CoMatch와 CCSSL의 비교를 진행함으로서 구조를 좀 더 잘 이해할 수 있었던 것 같고, 공통적으로 강한 데이터 증강을 두 번 사용한다는 점이 개인 연구에 적용할 수 있지 않을까 하는 생각이 들었다. 마지막으로 CR 방법론을 소개하였다. 해당 방법론은 대조 학습을 활용하여 학습 효율을 높였다는데 의의가 있다. CoMatch나 CCSL보다 단순한 구조로 이루어져 있었고 경계가 불분명한 데이터들을 보다 확실한 데이터로 끌어당겨 대조 학습을 진행한다고 한다. 해당 과정에서 불확실한 데이터는 Masking하고 Cross-Entropy Loss를 계산하게 되는데 이러한 구조가 어떻게 결정 경계에 있는 데이터들을 보다 확실한 데이터로 당겨지는지는 잘 이해가 되지 않아 논문을 좀 더 찾아보려 한다. FixMatch을 기반으로 대조 학습을 활용한 준지도 학습 방법론에 대해 공부할 수 있어서 매우 유익하였고 본 세미나를 준비하기 위해서 많은 노력을 했을 임새린 연구원에게 감사하다는 말을 전하며 이상으로 세미나 후기를 마친다.

Semi-Supervised Learning과 Self-Supervised Learning(그중에서도 Contrastive Learning)을 결합한 세 가지 연구에 대해 알아보았다. 단순히 생각해볼 때 두 개를 합쳐서 짬뽕을 만들어볼까라는 생각은 누구나 할 수 있다. 하지만 그에 대한 명확한 근거와 논리가 없다면 납득이 되지 않았을 것이다. 금일 세미나에서 소개 되었던 연구의 모티베이션은 명확한 근거를 가지고 있다. 바로 Semi-Supervised Learning의 Pseudo-labeling이 가지고 있는 Confirmation Bias를 Contrastive Learning을 통해 해소할 수 있고, Contrastive Learning이 가지고 있는 False Negative Problem은 Semi-Supervised Learning의 Pseudo-label을 통해 해소할 수 있다는 것이다.
특히 CoMatch는 아이디어가 매우 신박했는데, Pseudo-label을 Memory Bank에 있는 다른 인스턴스들의 Pseudo-label과 유사도 기반으로 보정(Smoothing)하는 것이다. 또한 False Negative로 정의된 Memory Bank 내의 인스턴스들을 Pseudo-label의 유사도를 통해 Positive로 정의한다는 것이다.
마지막에 소개된 CRSSL은 매우 간단하다. Confidence level이 높은 순서로 label propagation이 되어 학습이 느린 FixMatch의 문제를 해결하기 위해 Confidence Level이 낮은 Instance를 Confidence Level이 높인 인스턴스 방향으로 끌어당긴다는 것이며, 이러한 목적을 이루기 위해 Contrastive Learning을 사용하는 것이다. CoMatch에서는 Confirmation Bias를 해결하기 위해 Contrastive Learning을 사용했다면, CRSSL에서는 Label Propagation 속도를 늘리기 위해 Contrastive Learning을 사용하였다는 것이다.
FixMatch 이후로 나온 Semi-Supervised Learning 방법론들(예를 들어 SimMatch)은 다시 한번 뭔가 복잡해지고 있는 방향이라 상당히 머리가 어지럽고 직관적이지 못하다고 생각했지만, 금일 소개된 방법론들은 목적이 뚜렷하고 프로세스가 '그나마' 단순한 것 같다. 나중에 가져다 써먹을 일이 많을 것 같다는 생각이 들었다. 새린이형에게 수고했다는 감사의 인사를 드린다.

준지도학습과 자가지도학습 연구를 결합해가는 연구 트렌드를 오늘 세미나에서 자세히 접할 수 있었다. 두 가지 연구를 결합함으로써 서로가 갖고 있던 연구 한계점들을 어떤 기저로 극복해 나갈지와 자세한 방법들이 세미나에 소개되어 있다. False Negative Cancellation가 Pseudo-Label을 기반하여 수행될 수 있고, Pseudo-Label의 퀄리티가 데이터 특징들을 참조해 개선되어 가는 3가지 알고리즘들을 보며 연구진들이 정말 열심히 연구하고 있고 본받아야겠다 생각했다. 오늘 소개된 3가지 방법 모두 Semi와 Self의 아이디어들을 합쳐가는 과정에서 점점 복잡해지고 있다는 생각은 들었지만, 명확한 근거를 바탕하고 있어 좋은 연구들이라고 생각한다. 개인적으로, Semi와 Self 연구는 우리 연구실의 메인 연구 트렌드라고 생각하기에 많은 연구원들이 이 세미나를 보면 유익할 것 같다. 좋은 세미나를 준비하느라 많이 고생했을 새린이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

금일 세미나는 Contrastive Semi-Supervised Learning 주제로 새린이가 발표하였다. 기존에는 Self/Semi-Supervised Learning 각 분야에서 진화되었다면 최근에는 Contrastive Learning과 Semi-Supervised Learning을 결합하여 문제를 해결하고 있다. 이번 세미나에서 소개된 CoMatch, CCSSL, CR은 Contrastive Learning을 활용한 Semi-Supervised Learning 방법론이다. 세 가지 방법론은 Self 또는 Semi-Supervised Learning에서 발생하는 문제점을 상호보완적으로 해결한다. CoMatch는 FixMatch의 Pseudo Labeling 하는 과정에서 잘못된 레이블로 학습할 때 발생하는 Confirmation Bias를 Contrastive Learning으로 해결하고 Contrastive Learning의 False Negative 문제를 Pseudo Labeling으로 해결한다. CCSSL은 Out-of-Distribution 문제를 해결하기 위한 방법론으로써 Confidence Level를 비교하여 OOD를 찾는다. 이 때 Confidence Level에 따라 Contrastive Learning을 활용하여 OOD를 식별하도록 한다. CR은 Confidence Level이 낮은 예시를 높은 예시로 당길 수 있도록 Contrastive Learning을 활용하여 빠른 Label Propagation을 장려함으로써 학습 속도를 개선하였다. 최근에는 본질적인 문제를 해결하기 위해 명확한 논리, 근거를 토대로 잘 구성된 방법론이 많이 소개되는 것 같다. 이번 세미나에서 소개된 논문은 다시 한 번 볼 필요가 있고 향후 연구에서 활용, 확장해볼 수 있을 것 같다.

이번 강의는 현재 이미지 분야에서 가장 좋다고 알려진 Semi Supervised Learning 방법론 중 하나인 Fix-Match 의 성능을 향상시키기 위한 다양한 방법론들을 임새린 연구원께서 소개해 주었다.
먼저 준 지도학습(Semi supervised learning)이란 Labeled 데이터만으로 학습할때 보다 Unlabeled 데이터를 활용하면 더 모델의 성능이 좋아지고 일반화 성능이 높아지는 학습 방법이다.
FixMatch 에서는 이러한 Unlabeled data를 학습에 활용하기위해 Pseudo-Labeling 이라는 작업을 거치는데, Unlabeled 이미지에 각각 Weakly augmentation과 Strong augmentation을 적용하고 Weak augmentation 된 이미지는 Labeling 된 이미지과 비교해서 Pseudo-Label 을 부여하여 마치 Labeled 데이터 처럼 활용하게되고 Strong augmentation 된 이미지는 Pseudo label 과 Cross-Entropy 손실이 낮아 지는 방향으로 학습을 하는 방법론이다.
하지만, Fix-Match 에서 Weakly augmentation 된 이미지가 잘못 된 Pseudo label 을 부여받으면 계속해서 잘못 된 학습이 수행되고 이를 여러 논문에서는 확증 편향의 오류라고 언급한다.
이러한 Pseudo labeling 오류로 인한 확증 편향을 방지하기 위해 Contrastive learning 을 이용하여 극복하려고 한다.
Contrastive learning 이란 데이터간 유사도 정보를 통해 학습을 하는 것으로 Posivie Sample (같은 Class) 끼리는 가깝도록, Negative sample (다른 Class) 끼리는 멀어지도록 학습 하는 방법론이다.
먼저 소개 해준 Co-Match 논문에서는 Fix-Match와 Contrasive learning 을 결합하였는데 Fix-Match 의 Confirmation bias(확증 편향)을 회피하기 위해 Memory bank 라는 개념을 두어 과거 Pseudo labeling 한 이미지들과 벡터 내적으로 유사도를 계산하여 이를 가중평균한 뒤 현재 이미지의 Pseudo label 을 보정해주는 방식으로 Pseudo labeling 오류를 개선 한 방식이다.
이렇게 Pseudo label 을 한번 보정해 주고 마찬가지로 Strong augmentation 된 이미지와 오차를 계산하여 학습하는 방식으로 Fix-Match를 단독으로 사용한 것 대비 높은 성능을 내었다.
두번째 논문인 Class aware contrastive semi-supervised learning (CCSSL) 역시 Co-Match 와 유사하게 Unlabeled data set 에 있는 Class 가 Labeled data set 에 전혀 없으면 발생하는 확증 편향문제를 해결하기위한 방법론을 제시하였다.
마지막 논문인 Contrastive regularization for SSL은 Pseudo labeling과정에서 결정 경계 근처에 있는 즉, Confidence level 이 낮은 요소에 Label Propagation 이 너무 느리다는 문제점을 지적했고, Contrastive learning 을 적용하여 이러한 결정 경계 근처에있는 Positive sample 들의 Confidence level 을 높이면 Label Propagation 이 빨라지고 학습 효율이 개선될거라고 생각하였다. 실험 결과 Data Set 이 큰 경우 눈에띄는 성능 향상이 있었다.
Fixmatch 에 대해선 과거에 논문을 읽고 이해를 하였으나, Pseudo labeling 에 대한 확증 편향 문제가 있고 이를 극복하기 위한 다양한 연구가 진행되고 있다는 사실이 흥미로웠다. 유익한 세미나를 준비 한 임새린 연구원께 감사의 말씀을 전하며 세미나 후기를 마치겠다.

금일은 Semi-supervised learning에 Contrastive learning을 결합한 연구들을 중심으로 세미나가 진행되었다. 이번 세미나는 개인적으로 관심이 많은 분야이다. 해당 방법론은 실제 현실에서 비용이 많이 드는 labeled data를 수집하기 어렵다는 문제를 해결하기 위해 Semi/Self-supervised learning 특징을 접목한 연구이기 때문이다. 개인적으로 최근에 산업 이미지 데이터에 Semi-supervised learning과 Contrasitve learning을 접목해 알지 못하는 클래스 (unknown class) 예측 성능을 높이는 연구를 진행해왔다. 연구를 진행하면서 "어떻게 하면 실제 이미지가 지니는 특성을 더 잘 반영하는 모델을 구축해 예측 성능을 높일 수 있을까?" 라는 고민이 많았다. 이번 세미나는 나의 이러한 고민을 해결하기 위한 지식을 쌓을 수 있는 기회였다. 특히 두번째로 소개해 준 Class-Aware Contrastive Semi-Supervised Learning (CCSSL) 연구에서 지식을 쌓을 수 있었다. CCSSL은 confidence level을 비교하여 Out-of-distribution (ODD) 문제를 해결하고자 하는 연구이다. 실제 이미지의 특성을 더 잘 추출할 수 있는 모델을 설계할 때, 이러한 confidence level을 더 잘 설계한다면 우리가 알지 못하는 class에 대해 더 잘 분류할 수 있을 것이라 예상된다. 이번 세미나 주제는 개인적으로도 관심이 많은 분야이기 때문에 소개된 논문을 직접 읽어 본 이후에 세미나 자료도 추후에 다시 한번더 봐야겠다고 생각했다. 좋은 세미나를 준비해준 새린이에게 고마움을 전한다.

이번 세미나는 Contrastive Semi-supervised Learning에 대해 진행되었다. Fixmatch의 기본적인 개념을 설명으로 Fixmatch의 성능을 향상 시키기 위한 방법들을 소개해준다. CoMatch는 FixMatch의 confirmation bias, suboptimal training과 같은 단점을 보완하기 위해서 FixMatch에 최초로 Contrastive Learning을 적용한 방법론이다. Memory bank 를 통해 Pseudo labeling 한 이미지들과 벡터 내적으로 유사한 정도를 계산하여 Pseudo label 을 보정해주는 과정을 통해 Pseudo label 오류를 해결한 방법이다. 그리고 조정된 벡터를 통해서 Strong augmentation 된 이미지와 대조 학습을 활용하여 False Negative로 인한 성능 저하를 해결하고 FixMatch보다 성능을 높혔다. CCSSL는 Out-of-Distribution가 성능 하락을 유발하는 문제를 해결하기 위한 방법론이다. Embedding space에서 ID data와 OOD data를 잘 구분하도록 학습하여 OOD data로 인한 확증 편향 문제를 완화한 방법이다. Contrastive Regularization는 Contrastive learning을 활용하여 label propagation 속도를 높여 학습 효율을 향상 시킨 방법론이다. 결정 경계 근처의 confidence level이 낮은 데이터를 confidence level이 높은 데이터 쪽으로 당겨주는 contrastive learning 접근 방식을 적용하여 label propagation 속도를 빠르게 장려한다. 학기 중에 SSL 관련 수업을 들으면서 FixMatch에 대하여 상세하게 수업을 들었었다. FixMatch에서 추가적인 발전이 이렇게 빠르게 진행 될 줄은 상상을 못하였으나 SSL의 발전 속도는 생각 이상으로 빠른 것 같다. 기존에 성능이 좋은 FixMatch에 대조 학습을 적용하여 성능을 향상 시킨 방법에 대하여 공부할 수 있어서 매우 유익하였다. 본 세미나를 준비하기 위해서 많은 노력을 했을 임새린 연구원에게 감사하다는 말을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 "Contrastive Semi-Supervised Learning"을 주제로 진행되었다. 본 세미나는 준 지도 학습에 대조 학습을 적용해 Pseudo label의 정확도를 올리고, 학습 초기에 더 많은 confidence label을 확보해 학습 속도를 향상하는 것을 목적으로 하는 논문 3편을 소개하고 있다. 간략한 설명은 다음과 같다.
1. CoMatch는 Memory bank에 있는 다른 instance의 pseudo-label과 embedding vector를 활용해 얻은 유사도를 반영해 pseudo label의 확증 편향을 완화하였다. 그뿐만 아니라, negative samples 내에서 pseudo label의 유사도를 활용해 같은 class를 가질 것 같은 이미지를 positive sample로 정의하여 대조 학습을 진행함으로써 false negative로 인해 발생하는 성능 저하를 개선하여 Fixmatch보다 더 높은 성능을 달성하였다.
2. CCSSL은 Class mixmatch로 인해 발생하는 확증 편향을 문제를 대조 학습을 결합하여 해결한 연구이다. 결국 대조 학습을 통해 embedding space 상에서 ID & OOD data를 잘 구분하는 것이 목적이다.
3. CR은 준 지도 학습이 label propagation으로 학습할 때 pseudo label의 신뢰도를 위해 설정한 높은 임계값으로 인해 label propagation으로 느려지는 문제를 대조 학습으로 해결한 연구이다.
이번 세미나에서는 준 지도 학습에 대조 학습을 결합하여 특정 한계를 완화, 개선한 사례를 살펴볼 수 있었다. 가장 흥미롭게 들었던 연구는 CoMatch인데, false negative 문제를 앞서 정의한 pseudo label 간의 유사도를 활용해 개선한 것이 아무래도 인상 깊었던 것 같다. 자세한 설명 덕분에 꽤 긴 시간이지만 집중해서 들을 수 있었다. 좋은 세미나를 준비해 준 임새린 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Contrastive Semi-supervised Learning를 주제로 진행되었다. 준지도 학습이란 라벨링 되지 않은 데이터를 활용해서 모델의 일반화 성능을 향상시키는 방법론이다. 이번 세미나에서는 FixMatch 이후 준지도 학습, 대조 학습을 키워드로 관련 논문이 소개 되었다.
첫 번째 논문인 CoMatch는 FixMatch에 대조학습을 결합한 방법론으로 수도 라벨 퀄리티에 의존적인 문제 즉 확증편향을 해결하기 위해 임베딩 벡터를 통해 수도 라벨을 조정하고 메모리 뱅크를 통해 대조 학습을 하는 방법론이다. 두 번째 논문인 CCSSL은 CoMatch와 컨셉은 유사하지만, 언라벨링 데이터에 OOD(Out of Distribution)가 존재하는 상황을 해결한다는 특징을 갖고 있다. 세 번째 논문인 CR은 기존 방법론들이 threshold 때문에 학습 속도가 느려지는 문제를 해결하기 위해 대조 학습을 통해 데이터의 클래스 경계가 불분명한 데이터를 분명한 데이터 근처로 당겨서 학습 효율을 향상 시킨 논문이다.
이번 세미나는 FixMatch 이후 준지도 학습에 대조 학습을 결합한 논문들에 대해 소개 되었는데, 개인 연구 분야이기 때문에 어떻게 하면 활용할 수 있을지 머리를 쓰며 열심히 들었던 것 같다. 특히, CoMatch와 CCSSL이 뭐가 다른지에 대해 고민하고 설명해준 새린이의 세심함을 볼 수 있었다. 좋은 세미나 준비하느라 고생했다고 임새린 연구원에게 얘기를 전하며 세미나 후기를 마친다.