고려대학교 DMQA 연구실

Label Noise Learning with In-and Out-of-Distribution Noise

2026년 3월 5일 오후 8:08
조회수: 384

REFERENCES

[260306] DMQA Open Seminar - Label Noise Learning with In-and Out-Of-Distribution Noise.pdf

INFORMATION

2026년 3월 6일
오전 12시 ~
온라인 비디오 시청 (YouTube)

발표자:

이정민

TOPIC

Label Noise Learning with In-and Out-of-Distribution Noise

On-Line Video

OVERVIEW

일반적인 지도학습은 학습 데이터의 레이블이 모두 정확함을 가정하지만 실제 상황에서는 일부 데이터의 레이블이 정확하지 않은 경우가 존재한다. 뿐만 아니라, 데이터 수집 과정에서 수집하고자 하는 데이터와 분포가 다른 out-of-distribution(OOD) 데이터가 섞여서 수집될 수 있고 이는 모델 학습에 큰 악영향을 야기한다. 따라서 기존 label noise learning 연구 갈래에서 이러한 OOD 데이터까지 함께 다룰 수 있는 연구들이 진행되고 있다. 본 세미나에서는 in-distribution(ID) noise와 OOD까지 함께 다루는 연구들에 대해서 소개하고자 한다.

[1] Li, J., Xiong, C., & Hoi, S. C. (2021). Learning from noisy data with robust representation learning. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9485-9494).

[2] Albert, P., Ortego, D., Arazo, E., O'Connor, N. E., & McGuinness, K. (2022). Addressing out-of-distribution label noise in webly-labelled data. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 392-401).

청취자 후기

박성수

이번 세미나는 실제 상황에서 발생할 수 있는 ID noise와 OOD가 함께 있는 상황을 해결하기 위한 두 가지 방법론인 RRL과 DSOS에 대해 소개해 주었다.
RRL은 이런 문제 상황을 최초로 정의하고 contrastive learning을 통해 강건한 표현 학습 방법을 제안했다. 특히 consistency contrastive learning을 통해 데이터 증간 간의 일관성을 유지하고, mixup prototypical contrastive learning을 통해 클래스 프로토타입 정보에 믹스업 전략을 합쳐서 label의 오염이 심한 상황에서 모델이 정교한 semantic을 추출할 수 있게 하였다. warm up 이후에 KNN 기반의 label smoothing으로 weakly-supervised subset을 만들어 의심스러운 샘플을 필터링하는 과정이 인상적이었다.
DSOS는 새롭게 제안한 메트릭을 통해 예측값과 ground truth label의 관계를 정의해서 Clean, ID noise, OOD 샘플을 구분해 내었다. OOD 샘플은 ID class 공간 내에서 정답이 존재하지 않기 때문에 어떤 방향으로 교정해도 의미가 없는데, 이 점을 짚어낸 것이 인상적이었다. 특히 OOD로 판별된 샘플에게는 uniform distribution을 할당해 학습을 방해하는 것을 최소화하고, ID 샘플에 대해서만 선별적으로 label connection을 수행하는 dynamic softening 전략은 안정성과 효율성을 동시에 잡은 좋은 접근 방식이라는 생각이 들었다. Interpolated label 분포를 시각화한 결과를 보며 실제 데이터의 특성을 얼마나 잘 반영하고 있는지 확인할 수 있어 흥미로웠다.
문제 상황에 대한 설명뿐만 아니라 수식과 실험에 대한 상세한 설명을 해주신 덕분에 이해하는데 큰 도움이 되었다. 좋은 세미나를 준비해 주신 이정민 선배님께 고맙다는 말씀을 전하며 본 세미나 후기를 마친다.

김다빈

이번 세미나는 실제 환경에서 발생할 수 있는 In-Distribution(ID) noise와 Out-of-Distribution(OOD) noise가 동시에 존재하는 상황에서의 문제를 다루며, 이를 해결하기 위한 대표적인 방법론인 RRL과 DSOS에 대해 소개해 주었다.

RRL은 label noise와 OOD 상황이 결합된 상황을 처음 제시한 연구이다. 해당 방법론에서는 contrastive learning 기반의 표현 학습을 활용하여 embedding space에서 ID와 OOD 데이터를 점진적으로 분리하도록 학습하는 접근이 소개되었다. 특히 consistency contrastive learning과 mixup prototypical contrastive learning을 결합하여 noisy label 환경에서도 의미 있는 semantic representation을 학습하도록 설계한 점이 흥미로웠다.

DSOS 방법에서는 기존의 label correction 방식이 OOD 데이터에는 적절하지 않다는 점을 지적하고, clean / ID noise / OOD 샘플을 구분하기 위한 intermediate label과 dynamic softening 전략을 제안하였다. 특히 OOD로 판단된 샘플에는 uniform distribution을 부여하여 학습에 미치는 영향을 최소화하고, ID noise에 대해서만 label correction을 수행하는 방식이 실제 noisy 환경을 잘 반영한 접근이라고 느껴졌다.

이번 세미나를 통해 label noise learning 연구에서 단순한 label 오류뿐 아니라 데이터 분포 차이까지 함께 고려해야 한다는 점을 이해할 수 있었고, 실제 데이터 환경에서 발생할 수 있는 다양한 noise 상황을 어떻게 모델 학습 과정에서 처리할 수 있는지 살펴볼 수 있어 흥미로운 세미나였다. 양질의 세미나를 준비해 주신 정민 선배님께 감사의 말씀을 전하며 본 세미나 후기를 마친다.

허종국

금일 세미나 주제는 labeling noise problem + OOD detection 주제에 대한 내용으로 이정민 연구원이 진행하였다. 개별 문제에 대한 연구들은 이미 많이 존재하였으나, 현실적이지 못하다는 문제가 있었다. label noise + ood 상황은 좀 더 현실적인 상황, 예를 들어 인터넷에서 데이터를 크롤링할 경우 흔히 발생할 수 있는 상황으로써, VLM 등 모델 학습을 위한 data curation 에 대한 중요성이 점점 커짐에 따라 이러한 방법론에 대한 중요성이 커진다고 볼 수 있다.

Label noise + OOD detection 상황에서는 크게 전체 데이터 풀을 세 가지, id clean data, id noise data, OOD data 로 나눌 수 있으며, noise data에 대한 label correction과 ood filtering 테크닉에 따라 방법론이 결정된다. 오늘 세미나에서는 1. RRL, 2. DSOS 가 소개 되었다.

RRL은 CE 기반 지도학습, reconstruction + contrastive learning 기반 비지도 학습, 그리고 noise data 상황에서 robustness를 고려한 mixup 기반 지도 학습 손실 함수로 학습 프로세스가 진행된다. 이 4가지 손실 함수를 통해 초기에 warm up 학습을 진행한 후에, 기존 label의 confidence와 k-NN의 pseudo-label을 고려하여 weakly-supervised subset을 구축한다. 이후 weakly-supervised subset은 앞서 언급한 4가지 손실함수 중 지도학습 기반 손실 함수 2개만 사용하여 학습되며 warm-up 이후 weakly-supervised subset 구축과 추가 학습은 iterative하게 계속 진행되는 것으로 이해하였다. 해당 방법론에서 noise data는 filtering보다는 mixup을 통해 smoothness와 robustness를 확보하는 방향으로, 그리고 OOD filtering은 latent space에서의 인접 데이터의 레이블을 고려하여 filtering하는 방식으로 해결하였다.

DSOS는 앞서 말한 세 가지 데이터를 잘 분리할 수 있는 metric을 제시한 논문이다. 기존 noise 상황에서 흔히 사용하는 label correction의 경우, 예측값과 레이블값 간의 linear combination으로 이루어지는데, 이때 결국 linear combination이 in-distrubution의 데이터에 대해 높은 confidence를 가지게 되기 때문에, OOD 상황에서는 적절하지 않다. 그래서 OOD 상황에서는 correction을 위한 예측값을 uniform distribution으로 한 후 correction을 수행하고자 한다. 그렇다면 이에 앞서 ID/OOD를 잘 구분하는 것이 중요한데, 이 논문에서는 intermediate label과 이에 기반한 collision entropy라는 것을 제안한다. collision entropy는 clean 데이터에서는 낮은 엔트로피(예측과 레이블이 일치), ID noise에서는 중간 엔트로피(예측과 레이블이 강한확신을 가지는 불일치), OOD noise는 높은 엔트로피(예측 자체가 불확실)하게 되는 성질을 가진다. 최종적으로 RRL과 마찬가지로 warm up단계를 통해 전체 네트워크를 약하게 학습시킨 뒤, collision entropy를 통해 OOD를 filtering하는 단계를 거친다.

RRL은 기존에 나왔던 방법론들에 대한 aggregation 측면에 가까워 보이지만, DSOS에서 제안한 collision entropy의 경우 꽤 참신하고 논리적인것 같다. 두 상황을 복합적으로 보는 상황이 아니더라도 각각의 상황(label noise/OOD)에도 충분히 활용할 여지가 보이면서, 이에 파생된 추가 분석에도 용이해보인다.

세미나를 만드느라 고생한 이정민 연구원에게 감사의 말을 전한다.