- 2026년 3월 5일 오후 8:08
- 조회수: 202
INFORMATION
- 2026년 3월 6일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)
이정민
TOPIC
On-Line Video
OVERVIEW
일반적인 지도학습은 학습 데이터의 레이블이 모두 정확함을 가정하지만 실제 상황에서는 일부 데이터의 레이블이 정확하지 않은 경우가 존재한다. 뿐만 아니라, 데이터 수집 과정에서 수집하고자 하는 데이터와 분포가 다른 out-of-distribution(OOD) 데이터가 섞여서 수집될 수 있고 이는 모델 학습에 큰 악영향을 야기한다. 따라서 기존 label noise learning 연구 갈래에서 이러한 OOD 데이터까지 함께 다룰 수 있는 연구들이 진행되고 있다. 본 세미나에서는 in-distribution(ID) noise와 OOD까지 함께 다루는 연구들에 대해서 소개하고자 한다.
[1] Li, J., Xiong, C., & Hoi, S. C. (2021). Learning from noisy data with robust representation learning. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9485-9494).
[2] Albert, P., Ortego, D., Arazo, E., O'Connor, N. E., & McGuinness, K. (2022). Addressing out-of-distribution label noise in webly-labelled data. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 392-401).
청취자 후기
박성수
이번 세미나는 실제 상황에서 발생할 수 있는 ID noise와 OOD가 함께 있는 상황을 해결하기 위한 두 가지 방법론인 RRL과 DSOS에 대해 소개해 주었다.
RRL은 이런 문제 상황을 최초로 정의하고 contrastive learning을 통해 강건한 표현 학습 방법을 제안했다. 특히 consistency contrastive learning을 통해 데이터 증간 간의 일관성을 유지하고, mixup prototypical contrastive learning을 통해 클래스 프로토타입 정보에 믹스업 전략을 합쳐서 label의 오염이 심한 상황에서 모델이 정교한 semantic을 추출할 수 있게 하였다. warm up 이후에 KNN 기반의 label smoothing으로 weakly-supervised subset을 만들어 의심스러운 샘플을 필터링하는 과정이 인상적이었다.
DSOS는 새롭게 제안한 메트릭을 통해 예측값과 ground truth label의 관계를 정의해서 Clean, ID noise, OOD 샘플을 구분해 내었다. OOD 샘플은 ID class 공간 내에서 정답이 존재하지 않기 때문에 어떤 방향으로 교정해도 의미가 없는데, 이 점을 짚어낸 것이 인상적이었다. 특히 OOD로 판별된 샘플에게는 uniform distribution을 할당해 학습을 방해하는 것을 최소화하고, ID 샘플에 대해서만 선별적으로 label connection을 수행하는 dynamic softening 전략은 안정성과 효율성을 동시에 잡은 좋은 접근 방식이라는 생각이 들었다. Interpolated label 분포를 시각화한 결과를 보며 실제 데이터의 특성을 얼마나 잘 반영하고 있는지 확인할 수 있어 흥미로웠다.
문제 상황에 대한 설명뿐만 아니라 수식과 실험에 대한 상세한 설명을 해주신 덕분에 이해하는데 큰 도움이 되었다. 좋은 세미나를 준비해 주신 이정민 선배님께 고맙다는 말씀을 전하며 본 세미나 후기를 마친다.
김다빈
이번 세미나는 실제 환경에서 발생할 수 있는 In-Distribution(ID) noise와 Out-of-Distribution(OOD) noise가 동시에 존재하는 상황에서의 문제를 다루며, 이를 해결하기 위한 대표적인 방법론인 RRL과 DSOS에 대해 소개해 주었다.
RRL은 label noise와 OOD 상황이 결합된 상황을 처음 제시한 연구이다. 해당 방법론에서는 contrastive learning 기반의 표현 학습을 활용하여 embedding space에서 ID와 OOD 데이터를 점진적으로 분리하도록 학습하는 접근이 소개되었다. 특히 consistency contrastive learning과 mixup prototypical contrastive learning을 결합하여 noisy label 환경에서도 의미 있는 semantic representation을 학습하도록 설계한 점이 흥미로웠다.
DSOS 방법에서는 기존의 label correction 방식이 OOD 데이터에는 적절하지 않다는 점을 지적하고, clean / ID noise / OOD 샘플을 구분하기 위한 intermediate label과 dynamic softening 전략을 제안하였다. 특히 OOD로 판단된 샘플에는 uniform distribution을 부여하여 학습에 미치는 영향을 최소화하고, ID noise에 대해서만 label correction을 수행하는 방식이 실제 noisy 환경을 잘 반영한 접근이라고 느껴졌다.
이번 세미나를 통해 label noise learning 연구에서 단순한 label 오류뿐 아니라 데이터 분포 차이까지 함께 고려해야 한다는 점을 이해할 수 있었고, 실제 데이터 환경에서 발생할 수 있는 다양한 noise 상황을 어떻게 모델 학습 과정에서 처리할 수 있는지 살펴볼 수 있어 흥미로운 세미나였다. 양질의 세미나를 준비해 주신 정민 선배님께 감사의 말씀을 전하며 본 세미나 후기를 마친다.