고려대학교 DMQA 연구실

Score-Based OOD Detection for Image Classification: Part1

2024년 1월 26일 오전 12:15
조회수: 30069

REFERENCES

[240126]Score-Based OOD Detection for Image Classification Part1.pdf

INFORMATION

2024년 1월 26일
오전 11시 ~
온라인 비디오 시청 (YouTube)

발표자:

임새린

TOPIC

Score-Based OOD Detection for Image Classification: Part1

On-Line Video

OVERVIEW

Out-of-distribution (OOD) detection은 모델이 학습하지 않은 클래스를 가진 샘플이 테스트 과정에서 입력되었을 때, 해당 샘플을 OOD로 분류하는 문제이며, 신뢰도 있는 모델을 구축하고 현실 세계에 인공지능 모델을 배포 및 적용하기 위해 해결되어야 하는 문제이다. 본 세미나에서는 이미지 분류 모델에서 OOD를 탐지하는 여러 방법론 중 OOD score를 통해 OOD을 탐지하는 score-based OOD detection 방법론들을 소개하고자 한다.

참고자료:

[1] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In International Conference on Learning Representations, 2017.
[2] Shiyu Liang, Yixuan Li, and R Srikant. Enhancing the reliability of out-of-distribution image detection in neural networks. In International Conference on Learning Representations, 2018.
[3] Kimin Lee, Kibok Lee, Honglak Lee, and Jinwoo Shin. A simple unified framework for detecting out-of-distribution samples and adversarial attacks. Advances in Neural Information Processing Systems, 31, 2018.
[4] Weitang Liu, Xiaoyun Wang, John Owens, and Yixuan Li. Energy-based out-of-distribution detection. Advances in Neural Information Processing Systems, 33:21464–21475, 2020.

발표자 후기

임새린

Out-of-distribution detection은 신뢰 가능한 인공지능 모델 구축을 위해 해결해야 하는 중요한 문제 중 하나이다. 실제로 매우 활발히 연구가 진행되는 분야이며, 여러 접근법을 통해 이 문제를 해결하기 위해 노력하고 있다. OOD detection에서 가장 핵심이 되는 부분은 ID와 OOD의 차이점이 두드러지는 부분을 발견하고 이를 활용하여 score function을 정의하는 것이다. 이번 세미나에서는 여러 관점에서 ID와 OOD의 차이를 발견하고 이를 score function으로 정의하는 논문들을 소개하고 싶었다. 8개 방법론 중 4개의 방법론 밖에 다루지 못해 아쉽지만 다음 세미나에서 나머지를 소개하여 더 재미있는 접근법들을 소개할 예정이다.

청취자 후기

김지현

[느낀 점]
특정 task (OOD detection)를 풀기 위한 연구들을 순차적으로 매끄럽게 잘 정리하여서 듣기가 정말 편했다. 더불어 논문을 이해하기 위해 필요한 선행지식 (e.g. 마할라노비스 거리는 어떻게 정의되고 무엇을 의미하는가 등)까지 알려주어서 끊기지 않고 쭉 청취할 수 있었다.

[궁금한 점]
- ODIN에서 input preprocessing은 왜 사용되는 걸까? 세미나만 들으면 temperature scaling으로도 충분히 OOD detection이 가능한 것처럼 보여서 해당 모듈이 왜 필요한지 궁금했다. (cf. OOD 샘플을 스케일링하면 max(prob.) 값의 감소량이 ID 샘플보다 커지기에 결과적으로 ID와 ODD 간 차이가 벌어짐) 그래서 논문을 찾아서 읽어봤더니 T가 '아주 커질 때'는 성능 향상이 미미하기 때문에 이를 위해 input preprocessing을 추가 제안한다고 밝히긴 함.

- Mahalanobis 논문에서 representation vector의 분포가 multivariate Gaussian을 따를 것이라는 다소 strict한 가정이 t-SNE 시각화 자료 하나로 증명된다는 게 신기했음.

- Energy: energy score 수식을 보면 maximum logits 값에 영향을 많이 받는 걸 알 수 있는데 이를 지적하며 'energy-discrepancy'라는 score function을 추가 제안한 논문이 Safe-Student(2022 CVPR)이다. 얼마 전에 해당 논문을 읽을 기회가 있어서 반갑게 들었는데, 논문 읽었을 때는 energy가 뭔지 당최 이해를 못했었는데 세미나 덕분에 이해할 수 있는 기회를 얻게 되어서 좋았다. 수식을 친절하게 설명해 주셔서 더더욱 이해가 잘 됐던 것 같다. 역시 믿듣새세(믿고듣는새린세미나)

정구진

해당 세미나는 이미지 분류를 위한 OOD detection에서 OOD score를 만들어내는 연구들에 대해 정리해 주었다.
가장 기본이 되는 baseline의 경우 익히 알고 있는 softmax 함수에서 확률 최대값을 이용하는 방법이다. 이 확률 최대값이 OOD 샘플보다 ID 샘플이 높다는 점에서 OOD score로 정의하고 특정 기준점을 통해 ID와 OOD를 분류한다. ODIN의 경우 baseline의 방법에서 ID와 OOD의 차이를 극대화 시키는 방법이다. 특이할만한 점은 temperature scaling의 경우 OOD의 확률 최대값을 낮춰주는 방향으로 scaling을 진행하는 반면에, input preprocessing의 경우 확률 최대값을 낮추는 noise를 제거하면 ID의 확률 최대값이 증가하게 된다. 결국 상반된 접근으로 ID와 OOD의 차이를 극대화 시킨다. Mahalanobis의 경우 그 개념부터 잘 설명해주었는데, 생소하였지만 실제 세계의 데이터에서 활용가치가 높을 것 같다. 해당 방법은 logit값이 아닌 feature를 활용하였으며, 새로운 샘플이 입력되었을 때 특징 벡터와 클래스의 mahalanobis distance를 통해 OOD를 구별한다. 마지막으로 energy-based의 경우 에너지를 통해 p(y|x)를 추론하는데, 분류 모델과 에너지 모델이 동일함을 증명하였으며 energy score가 softmax score보다 우수함을 보여주었다.
OOD detection과 관련하여 관심은 두고 있었지만 내용에 대해서 자세히 공부하지 못하였는데, 전반적인 흐름과 기초적인 내용까지 설명해주어 이 분야에 지식이 많이 없더라도 쉽게 듣고 이해할 수 있는 좋은 세미나였다. 이런 유익한 세미나를 준비해준 임새린 연구원께 고맙다는 말을 전하며 세미나 후기를 마친다.

이진우

금일 세미나는 이미지 데이터에서 OOD를 구분하는 방법론들에 대한 내용을 다루었다. 우선 OOD라 함은 input data(ID)와 분포 차이가 존재하는 데이터를 의미하며, 즉 ID에 존재하지 않는 다른 클래스가 있다는 것이다.

[1] Baseline: 일반적으로 특정 클래스로 분류될 확률을 정의할 때 softmax함수를 많이 사용한다. ID의 최대 확률값보다 OOD의 확률값이 더 높다는 사실을 활용하여 특정 threshold를 기준으로 ID와 OOD를 구분하는 방법을 제안하였다.
[2] ODIN: ID와 OOD 최대확률의 차이를 극대화하기 위해 temperature scaling과 input preprocessing을 제안하였다. Temperature scaling은 확률 값이 soft해지는 역할을 하며 scaling하는 temperature 값이 클수록 ID와 OOD의 최대확률 차이가 커져 구분하게 쉬워진다. 더하여 입력 이미지의 noise를 제거하여 최대확률을 높이는데, noise 제거시 ID의 최대확률 값 증가폭이 OOD보다 크다는 사실을 활용하였다.
[3] Mahalanobis: 기존 연구들은 logit 값들을 사용하였지만 해당 연구에서는 logit이 아닌 feature vector가 더 많은 정보를 담고 있기 때문에 이를 사용하기로 하였다. 이때 Mahalanobis를 활용해 OOD를 구분하였는데, Mahalanobis는 정규분포로 선형변환된 샘플들 간의 Euclidean 거리이다. 더하여 모델의 각 layer에서 나오는 feature vector는 서로 다른 정보를 갖고있어 이를 앙상블해 활용하였다.

[4] Energy-Based Score: softmax를 사용하는 것이 아닌 energy를 활용해 OOD를 구분하였다. Softmax를 사용하게 되면 최대 logit 값에 의한 bias가 발생해 OOD에서 softmax보다 energy를 사용하는 것이 우수함을 입증하였다.

딥러닝 계열의 OOD 내용은 이번 세미나를 통해 처음 접하게 되었다.OOD의 기본이 되는 Baseline부터 이후 등장한 다양한 방법론들에 대한 핵심 내용들에 대해 배울 수 있어 뜻깊었다. 유익한 세미나를 준비해준 새린형에게 고맙다는 말을 전하며 세미나 후기를 마친다.

김정인

이번 세미나는 Score 기반 OOD Detection에 대해 소개되었다. OOD 데이터란 입력 데이터 분포에서 Distribution Shift가 발생하여 다른 분포에서 샘플링된 데이터를 의미하며, 분포와 레이블이 모두 변하는 semantic Shift가 발생한 샘플을 말한다. 본 세미나에서는 softmax score를 기반으로 OOD를 탐지하는 논문 2가지(Baseline, ODIN), mahalanobis 거리를 기반으로 OOD를 탐지하는 논문 1가지, 마지막으로 energy score 기반 OOD를 탐지하는 논문, 총 4가지에 관해 소개해 주었다.

1. Baseline (2017, ICLR): OOD 탐지 문제에서 baseline이 되는 연구이며, 실험을 기반으로 ID 샘플의 최대 확률값이 OOD 샘플의 최대 확률값보다 높다는 사실을 통해 특정 임계값보다 크면 ID로 작으면 OOD로 분류하였다.
2. ODIN (2018, ICLR): OOD 탐지를 더 효과적으로 하기 위하여 temperature scaling과 input preprocessing을 제안하였으며, input preprocessing을 적용한 샘플에 Temporal Scaling을 적용한 softmax score의 max 값을 기반으로 ID 또는 OOD를 분류한다.
- temporal scaling: temporal의 영향으로 ID와 OOD의 최대 확률값 중 가장 큰 값의 빈도가 줄어들 수 는 있지만, ID와 OOD의 최대 확률 값 차이를 극대화 할 수 있다. 하지만, 너무 큰 T는 U1에만 너무 의존적이기 때문에 적당한 T값을 설정하는 것이 좋다.
- input preprocessing: ID 샘플이 OOD 샘플보다 그라디언트더 크기 때문에 noise를 제거하여 ID와 OOD의 최대 확률값의 차이를 극대화함
3. Mahalanobis (2018, NeurIPS): 로짓 값을 활용한 softmax score를 기반으로 OOD를 탐지한 것이 아닌, 각 클래스별 특징 벡터의 가우시안 분포의 평균과 테스트 샘플의 특징 벡터 간의 mahalanobis distance 기반 score를 활용하여 OOD를 탐지하였다.
4. Energy-based Score (2020, NeurIPS): energe-based model과 일반 분류 모델 학습 과정일 동일함을 이론적으로 증명하고 softmax score 기반 최대 확률값을 계산했을 때 energy score 관점에서 ID 분별력을 흐릿(?)하게 만들기 때문에 좋지 않음을 수식적으로 보여줌. (즉, energy score를 기반으로 OOD를 분류한다.)

OOD Detection part 2가 벌써부터 기대된다. 세미나를 들으면서 ODIN에서 input preprocessing을 할 때 "증가폭"과 관련하여 조금 헷갈렸는데, 논문에서 figure 6을 보는 것이 이해하는 데 도움이 되었다. 저처럼 이 부분이 헷갈린다면 참고하면 좋을 듯하다. 유익한 세미나를 준비해 준 새린이에게 고마운 마음을 전하며, 이상으로 세미나 후기를 마친다.

배진수

OOD detection을 위해 특징 벡터나 로짓 값을 이용하여 ood score를 정의하는 방법에 관한 세미나를 청취하였다. 세미나에서 설명된 방법은 총 4가지로 Confidence, ODIN, Mahalanobis, Energy score가 존재하는데, Part 2에서 더 다양한 ood score들에 대해 설명할 예정이라 하니, 이 분야가 과거부터 현재까지 꾸준히 연구되고 있는 분야임을 알 수 있었다. 4가지 score에 대한 설명을 들을 때 목적성, 방법, 근거에 대한 모든 내용을 꼼꼼하게 알려주어 유익하였다. 논문을 직접 읽어야 전해줄 수 있는 내용들도 함께 소개되어 있어 짧은 시간 안에 여러 논문들을 내가 읽은 기분이었다. 특히, adversarial noise를 이용하여 ood score를 더 정확하게 만드는 테크닉들을 머리 속에 깊게 담아두려 한다. 좋은 내용의 세미나 준비를 하느라 고생했을 새린이에게 감사의 말씀을 전하며 세미나 후기 작성을 마치도록 한다.

김성수

이번 세미나는 Out Of Distribution (OOD) Detection에 대해 진행되었다. OOD Detection은 학습한 데이터와 다른 분포의 데이터가 들어왔을 때, 이를 식별하는 알고리즘이다. 본 세미나에서는 이러한 OOD Detection 방법론 4가지를 소개한다.

1) Baseline: OOD를 Softmax Output의 최대 확률값으로 판단한다. 이는 일반적으로 ID 데이터의 최대확률이 OOD 데이터의 최대확률보다 높다는 근거에서 기인한다.

2) ODIN: 동일하게 최대 확률값을 근거로 식별하지만, Temperature Scaling 및 Input Preprocessing 테크닉을 추가 적용한다. Temperature Scaling을 통해 확률값을 부드럽게 변환할 수 있으며, 이를 통해 최대 확률값이 강조되고, 다른 Class간 차이는 줄일 수 있다. 이때, ID에서 최대 확률값이 더 강조되고, 다른 Class간 차이가 더 줄여진다는 것을 실험을 통해 확인하였으며, 이를 통해 Temperature Scaling의 효과를 입증하였다. 또한 Input Preprocessing은 일부 노이즈를 제거하는 것(Max Probability를 낮추는 것에 대한 Adversarial Attack)을 의미하며, 실험적으로 ID에서 이러한 노이즈 제거 시 최대 확률값 증가폭이 큰 것을 확인하였다.

3) 마할라노비스-based Score: 마지막 확률값이 아닌, Feature Vector 수준에서 비교한다는 특징을 갖는다. 이때, 유클리디안 거리가 아닌, 데이터의 분포를 고려하는 마할라노비스거리를 고려하여 효과적으로 OOD 여부를 판단한다. 추가적으로, 여러 Feature-level을 동시에 고려하는 Feature Ensemble과 Input Preprocessing도 함께 적용하였다.

4) Energy-based Score: (x, y)의 관계를 에너지로 인코딩하는 모델로 이를 구분한다. 에너지는 일반적인 분류모델의 학습방식과 유사하다. 하지만, 일반적인 학습의 로그 확률값은 “에너지+최대 확률값”의 형태를 갖는다. 따라서, 일반적인 학습방식은 최대 확률값에 편향된 출력값을 뱉는다고 말하며, 최대 확률값이 ID와 OOD 구분에 방해가 될 수 있다고 말한다. 따라서 Energy를 기반으로 학습하는 것에 대한 필요성을 주장하며 이에 대한 손실함수도 새롭게 제안한다.

이번 세미나를 통해 OOD Detection의 여러 갈래를 볼 수 있었다. 특히, Score를 정의하는 방식이 어떻게 다른지 살펴볼 수 있었으며, 전체적인 연구 흐름도 볼 수 있었다. 혼자 논문을 보았다면 이러한 수식들에 되려 당황했을 것 같은데, 깔끔한 설명으로 쉽게 이해할 수 있었다. 특히, 깊게 설명할 부분은 설명하고, 깊게 설명할 필요가 없는 부분은 깔끔하게 요약하여 설명해준 것이 이해에 큰 도움이 된 것 같다. 얼른 두번째 세미나가 궁금하다. 유익한 세미나를 준비해준 임새린 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

허종국

최근 OOD 관련 연구가 많이 진행되었는지, 두 번 연속 OOD에 관한 세미나가 진행되었다. 이 세미나 다음 세미나인 진수형 세미나에서는 OOD 데이터가 있을 때 Semi-SL을 적용한 연구로써, 1vsAll Classifier로 OOD data를 탐지 및 제거하여 FixMatch등의 알고리즘을 활용한 사례를 소개했다. 금일 세미나에서는 1vsAll Classifier등의 부가적인 모델을 사용하지 않고, 별도의 Score Metric을 정의해서 OOD Data를 탐지하는 4개의 논문에 대해 알아보았다. 처음 두 논문인 Baseline과 ODIN의 경우, ID 데이터와 OOD 데이터의 Max Probability가 통상적으로 다르게 분포한다는 가정 하에 Threshold를 설정하여 OOD 데이터를 걸러내는 듯 하다. ODIN의 경우는 좀 더 분포의 차이를 극대화하기 위해 Temperature 기반 Smoothing과 Adversarial Noise를 추가하였다. 세미나에서 언급하지는 않았지만, 해당 방법론들은 아무래도 분포에 따라 Threshold를 설정하여 거르는 만큼, FN이나 FP 사례가 많을 것 같다는 느낌이 든다. Mahalanobis-based Score의 경우 매우 직관적이며 이는 일반적인 N-Modal GMM 모델에서 데이터가 샘플링될 확률이 작으면 OOD라고 판단하는 것이라고 생각하면 편할 듯 하다. Energy-based Score의 경우 처음봐서 그런지 이해하기가 어려웠다. (완벽하게 이해하진 못했다). 처음 볼 때는 Energy-based Score나 Softmax-based 나 그러면 같은 거 아닌가? 라는 생각이 들었는데, 해당 질문을 예상했는지 Softmax-based Score가 bias가 존재한다는 것을 증명하여 Energy-based Score가 더욱 유용하다는 것을 보여준 것이 인상 깊었다. 소개한 논문이 많았는데 깔쌈하게 잘 정리한 세미나였다. 준비하느라 고생한 새린이형께 감사의 말을 전한다.

Seminar