고려대학교 DMQA 연구실

History of Class Activation Map (CAM)

2022년 2월 22일 오후 3:23
조회수: 5286

REFERENCES

[DMQA세미나]History-of-CAM-백인성.pdf

INFORMATION

2022년 2월 25일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

백인성

TOPIC

History of Class Activation Map (CAM)

On-Line Video

OVERVIEW

요약 : 컴퓨터 비전 영역에서 다양한 문제를 풀기 위해 Convolutional Neural Network (CNN) 모델이 활용되고 있다. CNN 모델은 컴퓨터 비전 영역에서 높은 성능을 보여주고 있지만 예측 결과에 대한 해석이 어렵다는 한계점이 존재한다. 하지만 예측 결과를 활용하는 사람에게 신뢰를 주고 설득하기 위해서는 예측 결과에 대한 해석이 매우 중요하다. 본 세미나에서는 CNN 모델의 예측 결과를 해석할 수 있는 다양한 Class Activation Map (CAM) 알고리즘을 설명하고자 한다. 최초로 제안되었던 CAM 뿐만 아니라, Grad-cam, Grad-cam++, Score-CAM과 작년에 제안되었던 LFI-CAM까지 알고리즘별 특징을 중심으로 CAM 알고리즘의 변화 과정을 살펴보고자 한다.

참고문헌 :
1. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2921-2929).
2. Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE international conference on computer vision (pp. 618-626).

3. Chattopadhay, A., Sarkar, A., Howlader, P., & Balasubramanian, V. N. (2018, March). Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. In 2018 IEEE winter conference on applications of computer vision (WACV) (pp. 839-847). IEEE.

4. Wang, H., Wang, Z., Du, M., Yang, F., Zhang, Z., Ding, S., ... & Hu, X. (2020). Score-CAM: Score-weighted visual explanations for convolutional neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops (pp. 24-25).

5. Lee, K. H., Park, C., Oh, J., & Kwak, N. (2021). LFI-CAM: Learning Feature Importance for Better Visual Explanation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1355-1363).

청취자 후기

허종국

CAM 은 이미지 분류 문제에 적용할 수 있는 XAI 의 대표적 알고리즘 중 하나이다. 금일 세미나는 Vanilla CAM, Grad-CAM부터 가장 최근에 나온 LFI-CAM 까지 CAM의 발전 과정에 대해 알아보았다. 각 알고리즘이 이전 방법론의 어떠한 문제를 극복하였는지로 풀어가는 서술 과정이 매우 좋았다.

초창기 CAM 이 GAP Layer 로 인해 구조적 제약이 존재하였다면, Grad CAM 은 GAP Layer 에 의존하지않고 Gradient 기반으로 활성화 맵의 가중치를 구하는 방법을 제안하였다. Score-weighted CAM 은 Gradient-based CAM에서 활성화 함수로 인한 기울기 소실 문제와, 활성화 맵의 가중치와 Target Score이 정비례하지 않는다는 문제를 지적하였다. Score-based CAM은 Baseline 이미지대비 Channel 별 특징맵으로 인해 얼마나 예측 성능이 향상 됐는지 알려주는 CIC를 산출하여 가중치를 산출한다. 마지막으로 2021년에 나온 LFI-CAM 은 Score-CAM의 연산속도를 개선하고자 하였다.

이번 세미나를 통해 논문을 공부할 때, 단순히 알고리즘의 동작 원리를 이해하는 것 보다 해당 논문이 기존 방법론의 어떠한 문제점을 발견하여 개선하였는지 포착하는 것이 더욱 중요하다는 것을 깨달았다. 세미나를 준비하느라 고생하신 인성이형께 감사의 말씀을 드린다.

배진수

금일 세미나는 다양한 CAM 알고리즘을 주제로 인성이 형이 진행해주었다. CAM 기반 연구는 성능은 뛰어나지만 예측 결과 도출 과정이 블랙박스인 딥러닝의 특성을 보완하고자 진행된 연구 분야이다. 현업에서 많이 활용될 수 있는 연구 주제라고 생각되며 시각화(예측 결과 도출 과정을 설명하는)가 흥미로워 계속 집중있게 보게 되었다. CAM 알고리즘 고도화 부분에서는 어느 것이 더 좋은 설명력을 가졌는지 정성적 시각화를 통해 비교하는데, 정량적인 CAM 평가 프로세스가 필요할 것 같다고 생각했다.(Score-CAM 아이디어를 차용하면 되지 않을까) 세미나에서 소개된 CAM 알고리즘들의 핵심은 아래와 같았다. 직관적인 설명을 중점적으로 좋은 세미나를 준비해주신 인성이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

CAM : 컨볼루션 연산의 마지막 feature map에 GAP 수행. GAP에 의해 출력된 히든벡터는 DNN의 입력 벡터로 간주하여 예측. DNN의 모델 파라미터와 마지막 feature map 사이의 선형결합 값을 활용해 CAM-score(예측 해석)로 정의

Grad-CAM : GAP 출력 모듈을 사용하지 않아도 된다는 장점이 존재함. CAM-score 산출 과정에서 DNN의 모델 파라미터를 gradient(파라미터에 대한) 값들로 대체

Grad-CAM++ : CAM-score 산출 과정에서 gradient 기반 정규화(표준화) 값을 사용. Grad-CAM와 큰 차이는 없으나, 위와 같은 차이점이 더 좋은 해석력(다중 객체 혹은 넓은 모양의 단일 객체에 대해) 확보에 큰 도움을 줌.

Score-CAM: 그레디언트를 사용하지 않는 CAM-score 산출 방법을 제시함. 무색의 이미지(베이스라인) 데이터의 모델 출력값과 컨볼루션 마지막 feature map(전처리 작업 필요)의 모델 출력값 차이를 활용하여 CAM-score 정의.

LFI-CAM: Attention 연산을 통해 예측 정확도를 높이는 동시에, Attention-score를 활용하여 CAM-score 산출. 위에서 소개된 CAM 알고리즘들 대비 연산량이 적은 장점 존재

Seminar