[학회 후기]

무더운 여름 날, 강원도 평창에서 열린 하계데이터마이닝학회에 포스터 발표로 참가하였다. 안 그래도 더운 날씨였지만, 평창은 학회장 열기로 더욱 뜨거웠다. 이번 학회는 1년전 보다 더욱 많은 사람들이 참가하였다. 교수님 및 기업 대표님들로 구성된 구두 발표 세션은 알찼고, 포스터 발표 개수 또한 많아졌다. 특히, 최근에 많이 언급되는 Foundation 모델, LLM, Diffusion 등 핫한 연구 분야에 대한 발표들도 많아서 굉장히 유익했다. 나와 유사한 분야를 관심 갖는 사람들도 많이 만나볼 수 있었으며, 다양한 대화를 해보면서 내가 몰랐던 포인트들을 다시 생각해볼 수 있었다. 추가적으로, 이번 학회도 역시 선발대로 참가했다. 우리 연구실에서 주최하는 마지막 학회인 만큼 정인/세진을 도와 최대한 차질 없이 진행될 수 있도록 도움을 주고자 하였으며, 실제로도 잘 마무리되어 개인적으로는 뿌듯한 감정을 2배로 느낄 수 있었던 학회였다.



[발표 후기]

주제: Zero-shot Out-of-Distribution Detection with Detailed Guidance using Pretrained Vision-Language Models

이번 발표는 모델 학습 없이 오로지 사전학습된 CLIP의 똑똑한 지식만으로 Out-of-Distribution (OOD) Detection 성능을 고도화 할 수 있는 방법론에 대해 다루었다. CLIP과 같은 Vision-Langauge Model (VLM)에서는 OOD를 최대한 명시적으로 정의해주기 위해 최근에는 Negative Label을 함께 활용한다. 그러나, 단순하게 Negative Label을 활용하는 것은 이미지 내 다양한 특성을 고려할 수 없다. 이에 따라, 본 연구는 텍스트 및 이미지 측면에서 주어진 이미지를 세분화하여 분석한다. 텍스트 측면에서는 기존 In-distribution Class들을 Object, Scene, Attribute으로 구분하고, 이미지 측면에서는 다양한 Context를 반영할 수 있도록 Foreground Masking과 Background Masking을 적용하여 다양한 형태의 이미지를 함께 활용한다. 이를 통해, 본 연구는 이미지 내 존재할 수 있는 다양한 특성을 이미지 및 텍스트 측면에서 모두 고려하여 우수한 성능을 보였다.


질문1: Masking 기법을 적용하는 것이 이미지를 세부적으로 분석하는 측면에서는 부족하지 않나요?

답변1: 맞습니다. 실제로 Masking 영역을 고정하는 것이 아닌, 다양한 영역에 Random하게 Masking을 해보았으나 성능이 크게 좋아지진 않았습니다. 이에 따라, 가장 간단한 Center Masking 전략을 활용했습니다.


질문2: 최종적인 Score는 어떻게 계산되나요?

답변2: 다양한 이미지에서 최소 1개 텍스트 카테고리에 대해서 ID 성향이 보인다면, 해당 이미지는 ID로 분류되어야 합니다. 우리가 활용한 NegLabel Score (2024 ICLR) 는 클수록 ID이기에, 3가지 이미지 및 3가지 텍스트 카테고리에 대한 NegLabel Score를 모두 산출 후, 가장 큰 Score를 최종적인 OOD Score로 활용했습니다.



[청취 후기]

1. Medical X-ray Image Super-Resolution via Patch-Level Conditional Diffusion Models (장효영, 광운대학교)

본 연구는 의료 이미지에 Diffusion을 활용해서 Super-Resolution을 수행하고자 한다. 그러나 의료 이미지는 데이터 개수가 제한적이고, 일반적으로 1024픽셀 이상의 큰 이미지 수준이 요구된다. 일반적으로 Diffusion을 활용하여 Super-Reoslution을 수행하려면 많은 컴퓨터 리소스와 데이터를 필요로 하지만, 의료 분야 특성 상 이는 쉽지 않다. 이에 따라 본 연구는 기존 이미지를 Patch화하여 Super-Resolution 후, 이어 붙이는 방식을 활용한다. 이때, 겹치지 않게 영역화 후 Super-Resolution을 한다면 마치 바둑판처럼 Grid가 생길 수 있다. 이를 방지하기 위해, 본 연구는 이미지를 겹치게 샘플링 후, 겹치는 영역은 Gaussian Mask Blending 기법을 적용하여 극복했다. 이전에 프로젝트에서 비슷한 방향으로 접근하려고 했지만, 비슷한 문제 상황을 접한 적이 있었다. 결국 해결하진 못했었기에, 본 발표의 Gaussian Mask Blending 기법이 아직도 기억에 남는다.


2. Efficient Zero-shot Neural Architecture Search for SAM-Adapter Architecture (장유나, 광운대학교)

Segment Anything (SAM)은 Segmentation 계 Foundation 모델로, 다양한 분야에서 추가적인 학습 없이도 우수한 성능을 보인다. 그러나, 의료와 같은 도메인 특화 분야에서는 충분한 학습이 안되었기에 성능이 저조하다. 이에 따라 최근에는 Adapter라는 개념을 활용하여 SAM을 미세조정하는 연구가 많다. 그러나 이러한 미세조정을 위한 데이터도 수집 및 레이블링이 필요하기에, 의료와 같은 특수 분야에서는 이마저도 어렵다. 이에 따라, 본 연구는 학습 없이 주어진 데이터에 최적의 SAM adapter를 Neural Architecture Search를 통해 찾는다. 이때 ZICO score를 활용하여 Activation이나 Bottleneck 차원 등을 알아서 조절한다고 한다. 개인적으로 이처럼 Foundation 모델을 학습 없이 활용하는 방향에 관심 있어서 꽤나 재미있게 들었으며, 이러한 분야를 처음 접할 수 있어서 흥미롭게 청취했다.