[학회 후기]

 2026 대한산업공학회 춘계학술대회가 6월 4일부터 5일까지 경주에서 열렸다. 대한산업공학회에서 처음으로 구두 발표를 하게 되어 긴장도 되었지만, 동시에 설레는 마음도 컸다. 그동안 연구실에서 여러 차례 발표하고 교수님의 지도를 받으며 준비해온 덕분에 긴장 속에서도 비교적 자신감을 가지고 발표에 임할 수 있었다. 이번 학회에서는 다양한 산업공학 분야에서 인공지능을 활용한 연구들을 접할 수 있었다. 특히 대규모 언어 모델(Large Language Model, LLM), 비전-언어 모델(Vision-Language Model, VLM) 등을 활용한 연구들이 많이 다루어지고 있어 최근 연구 흐름을 체감할 수 있었다. 또한 다른 연구자들이 문제를 어떻게 정의하고, 실험을 어떻게 설계하며, 발표를 어떻게 구성하는지 보면서 배울 점이 많았다. 무엇보다 이번 경험을 통해 연구는 단순히 결과를 만드는 것에서 끝나는 것이 아니라, What보다 Why를 먼저 설득하는 과정이 중요하다는 점을 다시 느꼈다. 즉, ‘무엇을 했는가’보다 ‘왜 이 문제를 다루어야 하는가’를 명확히 보여주는 것이 연구를 더 설득력 있게 만든다는 것을 깨달았다. 실제로 문제 상황과 기존 연구의 한계를 명확히 짚어낸 발표들이 더 잘 이해되었고, 오래 기억에 남았다. 이를 보며 연구 내용을 잘 전달하는 발표력뿐만 아니라, 연구의 출발점과 필요성을 설득력 있게 설명하는 힘이 중요하다는 생각을 하게 되었다. 이번 학회는 내가 하고 있는 연구를 더 넓은 흐름 속에서 바라보고, 앞으로 어떤 질문을 더 깊게 가져가야 할지 고민해보는 계기가 되었다.


[발표 후기]

 이번 발표에서는 “이중 가이드 기반 비전-언어 모델의 강건한 유사 분포 외 데이터 탐지”라는 주제로 연구를 소개하였다. 본 연구는 일반적인 분포 외 데이터 탐지(Out-of-Distribution Detection, OOD Detection) 상황을 넘어, 정상 분포 데이터(In-Distribution, ID)와 시각적으로 유사한 유사 분포 외 데이터(Near-OOD)가 등장했을 때 비전-언어 모델이 과확신하는 문제에 주목하였다. 기존 방법들은 주로 ID 기준을 세우거나 negative label을 활용하는 등 특정 관점에 집중해 문제를 해결하려는 경향이 있었다. 그러나 Near-OOD 상황에서는 한 가지 관점만으로는 모델의 과확신을 충분히 완화하기 어렵다고 보았다. 이에 본 연구에서는 ID에 대한 판단 기준을 명확히 설계하는 관점과, negative label을 OOD evidence로 활용하는 관점을 결합한 이중 가이드 전략을 제안하였다. 발표를 준비하고 진행하면서, 내가 정의한 문제 상황과 제안 방법의 필요성을 더 명확히 설명하는 것이 중요하다는 점을 다시 느꼈다. 이를 통해 앞으로 연구를 더 설득력 있게 정리해야겠다는 생각을 하게 되었다.


질문 1: Near-OOD setting은 유사도 기반으로 임의로 나눈 것인지?
답변 1: 실험에 사용한 Near-OOD setting은 임의로 나눈 것이 아닙니다. 일반적으로 사용되는 벤치마크 데이터셋을 기반으로 하였으며, 발표에서 소개한 EOE 논문에서도 사용된 setting을 활용하였습니다.

질문 2: CuPL과 같은 방법에서는 LLM이 오답을 생성하는 문제를 어떻게 해결하는지?
답변 2: CuPL의 경우 LLM이 생성한 답변 하나에만 의존하지 않고, 여러 prompt와 temperature와 같은 생성 설정을 조절해 얻은 다양한 문장들을 함께 활용하는 방식으로 이러한 문제를 완화합니다.


[청취 후기]

1. GuidelineAD: 시각-언어 모델 기반 검사 지침을 활용한 무학습 이상 탐지 (허재혁 / 서울대학교)

 해당 연구는 정상 상태에 대한 가이드라인을 VLM이 생성하고, 이를 기반으로 이미지 내 이상 현상을 탐지 및 수치화하는 방법론을 제안한 연구였다. 기존 딥러닝 기반 외관 검사는 이상 데이터 의존성, 잦은 재학습, 판단 근거 부족 등으로 실제 산업 현장에 적용하기 어렵다는 한계가 있는데, 이 연구는 이러한 문제를 정상 데이터와 VLM을 활용해 해결하고자 했다. 특히 학습 과정 없이 정상 데이터만으로 탐지 기준을 만들고, VLM을 통해 이상 여부뿐만 아니라 판단 근거까지 제시한다는 점이 흥미로웠다. 나 역시 프로젝트를 통해 VLM을 활용해 정상,이상 판단 기준을 세우는 문제를 접한 적이 있었기 때문에, 이상 점수를 어떻게 산출하는지가 가장 궁금했다. 발표에서 이 부분을 구체적으로 다루어 주어 더 몰입해서 들을 수 있었다. 또한 발표자가 차분하고 명확하게 연구의 흐름을 설명해주어 이해하기 쉬웠다. 이를 보며 좋은 연구를 하는 것만큼이나, 연구를 잘 전달하는 발표 능력 역시 중요하다는 점을 다시 느꼈다.


2. 비전-언어 파운데이션 모델의 내재적 위치 정보를 활용한 산업 이미지 이상치 탐지 연구 (장진우 / 서울대학교, poster)

 해당 연구는 무학습 이상 탐지(Zero-Shot Anomaly Detection, ZSAD)에서 CLIP의 내부 표현을 더 정교하게 활용하는 방법을 다룬 연구였다. 기존 연구들은 성능 향상을 위해 추가 모듈을 도입하는 경우가 많았지만, 이로 인해 모델 복잡도와 연산량이 증가한다는 한계가 있었다. 해당 연구에서는 외부 모듈에 의존하기보다 CLIP 자체의 표현력을 활용해 anomaly localization 성능을 높이고자 했다. 가장 인상 깊었던 부분은 픽셀 수준 이상 탐지(pixel-level anomaly detection)와 이미지 수준 이상 탐지(image-level anomaly detection)에서 효과적인 CLIP 내부 구조가 다르게 나타난다는 점이었다. Pixel-level에서는 마지막 layer의 일부 attention 및 순전파 신경망(Feed-Forward Network, FFN) 구조를 제거하는 것이 도움이 되는 반면, image-level에서는 기존 attention과 residual 구조를 유지하는 것이 중요하다고 설명하였다. 이를 바탕으로 두 관점의 장점을 모두 살리기 위해 추론 경로를 분리하는 아이디어가 제시된 점이 흥미로웠다. 이 연구는 문제 상황을 명확하게 정의하고, 기존 연구의 한계를 잘 짚어낸 점이 인상적이었다. 특히 개방 어휘 의미론적 분할(Open-Vocabulary Semantic Segmentation, OVSS) 분야의 CLIP representation 개선 흐름을 zero-shot anomaly detection에 연결하려는 시도가 설득력 있게 느껴졌고, 내가 관심 있는 VLM 연구이기도 하여 인상 깊은 연구 중 하나였다.