고려대학교 DMQA 연구실

2026 대한산업공학회 춘계학술대회 - 손병우

2026년 6월 9일 오후 5:00
조회수: 50

Reviewed by

손병우

[학회 후기]

6월 4일부터 5일까지, 경주에서 열린 2026 대한산업공학회 춘계학술대회에 참석하였다. 이번 학회는 처음으로 학회에 참여해 구두 발표를 진행하는 자리였기 때문에 많이 긴장되었지만, 동시에 연구실을 벗어나 다양한 연구를 직접 보고 들을 수 있다는 점에서 설레는 마음도 컸다. 그동안 연구실에서 여러 차례 발표를 준비하고 교수님의 피드백을 받으며 연구 내용을 정리해온 덕분에, 긴장 속에서도 비교적 차분하게 학회에 참여할 수 있었다.

이번 학회에서는 다양한 산업공학 분야에서 인공지능을 활용한 연구들을 접할 수 있었다. 특히 AI Agent, 대규모 언어 모델(Large Language Model, LLM), 비전-언어 모델(Vision-Language Model, VLM) 등을 활용한 연구들이 활발히 다루어지고 있어 최근 연구 흐름을 체감할 수 있었다. 또한 발표와 포스터 세션에 참여하며 다른 연구자들이 문제를 어떻게 정의하고, 실험을 어떻게 설계하며, 결과를 어떻게 설득력 있게 전달하는지 배울 수 있었다. 특히, 실제 산업계에서 근무하시는 분들의 발표를 들으며, 현재 사내에서 어떤 문제들이 중요하게 다루어지고 있는지, 그리고 이를 해결하기 위해 인공지능 기술이 어떤 방식으로 적용되고 있는지를 구체적으로 알 수 있었다. 이를 통해 단순히 논문 속 방법론을 이해하는 것을 넘어, 실제 현장에서 마주하는 데이터 보안, 도메인 지식 부족, 시스템 제약, 인과관계 분석의 어려움 등 현실적인 문제들에 대한 견문을 넓힐 수 있었다.

[발표 후기]

이번 발표에서는 “비전-언어 모델의 원격 탐사 도메인 일반화를 위한 푸리에 변환 기반 프롬프트 튜닝 방법론”이라는 주제로 연구를 소개하였다. 본 연구는 비전-언어 모델(Vision-Language Model, VLM)이 특정 Source Domain에서 학습될 경우, 학습 도메인에 치우친 표현을 학습하게 되어 보지 못한 Target Domain에서 일반화 성능이 저하될 수 있다는 문제에서 출발하였다. 특히 원격 탐사(Remote Sensing, RS) 이미지는 위성 혹은 항공 센서를 통해 관측된 이미지로, 작은 객체, 센서 간 변동성, 계절 및 대기 변화, 지리적 분포 변화 등 다양한 도메인 변화 요인을 포함한다. 따라서 RS 도메인에서는 단순히 학습 데이터에 잘 맞는 모델보다, 다양한 unseen target domain에서도 강건하게 동작할 수 있는 모델이 중요하다고 보았다. 본 연구에서는 이러한 흐름을 바탕으로, RS 도메인의 핵심 특징인 주파수 정보와 깊은 레이어의 고수준 의미 특징을 함께 활용하는 프롬프트 튜닝 방법론을 제안하였다. 구체적으로, 프롬프트에 푸리에 변환을 결합하여 공간적 특징뿐만 아니라 주파수 기반 특징을 함께 학습하도록 하였고, CLIP의 깊은 레이어에 프롬프트를 주입하여 고수준 의미 특징 중심의 표현 학습을 유도하였다. 실험 결과, 제안 방법론은 대부분의 Target 데이터셋에서 기존 SOTA 방법 대비 향상된 성능을 보였으며, 특히 푸리에 비율과 레이어 깊이에 따른 추가 실험을 통해 깊은 레이어 중심의 프롬프트 튜닝이 성능 향상에 중요한 역할을 한다는 점을 확인할 수 있었다.

발표를 준비하고 진행하면서 내가 제안한 방법론의 구조를 설명하는 것만큼이나, 왜 RS 도메인에서 주파수 정보와 고수준 의미 특징이 중요한지를 설득력 있게 전달하는 것이 중요하다는 점을 다시 느꼈다. 또한 발표 이후 질의응답 과정에서 추가로 준비했던 Appendix 자료와 예상 질문 답변을 실제로 활용할 수 있었는데, 프롬프트에 FFT를 적용하는 원리 및 향후 연구 방향에 대한 질문이 들어왔을 때 준비한 내용을 바탕으로 답변할 수 있어 큰 보람을 느꼈다. 이를 통해 발표에서의 자신감은 단순히 발표 내용을 외우는 데서 나오는 것이 아니라, 예상 질문을 고민하고 연구의 근거를 충분히 준비하는 과정에서 나온다는 것을 깨달을 수 있었다.

질문#1. RS 도메인 특화 연구라고 하였는데, 왜 일반화된 주파수 특징 및 멀티스케일 특징을 사용하였는지?

답변#1. 추후 RS 이미지뿐만 아니라 일반 이미지나 산업 이미지로도 확장 가능한 연구를 염두에 두었기 때문에, 특정 데이터셋에만 의존하는 특징보다는 보다 일반화 가능한 주파수 특징과 멀티스케일 특징을 활용하고자 하였다. 다만 이러한 특징들이 RS 도메인과 무관한 것은 아니며, RS 이미지는 객체 크기 변화, 배경 잡음, 센서 및 촬영 환경 변화가 크기 때문에 멀티스케일 정보와 주파수 정보가 도메인 강건성에 도움이 될 수 있다는 기존 연구의 근거를 바탕으로 연구를 진행하였다.

질문#2. 프롬프트 자체에 FFT를 적용하는 것인지? 그렇다면 어떠한 원리로 동작하는 것인지?

답변#2.프롬프트 자체에 FFT를 적용하는 것이 맞다. 기본적인 Visual Prompt Tuning에서는 학습 가능한 프롬프트 토큰이 Transformer Layer를 통과하면서 이미지의 공간적 특징 학습을 유도하게 되는데, 여기에 FFT를 적용하면 프롬프트 임베딩이 공간적 특징뿐만 아니라 저주파 및 고주파와 같은 주파수 영역의 특성까지 함께 반영할 수 있게 되는 원리이다. 따라서 프롬프트가 단순히 이미지의 특정 공간적 위치나 패턴에만 반응하는 것이 아니라 도메인 변화에 상대적으로 강건한 주파수 기반 표현을 함께 학습하도록 유도하는 효과를 기대하였다.

질문#3. 향후 연구 방향으로 FFT 비율을 동적으로 조정하는 것을 언급했는데, 더 나아가 주파수 특징이 도메인 일반화에 미치는 영향을 깊게 분석하는 방향은 어떻게 생각하는지?

답변#3. 저 역시 해당 방향이 중요하다고 생각하며, 현재 연구에서는 고정된 푸리에 비율을 기준으로 성능 변화를 확인하였지만, 향후에는 주파수 특징이 어떤 도메인 변화에 더 효과적으로 작용하는지, 그리고 저주파와 고주파 성분이 각각 도메인 일반화에 어떤 역할을 하는지 더 깊게 분석할 필요가 있다고 생각한다. 특히, VLM에서는 Vision과 Language라는 서로 다른 modality 간의 gap이 존재하기 때문에, 이를 주파수 관점에서 해석하거나 정렬하는 방향으로 확장한다면 더 의미 있는 연구로 발전할 수 있을 것이라 생각하고 있다.

[청취 후기]

1. 주파수 대역 분할 캡슐 및 상호주의 집중 메커니즘 기반의 이종 센서 데이터 통합 고장 진단 연구 (임주현 /서울대학교)

해당 연구는 진동 신호와 전류 신호를 함께 활용하여 회전 기계의 고장을 진단하는 방법론을 제안한 연구였다. 단일 센서만 사용할 경우 특정 고장 정보를 충분히 포착하지 못할 수 있다는 한계에서 출발하였으며, 기계적 고장 정보가 주로 반영되는 진동 신호와 전기적 이상 정보를 포함하는 전류 신호를 함께 활용하여 보다 정확한 고장 진단을 수행하고자 하였다. 제안 방법론은 진동과 전류 모달리티 간의 상호 관계를 효과적으로 반영하기 위해 크로스 어텐션 기반 라우팅 메커니즘을 적용하였는데, 진동 및 전류 시계열 신호를 STFT를 통해 시간-주파수 스펙트로그램으로 변환한 뒤, 이를 주파수 대역별로 분할하여 각 대역의 고장 관련 특징을 추출하는 방식으로 구성되었다. 이후 각 주파수 대역의 특징을 캡슐 형태로 표현함으로써, 단순한 feature vector가 아니라 각 모달리티와 주파수 대역이 지닌 구조적 정보를 보존하여 최종 고장 분류에 활용하는 방식의 연구를 진행하였다.

이 발표를 통해 캡슐 네트워크가 서로 다른 모달리티 간의 정보를 구조적으로 보존하고, 모달리티 간 관계를 반영하는 데 활용될 수 있다는 점을 알 수 있었다. 특히 Vision-Language 모델에서도 서로 다른 모달리티 간의 gap을 줄이는 것이 중요한 문제이기 때문에, 이러한 캡슐 기반 접근이 새로운 관점에서 도움이 될 수 있다고 느꼈다. 최근 읽은 “All You Need is One: Capsule Prompt Tuning with a Single Vector” 논문에서도 캡슐 방식을 활용한 프롬프트 튜닝 아이디어가 제시된 만큼, 캡슐 네트워크가 모달리티 간 표현 정렬이나 프롬프트 튜닝에 어떻게 활용될 수 있는지 더 자세히 살펴보고, 현재 진행 중인 연구에 접목할 수 있는 방향을 고민해보고 싶다.

2. Development of a Real-Time Knowledge Retrieval and AI-Driven Recommendation System for the Semiconductor Equipment Academy (기완욱, 김애경, 민경학, 이승봉/ 삼성전자)

해당 발표는 기업 내부에서 도메인 특화 LLM 및 AI Agent를 구축하는 과정에서 발생하는 현실적인 문제들을 다룬 발표였다. 현재 범용 LLM이 일반적인 지식이나 상식적인 질문에는 비교적 정확하게 답변할 수 있지만, 반도체 공정, 설비 불량, 특정 라인에서 발생하는 문제처럼 도메인 특화 지식이 필요한 질문에는 충분히 정확한 답변을 제공하기 어려우며, 실제 사내에서는 데이터의 분산성과 보안 및 시스템 제약으로 인해 상용 AI 모델은 쉽게 활용하지 못한다는 말씀을 해주셨다. 실제 기업 내부의 지식은 위키, ERP, 그룹웨어 등 여러 시스템에 흩어져 있으며, 동일한 문제에 대해서도 작성자나 공정 환경에 따라 서로 다른 답변이 존재할 수 있다고 한다. 또한 RAG 기반 시스템을 구축하려 해도 문서 업로드 용량 제한, 인덱스 개수 제한, 보안 검토 절차 등으로 인해 대규모 사내 데이터를 한 번에 활용하기 어렵고, 필요한 문서를 사람이 직접 정리하고 분할해야 하는 경우가 많다고 설명하였다.

물론, 프롬프트나 인스트럭션을 세밀하게 설계하면 특정 질문에 대한 답변 성능을 어느 정도 높일 수 있지만, 질문의 범위가 설비, 공정, 교육, 복지 등으로 달라질 때마다 적절한 지시문과 참조 문서가 달라져야 한다는 한계가 있다고 하며 결국 도메인 특화 AI Agent를 실제 산업 현장에 적용하기 위해서는 단순히 좋은 LLM을 사용하는 것만으로는 부족하며, 데이터 정리, 문서 구조화, 검색 시스템, 보안 환경, 전문가 검증까지 함께 고려해야 한다는 점을 강조한 발표였다.

이 발표를 통해 LLM 및 AI Agent 연구가 실제 산업 현장에 적용될 때는 모델 성능뿐만 아니라 데이터 관리, 특히 보안과 관련된 운영 환경이 매우 중요한 요소로 작용한다는 점을 알 수 있었다. 특히 연구실에서는 주로 모델 구조, 성능 향상, 방법론의 novelty를 중심으로 문제를 바라보는 경우가 많지만, 실제 기업에서는 보안, 데이터 접근성, 문서 신뢰도, 도메인 전문가의 검증 과정이 모델 활용 가능성을 크게 좌우한다는 점이 인상 깊었다. 현재 나 역시 산업 데이터를 활용한 VLM 및 AI 모델 적용에 관심을 가지고 있는 만큼, 앞으로 연구를 진행할 때 모델 자체의 성능뿐만 아니라 실제 데이터가 어떤 형태로 존재하고, 현장에서 어떻게 활용될 수 있는지까지 함께 고려해야겠다고 느꼈다.

Conference