- 2026년 6월 8일 오후 2:55
- 조회수: 85
김윤아
[학회 후기]
2026년 6월 4일~5일 경주 화백컨벤션센터에서 진행된 2026 대한산업공학회 춘계공동학술대회에 참가하였다. 다양한 구두
발표와 포스터 발표를 접하며 최근 산업공학 분야에서 인공지능이 어떻게 활용되고 있는지 직접 확인할 수 있었다. 특히 MLLM, VLM, Federated Learning 등 다양한 AI 방법론이
의료, 제조, 보안, 언어모델
응용 등 산업 전반의 실제 문제와 연결되고 있다는 점을 몸소 느끼게 되어 인상적이었다.
이번 학회에서는 포스터 발표자로 참여하였다. 처음 참여하는 학회라
긴장도 되었지만, “내 연구에 대해서만큼은 내가 가장 전문가라는 생각으로 자신감을 가지라”고 하셨던 교수님의 말씀을 떠올리며 차분하게 발표를 이어가고자 했다. 실제
포스터 세션에서는 생각보다 많은 분들이 관심을 가지고 찾아와 주셨고, 특히 나와 전혀 다른 연구 분야를
가진 분들도 내 연구를 보고 질문을 던져 주셨다. 이를 통해 하나의 연구를 바라보는 관점이 연구 분야나
배경에 따라 얼마나 달라질 수 있는지를 체감할 수 있었고, 앞으로는 내 분야에만 국한되지 않고 더 넓은
지적 호기심을 가져야겠다는 자극을 받았다.
또한 포스터 발표의 장점도 크게 느낄 수 있었다. 정해진 시간 안에 일방적으로 발표하는 구두 발표와 달리, 포스터 발표에서는 청중의 질문에 따라 연구의 특정 부분을 더 자세히 설명하거나, 예상하지 못했던 관점에서 대화를 이어갈 수 있었다. 특히 질문을 주고받는 과정에서 내가 미처 생각하지 못했던 한계점이나 후속 연구 방향을 고민해볼 수 있었다. 이번 경험을 통해 연구는 단순히 실험 결과를 제시하는 것에서 끝나는 것이 아니라, 다양한 관점의 질문을 받아들이고 이를 바탕으로 더 설득력 있는 문제의식과 연구 방향을 만들어가는 과정이라는 점을 느꼈다.
[발표 후기]
이번 학회에서는 “대형 언어 모델 설명문을 활용한 시각 프롬프트 튜닝
기반 CLIP 제로샷 성능 향상”을 주제로 발표를 진행하였다. 본 연구는 CLIP의
zero-shot image classification 성능을 향상시키기 위해, LLM이
생성한 text descriptor를 정제하고 이를 Visual
Prompt Tuning과 결합하는 방법론을 제안하였다. 구체적으로는 LLM descriptor에 포함될 수 있는 노이즈를 filtering하고, 이미지별로 적합한 descriptor에 더 높은 가중치를 동적으로
부여한 뒤, 이를 바탕으로 생성한 pseudo-label을
활용해 VPT를 학습하는 방식으로 text 정보와 visual 정보를 함께 활용하고자 하였다. 실험 결과, 9개 이미지 분류 벤치마크에서 기존 CLIP zero-shot 및
관련 방법론 대비 평균 성능 향상을 확인할 수 있었다.
질문#1: Text descriptor로 활용한 LLM model은 무엇이었으며, 해당 모델을 선택한 이유가 있는가?
답변#1: 본 연구에서는 CuPL descriptor
생성에 사용된 OpenAI의 text-davinci-002(OpenAI
GPT-3)를 그대로 활용하였다. 그 이유는
descriptor 생성 모델 자체를 변경하기보다는, CuPL과 동일한 descriptor를 사용한 상태에서 제안한 refinement 및 VPT 결합 방법론이 순수하게 어느 정도의 성능 개선을 가져오는지 확인하고자 했기 때문이다. 이번 연구를 통해 제안 방법론의 효과를 확인했으므로, 후속 연구에서는 descriptor 생성에 사용하는 LLM을 변경하거나 최신 LLM을 활용했을 때 성능이 어떻게 달라지는지도 추가로 실험해볼 계획이다.
질문#2: 향후 계획으로 제시한 class별 image prototype을 추가로 활용하여 semantic reference와 visual reference를
통합하는 방향에 대해 더 자세히 설명해줄 수 있는가?
답변#2: 현재 방법론에서는 class를 대표하는 기준이 주로 text descriptor를 기반으로 만들어진 semantic reference에 가깝다. 즉, class에 대한 언어적 설명은 풍부하게 반영할 수 있지만, 실제 이미지들이 가지는 시각적 특징을 class-level reference로 직접 반영하는 데에는 한계가 있다. 이를 보완하기 위해 후속 연구에서는 pseudo-label의 신뢰도가 높은 샘플들을 활용하여 class별 image prototype을 구성하고자 한다. 각 class에 대해 신뢰도 높은 이미지들의 CLIP 또는 VPT feature를 평균내어 visual prototype을 만들고, 이를 기존 text descriptor 기반 class query와 함께 결합하는 방식이다. 이렇게 하면 최종 분류 시 class의 의미적 설명뿐만 아니라, 실제 이미지 분포에서 나타나는 시각적 대표성까지 함께 고려할 수 있다. 특히 Aircraft, Cars, Flowers처럼 class 간 시각적 차이가 세밀한 데이터셋에서는 text descriptor만으로 구분하기 어려운 부분을 visual prototype이 보완할 수 있을 것으로 기대한다.
[청취 후기]
1. AlienLM: Vocab 변환을 통한 API 환경에서의 대형언어모델 데이터 비식별화 방법론 (김재희/서울대학교)
해당 발표는 API 기반 LLM을 사용할 때 입력 데이터가 외부 모델로 전달될 수밖에 없다는 현실적인 문제에서 출발해, 민감한 정보를 보호하기 위한 데이터 난독화 방법론을 제안한 연구였다. 특히 인상 깊었던 점은 발표자가 단순히 “보안이 중요하다”는 식으로 넘어가지 않고, 왜 LLM 환경에서 난독화가 필요한지, 기존 방식으로는 어떤 한계가 있는지를 차근차근 설명해 주었다는 점이다. 인간은 읽을 수 없지만 언어모델은 처리할 수 있는 외계어 형태의 표현을 만든다는 아이디어도 직관적으로 전달되어, 연구의 필요성과 방법론을 쉽게 납득할 수 있었다.
또한 발표 자체가 매우 이해하기 쉽게 구성되어 있었다는 점이 기억에 남는다. 난독화, vocab 변환, 도메인 특화 학습처럼 자칫 어렵게 느껴질 수 있는 개념들을 예시와 흐름을 통해 설명해 주어서, 발표를 듣는 입장에서 큰 어려움 없이 따라갈 수 있었다. 연구 내용뿐만 아니라 발표 방식 자체에서도 배울 점이 많았고, 나 역시 앞으로 내 연구를 설명할 때 방법론의 복잡함보다 “왜 이 문제가 중요한지”와 “어떤 흐름으로 해결하려는지”를 더 설득력 있게 전달할 수 있도록 발표력을 키우고 싶다는 생각이 들었다
2. Cliff Tokens: Where and Why LLM Mathematical Reasoning Falls Off (고재용/서울대학교, Poster)
해당 연구는 LLM의 수학 추론 실패를 단순히 “답이 틀렸다”는 결과로만 보지 않고, 어느 token에서 추론 흐름이 무너지는지를 Cliff Token이라는 개념으로 포착했다는 점이 흥미로웠다. 특히 하나의 token이 이후 reasoning trajectory 전체를 잘못된 방향으로 끌고 갈 수 있다는 관점이 인상적이었다. 또한 오류 token도 deterministic, uncertain, sampled-off cliff처럼 서로 다른 유형으로 나누어 분석했다는 점에서, 모델의 실패를 더 세밀하게 진단할 수 있는 가능성을 보여주었다.
CLIP/VLM에서도 최종 분류 정확도만 보는 것이 아니라 어떤 descriptor나 visual prompt가 성능 향상 또는 오류에 결정적인 영향을 주는지를 더 세밀하게 분석할 수 있겠다는 생각이 들었다. 예를 들어 특정 descriptor가 pseudo-label을 잘못 유도하거나, 특정 visual prompt 학습 샘플이 성능을 떨어뜨리는 trigger처럼 작동할 수도 있다. 따라서 이 발표를 들으며, 향후 내 연구에서도 단순한 성능 비교를 넘어 실패가 발생하는 지점과 원인을 찾아내는 분석이 필요하다고 느꼈다.