[학회 후기]
2025년 대한산업공학회 추계학술대회가 대전 KAIST에서 11월 6일(목) ~ 11월 7일(금) 기간 동안 개최되었다. 올해 두 번째 대전 방문(첫 번째는 ETRI 프로젝트 중간보고)이었는데, KTX를 타고 이동하는 과정부터 설레는 기분이 들었다. 처음 방문한 KAIST는 부지가 넓고 도로가 잘 정비되어 자전거로 이동하는 학생들이 많았으며, 현대적인 건물들이 인상적이었다. 학회는 주로 강의실에서 진행되었고, 대전 명물인 성심당 튀김소보로와 커피가 간식으로 제공되어 만족스러웠다. 야외 테이블에서 연구원들과 함께한 점심 시간도 즐거운 추억으로 남았다. 오랜만에 참석한 대한산업공학회에서 산업 분야에 인공지능을 접목한 다양한 연구 발표를 들으며 견문을 넓힐 수 있었고, 학회가 언제나 새로운 아이디어와 영감을 얻을 수 있는 소중한 자리임을 다시 한번 느꼈다.

[발표 후기]
주제: 이상치 탐지 방법을 활용한 SMAC 환경에서의 다중 에이전트 버그 탐지
2025년 11월 6일, ‘이상치 탐지 방법을 활용한 SMAC 환경에서의 다중 에이전트 버그 탐지’라는 주제로 첫 세션의 첫 발표를 진행했다. 좌장이 우리 교수님이셔서 DMQA 오프라인 세미나처럼 편안하면서도, 다른 연구자들이 지켜보는 자리라 새로운 긴장감이 느껴졌다. 발표 시간은 10분으로, 약 24페이지 분량의 내용을 제한된 시간 내에 전달하기 위해 속도를 조절했지만, 다소 빠른 전개로 인해 청중의 이해가 어려웠을 수도 있다는 아쉬움이 남았다. 본 연구는 다중 유닛 기반 게임에서 인공지능을 활용해 버그를 자동으로 탐지하는 품질 보증(QA) 프레임워크를 제안한 것으로, 기존의 단일 유닛 환경에서 DQN과 LSTM 기반 이상 탐지 기법을 활용하던 방식을 확장하였다. 실제 게임과 유사한 SMAC 환경에서 D-QMIX를 통해 데이터를 수집하고, Forward Dynamics Model(FDM)을 활용하여 상태–행동–결과 간의 인과 관계를 학습함으로써 버그를 탐지하였다. 세 가지 유형의 버그를 구현하여 실험을 진행한 결과, 제안한 모델이 기존 시계열 이상 탐지 기법보다 모든 버그 유형에서 우수한 성능을 보였다.

질문 1: 학습에서 보지 못했던 버그를 어떻게 평가 시에 탐지하나요?
답변 1: 제안한 버그 탐지 모델은 정상 데이터만을 사용해 학습하는 비지도 학습 기반 이상 탐지 방식입니다. 따라서 학습 단계에서 보지 못한 버그가 발생하더라도, 평가 시 입력된 데이터가 정상 분포와 다르면 이를 이상으로 인식하여 효과적으로 탐지할 수 있습니다.

질문 2: F1(K=0)일 때의 성능은 낮더라도 F1(K=100)과 AUC가 높기 때문에 실제 현업 관점에서 괜찮다고 하셨는데, 그렇다면 왜 F1(K=0)을 평가 지표로 사용하셨나요?
답변 2: K=0일 때의 F1 점수는 기존 시계열 이상 탐지 연구들에서 주로 사용되어 온 표준 평가 지표이기 때문에 연구의 비교 가능성을 위해 포함했습니다. 다만, F1(K=0)은 실제 정답 정보를 활용해 보정된 결과를 기반으로 계산되므로, 모델의 성능이 다소 과대평가되는 한계가 있습니다. 이에 본 연구에서는 보정이 전혀 없는 실제 예측 결과를 반영하는 F1(K=100)과, K에 따른 F1 점수를 기반으로 계산한 AUC(F1-K 곡선 아래 면적)을 함께 제시했습니다. 다시 말해, K=0은 기존 연구와의 비교를 위한 기준으로 포함했지만, 실제 적용 관점에서는 보정이 없는 K=100과 AUC가 더 의미 있는 지표임을 강조하기 위해 함께 분석했습니다. 

[청취 후기]
주제: 클래스 불균형 하 노이즈 레이블 데이터셋에서의 준비도 인식 기반 샘플 선택 방법
해당 연구는 클래스 불균형과 노이즈 레이블이 공존하는 데이터셋에서의 학습 문제를 다룬 연구였다. 기존의 small-loss 기반 샘플 선택 기법은 다수 클래스의 샘플이 과도하게 선택되는 한계가 있었는데, 이를 해결하기 위해 발표자는 클래스별 학습 준비도(Readiness) 를 고려한 RASS(Readiness-Aware Sample Selection) 방법을 제안했다. 학습이 충분히 진행된 클래스만을 대상으로 클린 샘플을 선택하고, 오류 가능성이 낮은 클래스의 샘플을 활용한 Negative Learning으로 클래스 간 혼란을 줄였다. CIFAR와 Clothing1M 등의 실험 결과, 기존 기법 대비 높은 F1-score와 일반화 성능을 보여 제안 방법의 효과성을 입증하였다. 전체적으로, 학습 상태에 따라 선택 전략을 달리하는 아이디어가 현실적인 데이터 환경에서 매우 인상적이었다.

주제: 인간 피드백을 활용한 언어 모델 기반 슈퍼마리오 맵 생성 알고리즘
이번 발표는 인간 피드백을 활용한 언어모델 기반 슈퍼마리오 맵 생성 알고리즘 연구로, 언어모델(LLM)을 이용해 프롬프트 조건에 맞춰 자동으로 맵을 생성하는 MarioPref 모델을 제안했다. 단순 지도학습의 한계를 보완하기 위해 인간 피드백 기반 학습(RLHF) 을 적용했으며, 특히 DPO(Direct Preference Optimization) 기법이 프롬프트 충족도와 플레이 가능성 모두에서 가장 우수한 성능을 보였다. 실험 결과, MarioPref-DPO는 오류 없는 맵을 안정적으로 생성하며 Improvement Score와 Playability가 크게 향상되었다. 전반적으로 언어모델과 인간 피드백을 결합해 게임 맵 생성의 품질을 높인 점이 인상 깊었다.