- 2025년 9월 1일 오후 4:50
- 조회수: 15

[학회 후기]
올해 평창에서 열린 하계 데이터마이닝 학회 학술대회에 포스터 발표자로 참가하였다. 이번 학회에서는 특히 LLM 기반 연구들이 눈에 띄게 많아졌음을 확인할 수 있었다. 다양한 관련 연구들을 들으며 LLM의 인기를 실감할 수 있었고, 그 외에도 흥미롭고 의미 있는 연구들에 대해 질의응답 시간을 가질 수 있어 뜻깊은 경험이었다. 특히 작년 추계 학회에서는 1시간 동안 진행되던 포스터 세션이 이번에는 1시간 30분으로 확장되면서 더 많은 연구에 관심을 기울일 수 있었던 점이 의미 있었다. 이번 학회를 준비하면서 교수님뿐만 아니라 연구실 구성원들의 도움이 컸는데, 모두 고생이 많았고 덕분에 더 뜻깊은 시간을 보낼 수 있었다.
[발표 후기, 주제: 이상치 탐지 방법을 활용한 SMAC 환경에서의 다중 에이전트 버그 탐지]
본 연구는 게임 제작 과정에서 발생하는 결함이나 오류를 탐지하기 위한 인공지능 기반 자동화 게임 테스팅 프레임워크를 제안한다. 기존에는 사람이 직접 게임 코드를 분석하거나 게임을 실행한 뒤 수집된 데이터를 기반으로 수작업으로 오류를 평가해야 했는데, 이는 많은 시간과 비용이 소요되는 한계가 있었다. 이를 해결하기 위해, 데이터 수집 단계에서는 강화학습을, 평가 단계에서는 이상 탐지 기법을 활용한 연구가 진행되었지만, 이는 유닛이 하나뿐인 게임 환경에 한정된다는 제약이 있었다. 따라서 본 연구에서는 유닛이 여러 개 존재하는 게임 환경에서도 결함 및 버그를 탐지할 수 있는 자동화 프레임워크를 제안하였다. 데이터 수집에는 다중 에이전트 강화학습 기법인 D-QMIX를 적용하였고, 버그 탐지에는 기존 시계열 이상 탐지 기법과 수집 데이터의 특성을 반영할 수 있는 Dynamics Model을 활용하였다. 실험은 다중 에이전트 강화학습에서 주로 사용되는 SMAC 환경에서 진행되었으며, 버그 유형은 1) 특정 지역에 들어가면 죽은 에이전트로 처리되는 버그, 2) 공격을 받아도 체력이 감소하지 않는 버그, 3) 공격 행동을 수행할 수 없는 버그의 세 가지로 정의하였다. 세 가지 시나리오(2c_vs_64zg, 5m_vs_6m, MMM2)에서 실험을 수행한 결과, 기존 시계열 이상 탐지 방법 대비 데이터 특성을 반영한 Dynamics Model의 성능이 유의미하게 우수함을 확인하였다. 이를 통해 유닛이 여러 개인 게임 환경에서도 버그 및 결함을 탐지할 수 있는 자동화 프레임워크로의 확장 가능성을 검증할 수 있었다.
질문 1: 데이터를 수집하고 rule-based 방식으로 탐지하는 것은 어려운가요?
답변 1: rule-based 방식은 정의할 수 있는 버그의 수가 적을 때는 효과적일 수 있지만, 버그의 수가 많아지면 그만큼 많은 규칙을 정의해야 하므로 오히려 복잡해질 수 있다.
[청취 후기, 주제 1: Exploring the differences in adversarial robustness between ViT- and CNN-based models using novel metrics (허재혁, 강필성 - 서울대학교)]
이번 포스터는 CNN, ViT, 그리고 하이브리드 모델의 적대적 강건성을 비교 분석한 연구를 다루었다. 특히 새로운 민감도 지표 4가지를 제안해 무작위 노이즈와 그래디언트 기반 공격 상황에서 모델 반응을 체계적으로 평가한 점이 인상적이었다. 또한 공정한 실험 설계를 통해 ViT 계열 모델이 CNN보다 강건성이 높음을 실증적으로 보였으며, 기존 연구의 불확실성을 해소했다는 점에서 의미가 있었다.
[청취 후기, 주제 2: AlienLM: 학습 및 추론 데이터 보호를 위한 Vocab Swap 기반 상용 LLM 암호화 프레임워크 (김재희, 강필성 - 서울대학교)]
이 발표는 기업 내부 민감 데이터를 외부 API에 노출하지 않고도 상용 LLM을 안전하게 활용할 수 있는 방법을 다루었다. 제안된 AlienLM은 토큰 치환 기반 암호화를 통해 원문을 보호하면서도 상용 API 환경에서 적용 가능하다는 점이 실용적으로 와닿았다. 특히 Translator–AlienLM 구조로 보안성과 성능을 동시에 추구한 설계가 인상적이었고, 실험을 통해 기존 방법보다 성능 복원력과 보안의 균형을 잘 보여준 점이 흥미로웠다. 산업 현장에서 실제로 적용할 수 있는 현실적인 해법을 제시했다는 점이 크게 다가왔다.
[청취 후기, 주제 3: 의미 기반 유사 로그 검색을 위한 도메인 특화 언어모델 임베딩 (남지훈 - 고려대학교)]
이번 발표는 반도체 제조 공정 이벤트 로그의 의미 기반 검색을 위한 도메인 특화 임베딩 모델을 소개하였다. 기존 접근이 센서 데이터나 정형화된 로그 형식에 의존했던 것과 달리, 엔지니어 코멘트를 활용해 로그 간 의미적 유사도를 학습한 점이 인상 깊었다. 특히 시간 윈도우 내 유사 로그 쌍 자동 레이블링과 Triplet Contrastive Learning 구조를 통한 임베딩 학습이 현장 적용성을 높여주었다. 실제 산업 데이터로 검증된 사례라는 점에서, 로그 기반 AI 진단 시스템 구축의 실질적 가능성을 보여준 의미 있는 연구라고 느껴졌다.