고려대학교 DMQA 연구실

2026 대한산업공학회 춘계학술대회 - 정재우

2026년 6월 8일 오후 3:44
조회수: 66

Reviewed by

정재우

[학회후기]

6월 4일부터 5일까지 진행된 2026년 대한산업공학회에 참여하였다. 우리 DMQA 연구원들은 전날 6월 3일에 경주로 내려가 발표 준비를 수행하였으며, 적당한 회식을 통해 연구원들의 사기를 도모하는 시간을 가졌다. 6월 4일, 본격적으로 학회 등록과 동시에 학회 세션이 시작되었으며, 생각보다 큰 규모와 많은 참여 인원에 압도되었고, 자연스럽게 학술적 토론과 발표를 경청하는 분위기가 형성되었다. 또한 놀라웠던 점은, 산업 공학회임에도 불구하고, 대부분의 발표와 포스터가 산업에 AI를 접목하거나 사용한 어플리케이션 관련 연구였다. 이러한 연구 동향을 몸소 느낄 수 있었고, 여러 산업 도메인과 테스크에 AI가 활용되는 것을 목격하며 차세대 산업 시장에서 경쟁력을 갖기 위해서는 AI 지식이 필수적이라고 생각했다. 다만 더이상 자신의 분야에 대한 지식 혹은 AI 지식 만을 겸비하고 이에 안주하기에는 AI의 범용성 및 접근성이 너무 용이해졌다고 생각한다. 즉, 다른 도메인이나 연구 분야까지 관심을 갖고 탐구해야할 필요가 있다고 생각한다.

[발표 후기]

6월 5일, 오전 10시 40분 세션에 참가하여 "선호도 기반 강화학습에서 보상 모델의 과대확신을 해결하기 위한 이중 혼합 방법론"이란 주제로 학술 발표를 진행했다. 강화학습의 보상 함수 설계 문제 -> 선호도 기반 강화학습 소개 -> PBRL의 보상 모델의 과대 확신 문제 -> 제안 방법론(이중 혼합) -> 실험 및 결론의 흐름으로 발표를 진행했지만, 약 10분 내외의 발표 시간만이 주어졌었기에, 조금 더 구체적이고 이해하기 쉽게 발표하지 못한 것 같아 아쉬움이 남는다.

발표를 마치고, 질의 응답으로 좌장이셨던 한국공대 박성호 교수님께 다음과 같은 질문들을 받았다.

Q1. 소프트 레이블은 기존에 널리 사용되었던 방법론인데, 다른 소프트 레이블 방법론들과 비교해보셨나요?

A1. 네, 여러 소프트 레이블 방법론이 존재하며, 여러 방법론들과 비교 및 제거 실험을 진행한 이력이 있습니다. 실험 결과, 선호도 정도 차이를 고려한 Mixup기반 소프트 레이블링이 효과적이었음을 확인하였습니다.

Q2. 과대확신 상황에 추가적으로 노이즈 레이블 상황까지 다룬건가요? 아니면 노이즈 상황이 메인 상황인건가요?

A2. 충분히 혼동이 있을 수 있다고 생각합니다. 제가 주로 타겟한 상황은, 과대확신이 존재하는 "정상" 상황입니다. 추가적으로 노이즈 상황까지 다룬 것인데, PBRL에서는 인간 피드백 과정 중, 필연적으로 노이즈 레이블이 존재할 수 밖에 없습니다. 또한 모든 딥러닝 상황에서는 clean/noisy label이 주어지는 것 자체가 불확실하기 때문에, 두 상황에서 강건한 성능을 보장하는 것이 제 방법론의 기여도 중 하나입니다.

또한 해당 세션의 모든 발표자가 발표를 마치고, 좌장이셨던 박성호 교수님께 피드백을 요청드렸다. 교수님께서는 논문을 라이팅할 때, 조금 더 강화학습 부분을 강조하고 참고하여 사용한 컴포넌트들이 필요할 수 밖에 없는 문제 상황과 근거 및 가설을 빌드업하는게 중요할 것 같다고 답변을 주셨다.

[청취 후기]

"T-VAD: Temporal-Aware Reinforcement Learning for Video Anomaly Detection" (포스터)

폭력이나 절도 등의 이상 비디오가 주어지면, VLM을 통해 이상 비디오인지를 판단하는 연구였다. 타 연구와의 차별점은, 1에폭의 SFT-warmup 후, GRPO로 사후 학습을 진행하여 보다 정교하고 보지 못한 데이터셋에 일반적인 이상 탐지 성능을 확보하도록 설계하였다. 또한 GRPO의 상대적 이점 보상 함수 이외에 추가 보상 함수 항을 추가하였는데, 동일한 비디오에 대해 정상 시퀀스의 프레임과 셔플 시퀀스 간의 대조 학습을 진행하였다. 이를 목격하고 들은 생각은, 비디오 내 이상 상황은 이전과 이후 프레임 간 시간적 맥락이 중요할 것이고, 그 시퀀스가 무너지는 것을 모달로 사용하다면 어떤 의미가 존재하는가? 였다. 또한 GRPO는 보상 함수를 RULE-based 혹은 검증 가능한 보상 함수를 사용한다. 이는 이전 시간적 맥락을 고려하지 않고 단순히 SFT 참조 모델이 동일 입력에 대해 여러 생성한 답변을 상대적으로 비교하는 것인데, 구체적인 추론 과정과 피드백 학습이 어떻게 이루어지는지 궁금했다. 또한 GRPO의 보상 함수를 어떻게 설계했냐가 궁금해졌는데, 특히 마르코프 성질을 만족시키며 설계한 의도인지 궁금했다. 다만 아쉬운 점은 발표자가 부재했기에 궁금했던 점들을 물어볼 수 없었다는 점이다.

Conference