- 2025년 11월 11일 오후 4:25
- 조회수: 42
허종국
[학회 후기]
2025년 대한산업공학회 추계 학술대회가 11월 6일(목)부터 11월 7일(금)까지 이틀 동안 개최되었다. 약 2~3년만에 대한산업공학회에서 구두 발표 및 청취할 기회가 주어져 약간 기대도 되었으며, 이번 개최 장소인 KAIST에 약 15년만에 방문하는 거라 감회가 새로웠다. 평소 참가하였던 데이터마이닝 학회나 다른 인공지능 학회와 달리 산업공학회에서는 인공지능 뿐만 아니라 물류, 공정 스케줄링, 수리 최적화등 산업공학의 다양한 분야의 최신 트렌드를 알 수 있었다. 학회에 참석하는 것의 가장 큰 장점 중 하나는 다른 연구자들의 다양한 연구 주제 및 트렌드를 접할 수 있으며, 대면 질의 응답과 교류를 통해 더욱 폭넓은 지식을 쌓을 수 있다는 점이다. 이번 학회도 굉장히 유익했던 경험인 것 같다.
[발표 후기]
주제 : 효율적인 선호 기반 강화학습을 위한 우도 기반 쿼리 샘플링과 동적 가치 함수 초기화
11월 7일 오전 9시 첫 세션에서 발표를 하게 되었는데, 연구실 선배이신 강현구 교수님께서 좌장을 맡으셔서 약간 더 긴장이 되었던 것 같다. 다른 세션보다 발표자 인원수가 한명 적어서 발표 시간이 꽤 넉넉할 줄 알고 초반에 연구 배경을 천천히 설명하려 했다. 아무래도 강화학습, 그 중에서도 선호 기반 강화학습이다 보니 청취자들의 이해를 돕기 위해 앞장에 많은 시간을 할애해서 내 방법론에 대한 설명을 디테일하게는 하지 못했던 것 같다. 다만 좌장이신 강현구 교수님께서 발표 내용을 잘 캐치하시고 디테일한 부분에 대한 질문을 던져주셔서 부족했던 설명을 보완할 수 있었다.
질문 1 : 신경망을 초기화할 때 정책 함수는 초기화하지 않고, 보상 함수와 가치 함수만 초기화하는 것으로 이해했는데 맞나요?
답변 1: 네 맞습니다. 단기 보상을 예측하는 보상 함수와 장기 보상을 예측하는 가치 함수의 경우 과대 추정 오류 때문에 초기화를 진행합니다. 다른 강화학습 논문에서 정책 함수도 초기화하는 경우도 있지만, 가치 함수의 초기화가 primacy bias를 해결하는 주된 해결책이라고 설명하고 있으며, 제안 방법론의 첫번째 컴포넌트인 정책 함수 우도 기반 쿼리 샘플링을 위해 정책 함수의 가중치는 보존해야 할 필요가 있습니다.
질문 2 : 만약 상태가 이미지인 경우, 상태의 인코더는 CNN등 MLP보다는 약간 더 파라미터가 많고 학습하는데 오래 걸리는 모델일텐데, 이 경우는 초기화를 어떻게 진행하나요?
답변 2 : 유사한 연구에서도 이러한 사례를 언급한 적이 있는데, 이 경우에는 CNN의 인코더는 그대로 두고 마지막 MLP Layer만 부분적으로 초기화하는 방식을 주로 쓰며, 저 또한 동일한 방식으로 진행하였습니다.
[참석 후기]
클래스 불균형 하 노이즈 레이블 데이터셋에서의 준비도 인식 기반 샘플 선택 방법
기존의 노이즈 레이블 데이터의 필터링 방법론의 경우, 클래스 불균형이 큰 데이터셋에서 majority class로 예측하는 경향이 심하다는 문제가 존재한다. 이러한 문제를 해결하기 위해 저자들은 imbalanced dataset에서는 클래스 별로 잘 응집되는 feature space를 활용하고자 하였다. 초기에는 warm-up epoch만큼 모델을 학습한 후, 래스 별로 prototype feature를 구성하고, 클래스 별 prototype과 가까운 feature를 갖는 데이터를 clean 데이터로 판별하여 데이터에 병합한 후 학습하는 과정을 반복하는 방법론을 제안하였다. feature가 충분히 학습된 클래스에 대해서만 clean 샘플을 식별하기 위해 max confidence와 GMM-based sample selection을 활용하였다. 문제 상황이 직관적이고 현실적이었고, 이를 해결하기 위해 제안된 방법론도 잘 설명되었던 발표였다.
IMAE: Interactive Multi-Agent Evolution Framework for Path Planning
경로 탐색을 위해 LLM과 Evolution of Heuristics를 활융하는 방법론을 제안하였다. 해당 분야를 완벽에게 이해하지는 못하였지만 VLM과 Evolutionary Search를 활융해서 보상 함수를 설계하는 방법론인 Eureka와 결이 비슷하다는 느김을 받았다. 다만 IMAE는 Critic, Generation, Analysis의 각각의 역할을 수행하는 LLM Agent들을 활용하기 때문에 Multi-Agent방법론이다. 다만 Knowledge Graph를 사용하여 Knowledge를 추출하는 부분은 해당 분야에 대해 잘 알지 못해 구체적으로 어떻게 흘러가는지는 파악하지 못하였다.