[학회후기]

학회로써는 1년, 일본에 동일학회로써는 2년만에 ICIEA 학회에 참가하게 되었다. 2024년도 히로시마에서 최초로 갔던 때에 비해서 갈수록 규모가 커지고 있는 것 같다. 2년전만 하더라도 작은 빌딩의 1층도 아닌 방 2~3개에 세션을 진행하였었는데, 올해는 전반적인 발표 논문 수가 증가하였을 뿐만 아니라 참가하는 국가 및 대학도 다양해졌다. 특히 강화학습 연구자로써, 별도의 강화학습 세션에 참여하여 발표 및 청취할 수 있었던 것이 심히 감격스럽다. 특히 이번에 강화학습 세션은 단순히 시뮬레이션 벤치마크에서 보상을 최대화하는 강화학습 알고리즘의 개발 뿐만 아니라 스케줄링, 멀티 에이전트 AGV, dynamic pricing 등 직접 MDP를 정의하는 연구가 다수 포진되어 있었다. 강화학습 연구자로써, 기존에 만들어진 MDP 환경에서 알고리즘을 개발하는 것 뿐만 아니라, 실제로 문제를 정의하고 MDP를 구체화하는 것이 필수 덕목이라는 것을 깨닫게 되었다. 특히 부산대학교 산업공학과 한준희 교수님 연구실에서 다양한 실제 상황 관련 연구를 발표하였는데, 기존의 내 분야와는 달라서 완벽히 이해하지는 못했지만 그래도 이런것도 있구나를 느끼면서 견문을 넓힐 수 있었다.


[발표 후기]

발표 제목 : Addressing Ambiguous Query Problems in Preference-based Reinforcement Learning from Pixels

발표 내용 : PbRL에서는 복잡한 보상 함수 디자인을 우회하여 인간 피드백을 사용하여 보상함수를 학습한다. 인간 피드백 데이터는 1. 에이전트가 이때까지 수집한 replay buffer 데이터에서 추출한 1쌍의 state-action sequence (쿼리), 그리고 2. 어떠한 시퀀스가 태스크에 더 부합하게 행동했는지 사람이 판단하는 레이블로 구성되어 있다. 이 때, 다양하고 정보 함량이 많은 쿼리를 추출하여 사람에게 물어봐야 질 좋은 피드백 데이터를 수집할 수 있기 때문에, PbRL에서 쿼리 샘플링은 매우 중요한 연구 주제중 하나이다. 다만 기존의 쿼리 샘플링들은 '과연 이 쿼리를 실제 사람이 분간할 수 있을까?'에 대해는 고려하지 못한다. 사람은 완전히 이성적이지 않고 세세한 디테일을 놓치기 쉽기 때문에 시각적으로 분명한 차이를 나타내면서, 동등한 비교가 가능한 쿼리를 뽑는 것이 중요하다고 생각하였다. 이에 따라 비디오 시퀀스로부터 feature를 추출한 후, 시간이 흐름에 따라 feature간의 유사도가 작아지는 쿼리를 뽑자라는 취지로써 random feature distance sampling (RFDS)를 제안하였다. RFDS의 핵심 아이디어는 1. 두 state-action sequence 는 초기에 유사도가 높아야한다 (동일한 시작점에서 시작하여 동등한 비교가 되도록 한다), 2. 두 state-action  sequence는 후반에 유사도가 낮아야한다 (시각적으로 분명한 행동 결과의 차이를 보여야한다)는 것이다. 이를 구현하기 위해서는 1. 과연 고차원의 raw pixel observation에서 어떻게 저차원 feature embedding을 추출할 것인가?, 2. 이러한 non-ambiguity는 어떻게 정의할 것인가를 해결해야한다. 1.은 'random encoder는 유사한 feature끼리 묶이는 경향이 있다'라는 것을 보인 RE3 (ICML 2021) 연구를 참고하여 해결하였고, 2를 해결하기 위해 random feature distance matrix (RFD)와 target distance matrix (TD)를 정의한후, 이 둘 간의 차이를 스코어로 정의하였다. 제안하는 샘플링은 robotic manipulation task인 Meta-World Door Open에서는 압도적인 성능차이를 보여주었으나, locomotion task인 DMControl Walker Walk에서는 기존 방법론과 비슷한 성능을 보였다.


발표 후기 : 짧은 시간 내에 많은 내용을 전달하려다 보니, 전달해야할 순서도 헷갈리고 초반에 너무 자세히 설명하여 후반에는 시간에 쫓겨 제안방법론 쪽을 너무 빠르게 넘어갔던 것 같다. 말그대로 약간 용두사미식의 발표가 되어버렸던 것 같은데, 다음부터는 악센트를 주어야할 부분과 안주어야할 부분을 잘 조절하게 시간을 분배해야할 것 같다. 또한 발표하는 톤이나 속도 측면에서도 너무 빠르게 말하다보니, 청취자들을 잘 고려하지 않았던 것 같다. 다음부터는 청취자들의 표정을 살펴보며 속도를 조절할 필요가 있을 것 같다.


질문 1 : 이러한 PbRL에서는 보통 피드백을 어떤식으로 제공하나요? 그렇게 주어진 피드백 데이터는 믿을만한가요?

답변 1 : 알고리즘 간의 공평한 평가를 위해서 벤치마크 테스팅 시에는 실제 환경에서 주어지는 ground-truth reward를 기반으로 대소관계만 판단하여 이진 레이블로 줍니다. 다만 실제 human-in-the-loop 상황을 고려한 상황에서는 한 명 혹은 여러 명의 non-expert를 고용하여 레이블링을 수행하게 합니다.


[청취 후기]

1. Preventive-Maintenance-Aware Lot Scheduling of Semiconductor Cluster tools

Lot Scheduling을 위한 MDP를 정의하고 PPO 알고리즘을 적용한 연구이다. 상태, 행동 등 MDP의 모든 요소를 정확히 어떻게 정의했는지는 자세히 기억나지 않지만, multi-objective를 고려해야하는 보상 함수를 설계 하였기 때문에 Lexicographical PPO라는 알고리즘을 썼다라는 것만 기억이 난다. lexicographical ppo란, 여러 개의 reward signal이 있는 상황에서 1번째 보상 함수를 최대화한 후, 그 다음 이 feasible region(?) 이 솔루션 내에서 2번째 및 3번째 등의 보상 함수 들을 최대화하는 정책으로 고도화한다는 느낌인 것 같다. 이번 학회에서 가장 큰 수확은 lexicographical rl이라는 분야가 있다라는 것을 알게된 것이었다.


2. Vision-Language Understanding of CAD Images for Product Appearance Code Generation

공업 현장에서 사용하는 설계도면의 경우, 일반적인 문서와 다르게 문단의 줄 위치도 다르고, 형식이 정형화되있지 않으며, 복잡한 공학용 기호가 있기 때문에 일반적인 VLM 혹은 OCR 알고리즘이 제대로 정보를 추출하기가 힘들다. 본 연구에서는 VLM(Florence)를 CAD Image에 튜닝하여 CAD 데이터의 수학 기호 및 텍스트, 도면 이해도를 높인 VLM을 학습하고자 하였다. 발표하시는 분이 싱가폴 혹은 인도계 같았는데, 상당히 영어 발음이 좋고 귀에 쏙쏙 박혔다. 뿐만 아니라 실제 UI까지 만들어 각 도면 별로 어떻게 bbox가 추출되었는지 보았는데 상당히 효용성이 높아보였다.