[학회 후기]

작년 일본 히로시마에서 참석하였던 ICIEA 학회에 다시 한번 참여하게 되었다. 작년에 발표하고 나서 발음, 속도, 악센트 관련해서 굉장히 반성을 많이했고, 이번에 이러한 부분을 개선하여 좀 더 청자 친화적인 발표를 하고자 노력했다. 명목적인 결과로서 presentation 상을 수여받지는 못했지만, 나름 자화자찬으로 그래도 작년보다는 좀 더 전달을 또박또박하게 하지 않았나라는 생각을 했다.


[발표 후기]

LiDER: Likelihood-based Query Sampling and Dynamic Value Estimator Reset for Efficient Preference-based Reinforcement Learning 

 

내 연구는 강화학습에서 보상 함수 디자인의 어려움을 극복하기 위해 인간의 선호 피드백을 기반으로 강화학습 에이전트를 학습하는 preference-based reinforcement learning (PbRL) 분야의 연구이다. 특히 해당 연구에서 풀고자 한 문제는 크게 두 가지로 다음과 같다: 첫 번째, query-policy misalignment PbRL에서 보상 함수를 학습하기 위한 query를 샘플링할 때, 기존의 연구들은 에이전트의 실제 행동과 관련성이 없는 query를 추출하기 때문에, 에이전트의 학습에 비효율적이라는 문제이다. 두 번째, primacy bias는 점진적으로 증가하는 선호 데이터셋으로 학습하는 보상함수가 초기 데이터의 학습 횟수 과도화로 인한 학습의 불균형으로, 초기 데이터에 과적합되는 현상을 나타낸다. 뿐만 아니라 이러한 문제는 binary cross-entropy로 인한 과도한 보상 차이 극대화로 인해 보상 함수가 초기 피드백 데이터에서 선호된 상태-행동 시퀀스에 대해 실제 보상보다 더 높은 보상을 부여하는 보상의 과대추정(overesimation) 현상을 발생시킨다는 것을 발견하였다. 이러한 문제를 해결하기 위해 주기적으로 인공 신경망의 파라미터를 초기화하는 방법론이 대표적인 해결책으로 떠오를 수 있으나, 이는 학습 비용을 추가적으로 증가 시키고, 보상을 통해 학습하는 Q 함수에 내재된 추가적인 편향(bias)를 줄일 수 없다. 본 연구에서는 각각의 문제를 해결하기 위해, 첫 번 째, likelihood-based query sampling (LQS) dynamic value estimator reset (DVR)을 제안하였고, 기존의 방법론에서 제안된 temporal augmentation (TA)까지 결합한 LiDER를 제안하였다. LQS는 현재 정책 함수에서 각 상태-행동 시퀀스가 발생할 로그 우도(likelihood)를 계산하여 해당 값의 순위(rank)의 역수를 샘플링 가중치로 활용하여 현재 정책함수와 관련성이 높은 쿼리를 추출한다. DVR critic output에 대한 점진적으로 증가하는 임계값(threshold)을 설정하여 해당 값을 초과하면 보상 함수와 Q 함수를 한꺼번에 reset 후 재학습하는 전략이다. Q 함수의 출력값은 누적 보상의 추정치이기 때문에, overestimation을 판단하기 적합하다는 아이디어에서 고안되었다. 해당 연구를 발표하면서 나름 영어 발음, 특히 연음과 악센트, 속도 조절에 대해 신경을 많이 써서 만족스럽게 발표했다고 생각하였다. 다만 좌장의 질문이해당 연구를 수행하면서 가장 어려웠던 점이 무엇인가라는 다소 가벼운 질문이었다는 것과 다른 사람들의 질문이 나오지 않았다는 것을 생각하면, 청자를 고려하지 않고 너무 불친절하게 발표를 한 것이 아닌가라는 반성도 하게 되었다.



질문 1: 해당 연구를 수행하면서 가장 어려웠던 것이 무엇입니까?

답변 1: 강화학습 알고리즘은 동일한 환경에 시드, 하이퍼파라미터까지 고정하더라도 실험의 편차가 매우 큰 부분이 많습니다. 방법론의 성능을 확실하게 보여주기 위해 좀 더 안정적인 환경을 찾았던 것이 어려웠습니다.

 

[청취 후기]

The Methodology of Predicting Final Temperature of Molten Steel in the Steelmaking Converter Process


청취 후기: 해당 연구는 제강 공정에서 가장 중요한 단계인 컨버터 공정에서 용강(molten stell)의 최종 온도를 예측하는 방법론에 대한 연구이다. 포스코 광양 제철소의 실제 데이터를 활용하여 진행되었다. 제강 공정에서 컨버터는 철광석과 석탄에서 추출한 molten iron에 산소를 불어 넣어 철강(steel)로 만드는 공정이다. 여기서 용강의 온도가 너무 높으면 과산화로 인해 철강의 품질이 저하되고, 너무 낮으면 불순물이 충분히 제거되지 않거나 후속 공정에서 철강이 고체화될 위험이 있다. 이에 따라 정확한 용강 온도 예측은 품질, 생산성, 비용, 측면에서 매우 중요하다. 해당 연구에서는 기존 연구와 달리 기존 컨버터의 잔열을 고려하여 컨버터 공정을 독립적인 실험이 아닌 시계열로써 고려했다는 점이 가장 큰 기여점이다. 잔열에 따른 시계열 분포 변화를 고려하기 위해 RNN 기반의 모델을 사용하였으며, category attention을 통해 스크랩 정보, 제품 유형, 산소 사용량 등에 대해 집중적으로 가중치를 부여하였다. 성능 지표로는 MAE, R2 뿐만 아니라 10/ 7도 내외에 예측한 성능도 기입하였으며, cheating문제를 인식하고 masking 기법을 쓴 것 또한 인상적이었다.