[학회 후기]
대한산업공학회가 50 주년을 맞아서 강남에 있는 과학기술컨벤션센터에서 개최되었다. 10월 24일부터 25일까지 진행이 되었다. 2019년 인턴을 할 때부터 참석을 했는데 벌써 추계학술대회만 다섯 번째 참가라고 생각하니 시간이 참 빠르다고 느껴졌다. 작년에 INFORMS에서 연구를 발표한 이후 1년이 조금 지나서하는 학술 발표였다. 예전에는 발표하기 전날에는 많이 긴장되고 마인드 컨트롤이 필요했는데 확실히 그 때보다는 조금 편하게 준비하는 내 모습이 뿌듯하기도 했다. 올해 추계학술대회에서는 재밌는 발표가 많이 진행되었고 덕분에 많이 배울 수 있는 기회가 되었다.

[발표 후기]
주제: 오프라인 데이터를 활용한 준지도학습 기반의 심층강화학습 방법론
첫 날 오전 세션의 첫 발표였음에도 많은 사람들이 참석하였다. 지난 년도 춘계 학술 대회 때에도 그랬지만 인공지능에 대한 관심이 나날이 높아져 가는걸 느낄 수 있었다. 연구 내용은 강화학습의 보상함수를 보다 효과적으로 학습하는 방법론이었다. 심층강화학습에서는 환경과의 상호작용으로 얻을 수 있는 온라인 데이터 뿐만 아니라 기존에 다른 에이전트가 수집해준 오프라인 데이터를 활용하여 보다 효율적으로 학습을 수행하는 연구가 활발히 진행되고 있다. 최근에는 오프라인 데이터의 보상 정보를 알 수 없다는 보다 현실적인 상황을 가정하고 지도학습 기반의 보상 예측모델을 활용해 이 값을 예측하여 사용하는 연구가 수행되었다. 따라서 제안 방법론은 보다 정확한 보상 예측을 위해 환경의 역학을 반영하고 오프라인 데이터까지 활용한 준지도학습하도록 설계하였다. 제안방법론은 정방향 역학 모델링을 기반의 온라인 및 오프라인 데이터에 대한 비지도 학습과 온라인 데이터의 보상 정보에 기반한 지도학습을 동시에 수행한다.

질문 1. Oracle의 성능보다 Baseline 또는 제안방법론의 성능이 더 높은 경우가 있다. Oracle은 정확한 보상 값을 아는 상태에서 수행한 학습인데 설명이 필요한 것 같다.
답변 1. Oracle과 Baseline & 제안방법론의 차이점은 offline data에 대해서 exploration bonus를 추가한다는 점이다. Oracle에 비해서 탐험 성능이 강화되기 때문에 더 좋은 점수를 달성할 수 있던 것으로 분석한다.

[청취 후기]
주제: 컴퓨터 비전을 활용한 재해 현장 수색/복구 작업 우선순위 지정
지진이 발생 후에 생명체와 구조물이 파괴되면 구조 작업이 어려워진다. 최근에는 이러한 상황에서 드론을 활용한 재난 관리가 수행되고 있으며 실시간 항공 이미지를 통해서 구조 작업에 도움을 주고 있다. 해당 연구는 드론이 촬영한 이미지를 활용하고 YOLO를 기반으로 피해를 입은 사람들을 식별하고 구조의 우선 순위를 정한다. 해당 연구의 목표는 이를 통해서 전기 등 필수 서비스 복구를 지원해 구조 작업의 효율성을 높이고 피해자들의 편의를 증진하는 것이다. 또한 구조 작업을 수립하는데 도움을 줄 수 있다. 이를 통해서 지진 재난 대응의 효율성과 효과성을 향상시키고자 하였다.

주제: A Treatment Decision Model Reflecting Clinical Reasoning for Improving Shock Patient Outcomes
해당 연구는 의료 분야에 강화학습 방법론을 적용한 연구이다. 여전에 Sepsis 질병에 대해서 치료 과정을 최적화하는 연구가 있어서 흥미롭게 봤던적 있다. 하지만 해당 연구가 더 이상 크게 진행되지 않는 줄 알았는데 그렇지 않았던 것 같다. 해당 연구의 목적은 임상의와 유사한 환경 속에서 임상의처럼 생각하고 행동하는 모델을 바탕으로, 환자의 상태를 악화시킬 수 있는 치료에 주의를 주고 의료진이 올바른 의사결정을 할 수 있게 도움을 주는 시스템을 만드는 것이다. 여기서 다루는 질병은 Shock 상태로 여러 장기에 혈액 공급이 이루어지지 않는 상태이다. 이 때 의료진은 적절한 치료와 환자의 상태를 주기적으로 확인한다.  이 때 강화학습 방법론을 활용하여 의료진의 사고방식을 모사할 수 있다면 시기적적하게 의료진의 의사결정을 보조하고자 하였다. 의료진의 치료 방식을 강화 학습 모델이 평가하여 특정 임게점을 기점으로 환자 상태를 악화시킬 것으로 평가되는 치료를 찾아내고 이 경우에는 모델이 개입하는 시스템이다. 실험 결과 적절한 치료를 추천할 수 있음을 확인하였다.