[학회 후기]

발표자로서는 두 번째로 2021 대한산업공학회를 참가하게 되었다. 특히 이번 학회는 더 뜻깊었는데 처음으로 오프라인 발표도 해보고 연구실 사람들과 함께 2박 3일 출장으로 왔기 때문이다. 지난번에 온라인으로만 하고 끝난 학회와는 달리 맛있는 것도 먹고 좋은 경치도 구경하면서 많은 추억을 쌓을 수 있었다. 이번 학회에서는 발표 순서가 가장 마지막 날의 오전에 있었다. 원체 마지막까지 놓지 못하는 성격 때문에 발표 자료를 전날까지 계속 수정하고 고민하였다. 덕분에 2박 3일 중 마지막날만 좀 마음을 놓고 지낼 수 있었지만 덕분에 발표는 무사히 마칠 수 있었다. 이번에 발표한 주제가 매우 특이했기 때문에 여러가지 질문이 많이 들어왔고 발표가 끝난 이후에도 강화학습에 대한 질문을 조금 더 받았다. 해당 부분은 발표 후기에서 좀 더 서술하도록 하겠다. 학회를 준비하면서 아직 노력해야하는 부분도 많이 알 수 있었고 어떤 분야를 좀 더 공부하는게 맞는지를 확신하게 된 계기였던 것 같다. 다음 학회에서도 좋은 성과를 보여줄 수 있도록 연구에 정진해야겠다.


[발표 후기]

최근 해양 분야에서는 해무 발생 여부를 예측함에 있어 인공지능 기술을 활용하는 연구가 활발하게 이루어지고 있다. 이러한 예측 모델을 통해 해무 발생 시기를 파악함으로써 보다 안전한 선박 운항과 효율적인 항만 관리를 할 수 있다. 본 연구에서는 해무 발생 예측을 위한 policy gradient 기반의 예측 모델을 제안한다. 제안 방법론은 생성 모델과 예측 모델로 구성되어 있다. 생성 모델의 구조는 순환 신경망 기반의 encoder-decoder 구조인 Seq2Seq(Sequence-to-Sequence)로 해무에 영향을 미치는 미래 시점의 인자를 생성하도록 한다. 예측 모델은 인공 신경망 기반의 구조이며 생성된 인자를 사용하여 해당 시점의 해무 발생을 예측하도록 한다. 특히, 본 연구에서는 정확한 해무 발생 여부를 판단하기 위해 생성 모델과 예측 모델 간 policy gradient 기반의 강화학습을 적용한다. 또한 해무 발생 여부를 판단할 수 있는 지표를 통하여 제안 방법론의 성능을 보여주었다. 향후에는 모델의 구성을 좀 더 개선하고 적합한 보상함수를 고안함으로써 보다 나은 성능을 보여줄 수 있도록 할 예정이다.


질문 1. 딥러닝의 손실함수와 강화학습의 보상함수가 어떤 면에서 다르게 적용되었는지 궁금합니다.

답변 : 일반적인 딥러닝이 크로스엔트로피나 평균제곱오차를 손실함수로 사용하여 최소화하는 것을 목적으로 한다면, 강화학습은 이 보상 함수로부터 나오는 보상들의 누적 값을 최대화하는 것을 목표로 한다. 예측하고자하는 해무 여부는 해무 발생보다 발생하지 않은 경우가 훨씬 많은 불균형 데이터이다. 따라서 손실 값 또는 보상 값에 별도의 가중치를 주지 않을 경우 모델은 자연스럽게 다수의 클래스만을 정답으로 채우게 된다. 따라서 보상함수를 설계할 때에는 소수 클래스를 맞추거나 틀렸을 때 더 큰 값의 보상을 가지도록 하였다. 이렇게 정의된 보상함수로 계산된 보상값을 REINFORCE라는 방법론을 사용하여 모델의 파라미터를 업데이트 하였다. 앞으로 더 적절한 보상함수를 만들어보고 현재 실험에 사용한 REINFORCE 이외에 다른 방법론도 시도해볼 예정이다.