고려대학교 DMQA 연구실

2021 대한산업공학회 춘계학술대회 - 이영재

2021년 7월 8일 오후 4:15
조회수: 506

Reviewed by

이영재

[학회 후기]

COVID-19 이후로 대부분 학회는 온라인으로 진행되었는데 이번 대한산업공학회 춘계학술대회는 온라인과 오프라인을 병행하였다. 오랜만에 오프라인으로 발표를 진행하면서 다시 한 번 현장감을 느낄 수 있었다. 특히, 발표한 후에 연구에 대한 질문과 답을 바로 주고 받을 수 있다는 점이 좋았다. 이번 학회에는 정말 다양한 주제로 연구가 되어 관심 있는 연구에 대해 직접 발표를 들을 수 있었고 연구의 트렌드를 다시 한 번 확인할 수 있었다. 오전, 오후에는 학회에 참석하여 연구 진행 상황을 살펴보고 저녁에는 연구원들과 재미있는 시간을 보내면서 2박 3일 동안의 학회를 별탈 없이 마무리할 수 있었다.

[발표 후기]

제목: 게임 플레이 패턴과 숙련도를 예측하기 위한 자가 지도 대조 학습

연구의 목적은 우리 주변에 존재하는 기존 게임들은 비슷한 점수의 플레이어들을 매칭시켜주는 시스템으로 되어있으며 점수 기반의 매칭 시스템들은 플레이 스타일이나 전략 등을 식별하는 데에 한계가 있다. 따라서, 더욱 정교한 게임 숙련도 기반의 매칭 시스템을 개발하고자 하였다. 즉, 플레이어의 게임 점수와 플레이 패턴을 고려한 매칭 시스템을 만들기 위한 방법을 제안하였다. 소개한 연구는 첫 번째로 강화학습(Reinforcement Learning)을 적용하여 게임 점수와 플레이 패턴이 다른 많은 에이전트를 확보하는 것이다. 두 번째는 학습한 에이전트로부터 리플레이 데이터를 생성하고 수집하는 것이다. 세 번째는 시나리오 당 1,000회 경쟁 결과의 평균 점수로 에이전트별 일반화 게임 점수를 평가하는 것이다. 마지막으로 수집한 리플레이 데이터를 클러스터링하고 군집별 플레이 패턴과 게임 점수를 확인하는 것이다. 본 연구에서 사용한 게임 환경은 Facebook ELF이며 실시간 전략 게임으로써 가벼운 환경, 6개의 구성 요소, 9가지의 액션 등으로 이루어져 있다. 이 게임은 행동 결정 주기를 조작하여 컴퓨터의 플레이 패턴을 조정하고 난이도를 제어할 수 있으며 플레이 패턴에는 “AI SIMPLE”, ‘AI HIT AND RUN“이 있다. 본 연구에서는 다양한 능력의 에이전트를 생성하기 위해서 컴퓨터의 플레이 패턴과 난이도를 조정하여 6가지의 시나리오를 만들었다. 그리고 각 시나리오의 숙련도 수준에서 강화학습 에이전트를 학습시켰으며 다양한 숙련도를 가진 에이전트를 확보했다. 특히, 우리는 고도로 숙련된 에이전트를 얻기 위해 Self-Play 방법을 적용했다. Self-Play 방법은 먼저 컴퓨터 시나리오와 대전을 통해 얻은 강화학습 에이전트를 플레이어 1, 플레이어 2로 지정한다. 즉, Self-Play 방법은 컴퓨터 플레이어보다 어려운 자기 자신과 경쟁하는 것이다. 이렇게 지정한 플레이어 1과 플레이어 2는 처음에는 동일한 파라미터를 갖는다. 이후에 일정 스템을 반복하며 플레이어 1, 플레이어 2의 파라미터를 학습하도록 한다. 본 연구에서는 Self-Play 방법까지 적용 완료한 숙련도 높은 30명의 에이전트들을 얻었다. 이렇게 얻은 30명의 강화학습 에이전트들은 일반화된 정량적 평가를 진행하였다. 정량적 평가 방법은 에이전트별 게임 점수를 시나리오당 1,000회 경쟁 결과의 평균 점수로 평가했다. 지금까지 다양한 숙련도의 에이전트들을 학습했고 정략적 평가를 수행했다. 마지막으로 본 연구에서는 군집 분석을 수행하기 위해 학습한 에이전트를 사용하여 리플레이 데이터를 수집했다. 이때 사용한 에이전트는 시나리오2 강화학습 에이전트였다. 수집한 리플레이 데이터는 전처리르 수행하였고 데이터의 표현을 잘 학습할 수 있는 Self-Supervised Learning의 MoCo를 적용하였다. 본 연구에서는 MoCo로부터 잘 학습한 인코더에서 각 리플레이에 대한 요약된 특징 벡터들을 생성하였고 생성된 특징 벡터들을 사용하여 K-Means 군집 분석 수행 및 형성된 군집을 확인하였다. 군집의 수는 실루엣 계수를 비교한 후 4로 결정했으며 각 군집들은 플레이 패턴과 게임 점수가 다른 것을 확인하였다.

질문 1. 실제 게임에 방법론을 적용했을 때 플레이어 매칭 시간을 고려해야 할 것 같다

답변 1. 최종적으로 실제 게임에 탑재하기 위해서는 매칭 시간을 고려할 예정이며 아직은 초기 단계이기 때문에 시간을 고려하진 못했다고 답하였다.

Conference