- With 국방과학연구소
- 2021-12-01 ~ 2023-05-31
본 프로젝트는 전장 상황에서 적군의 전략을 빠르게 파악하여 대응하기 위해 인공지능 기반 대응전력 할당 기술 개발을 목표로 하였다. 아군의 대응전력 할당 및 임무 시퀀스 생성이 핵심이며 크게 강화학습 기반의 대응전력 할당/임무 시퀀스 생성과 지도학습 기반의 전장 초기 시점에서 향후 임무 시퀀스 생성 기술 개발을 수행하였다. 기술 개발에 사용한 데이터/환경은 실시간 전략 게임인 StarCraft II와 실제 지형을 기반으로 제작한 전장 시뮬레이터이다.
1. 최적화된 대응전력 할당 및 임무 시퀀스 생성 기술 개발
전장은 여러 병사들이 서로 협동하며 적군을 이기기 위한 전략을 수행하기 때문에 본 프로젝트에서는 여러 병사를 다룰 수 있는 멀티 에이전트 강화학습을 적용하였다. 멀티 에이전트 강화학습은 병사별로 마주한 전장 데이터(State)를 입력받아 협동/의사소통을 수행하기 위해 순환 신경망을 활용한다. 순환 신경망은 병사별로 대응전력(Action)을 순차적으로 출력하고 다층 퍼셉트론으로부터 출력된 대응전력을 평가하기 위한 보상(Reward)이 주어진다. 본 프로젝트에서는 멀티 에이전트 강화학습 알고리즘으로 QMIX와 RODE를 사용하였으며 전장 상황과 유사한 StarCraft II 시나리오를 직접 만들어 적용 및 평가하였다.
2. 전장 상황 변화에 강건한 기술 개발
전장은 지형, 엄폐물, 환경, 아군/적군 행동과 같은 요소에 따라 상황이 수시로 변화한다. 본 프로젝트에서는 전장 상황 변화에도 강건한 성능을 유지하기 위해 데이터 증강 기법을 활용하는 자기 지도 학습을 멀티 에이전트 강화학습(QMIX/RODE)에 결합하는 방법을 제안하였다. 제안한 자기 지도 학습 방법은 BYOL을 활용한 Masked Reconstruction이다. Masked Reconstruction은 Online Network와 Target Network로 구성되어 있으며 Online Network에는 병사별로 마주한 누락된 전장 데이터, Target Network에는 원본 전장 데이터가 입력된다. 입력된 데이터들은 각 네트워크로부터 요약되며 평균 제곱 오차로 학습된다. 최종적으로 전장 상황 변화에 강건한 방법론은 멀티 에이전트 강화학습의 보상 함수와 Masked Reconstruction의 평균 제곱 오차 손실 함수를 가중합하여 학습된다. 본 프로젝트에서는 학습을 위한 시나리오(A)에 제안 방법론을 학습한 후 테스트를 위한 시나리오(B, C)에 적용하여 일반화 성능을 평가하였다.
3. 실제 지형 기반 전장 시뮬레이터
본 프로젝트에서는 한국의 실제 지형을 기반으로 전장 모의 시뮬레이션을 할 수 있는 환경을 제작하였다. 전장 시나리오는 강원도 홍천에서 아군 전차 10대와 적군 전차 10대의 전투로 생성하였다. 세부적으로 적군은 2인 1조로 총 3개 조가 선두하여 홍천의 안고래길-도관길-내촌면 방향으로 민가를 습격하도록 하였고 적군 잔여 2개 조는 여창길 부근 고지에서 후발대로 이동하도록 하였다. 아군은 내촌면 좁은 도로로 이동할 적군을 습격하기 위해 양쪽 고지에 대기하도록 하였다. 다음과 같은 시뮬레이터에 멀티 에이전트 강화학습을 적용하기 위해 State, Action, Reward를 정의하였으며 QMIX를 적용 및 평가하였다.
4. 전장 초기 시점에서 미래 임무 시퀀스 생성 기술 개발
본 프로젝트에서는 전장 초기 시점의 정보를 이용하여 미래 시점의 대응전력을 순차적으로 예측하는 것을 목표로 하였다. 제안 방법론은 시계열성을 반영한 Encoder-Decoder 구조의 Seq2Seq에 전장 상황 이미지와 임무 레이블을 동시에 사용하는 Multi-Modal 학습을 제안하였다. 데이터는 StarCaft II 플레이어 영상을 사용하였으며 아군이 승리한 데이터로 제한하였다. StarCraft II 플레이어 영상에는 임무 레이블이 없어 이미지에 매칭되는 레이블을 생성하는 규칙 기반의 방법을 제안하였다. 또한 생성한 레이블은 클래스 불균형 데이터로 본 연구에서는 불균형 데이터를 효과적으로 학습하기 위한 손실 함수 제안 및 고차원 이미지를 효과적으로 추출할 수 있는 Depthwise Separable Convolution을 적용하여 F1-Score에서 좋은 성능을 달성하였다.