본 프로젝트는 반도체 FAB 물류시스템의 교통 상황을 판단하여 반송 명령별 최적의 저장소를 할당하는 의사결정을 수행하였다.  반송 명령별 의사결정을 위해서 강화학습을 적용하였으며 강화학습에 필요한 state, action, reward를 정의하였다. 고차원의 물류 레일 및 교통 정보는 그래프 형태로 변환하여 효율적으로 특징을 추출하였고 물류 상황의 변화를 고려하기 위해 여러 시점 정보를 활용하였다. 現 물류시스템은 다수의 반송 명령을 동시에 제어하기 때문에 문제 상황에 맞는 신경망 모델을 구축하고 actor-critic 방법론을 적용하여 반송 시간을 최소화하는 방향으로 학습하였다. 추가한 학습 전략은 다양하고 많은 데이터를 수집하기 위해 데이터 증강 기법을 사용하였고 학습 초반의 불안정한 상황을 해결하기 위해 imitation learning을 진행하였다. 본 프로젝트는 수많은 반송 명령을 동시에 제어하기 위한 신경망 모델을 강화학습과 결합하고 대규모의 실제 반도체 물류 환경에 강화학습을 최초로 적용한 사례를 보였다.