본 프로젝트는 불규칙적인 월별 불량률을 조기에 예측하는(회귀) 태스크와 불량 여부를 조기에 분류하는 태스크의 인공지능 모델을 구축하는 것을 목표로 하였다. 이는 불량률 및 불량을 조기에 탐지하여 제품 품질 및 고객 서비스 품질을 효율적으로 관리하기 위함이다. 월별 불량률을 예측하는 태스크에서는 월별로 불량률 예측 머신러닝 모델을 구축하였으며, 불량을 분류하는 태스크에서는 단일 머신러닝 모델을 구축하였다.


1. 월별 불량률 예측

월별 불량률 예측은 양산 모델의 특성 데이터와 초기 불량률 데이터를 랜덤포레스트로 학습하여 N개월 후 불량률을 예측하는 태스크이다. 모델 학습을 위해 중요 변수 및 파생 변수를 생성하는 등의 전처리를 수행하였다. 성능 향상을 위해 학습에 사용되는 초기 불량률 기간을 조절하였으며, 도메인 지식을 통한 제품군별 군집화를 진행하였다.


2. 제품 계측값을 활용한 불량 분류

불량 분류는 제품 계측 값 및 장비 라인 데이터를 학습하여 양품과 불량을 분류하는 이진 분류와 불량의 종류(개월)를 확장한 멀티 클래스 분류 태스크이다. 데이터 수집, 파생변수 생성, 결측치 대체 등 전처리를 수행하였다. 클래스 불균형 문제를 해결 하기 위해 도메인 지식을 통한 여러가지 방법의 다운샘플링 샘플링을 적용하였다. 세가지 앙상블 모델을 통해 성능을 비교했으며, 이진 분류의 경우 변수 중요도를 통해 공정의 주요 인자를 확인할 수 있었다.


3. 결론 및 성능

 - 결론 : 불량 관련 데이터 전처리 프로세스를 최초로 정의한 것에 의의가 있으며, 회귀 및 분류 두 개 태스크를 수행하는 모델을 각각 구축하여 유의미한 성능을 달성하였다.

 - 성능

   1) 월별 불량률 예측 

     - MAPE 기준 군집화 전보다 6차 군집화를 통해 성능 개선을 보였으며, MAE 기준 군집화 전보다 제품군별 군집화 및 초기 불량률 기간 조절을 통해 4차, 5차, 6차에서 성능 개선을 보였다.

   2) 제품 계측값을 활용한 불량 분류

     - 클래스 불균형 문제를 해결하여 이진 분류 기준 Recall 0.69를 달성하였다. 다중 분류의 경우 클래스 개수를 군집화(16개 → 6개)하여 모든 지표 성능을 개선하였다.