본 프로젝트의 목표는 반도체 공정의 가상계측(VM) 데이터를 통해 설비의 이상을 탐지하기위한 AI 모델을 구축하는 것이다. 이를 위해 공정에서 수집된 데이터를 2가지 방법(이미지데이터, 원본 데이터)으로 이상감지를 하였고, 이미지 분류 모델의 이상원인을 파악할 수 있는 프레임워크를 설계하였다.
 
1. 수집 데이터
공정 내 여러 설비 데이터를 수집하였으며, 이상을 탐지하고자 하는 기준 설비 데이터를 파란색으로 표시하였다. 같은 공정 내 다른 설비들의 데이터를 회색으로 표시하였으며, 기준 설비의 PM진행시점을 초록색 선으로 표시하여 아래와 같은 이미지 데이터를 생성하였다. X축은 시간, Y축은 fab value를 나타낸다.

2. 이상 데이터 정의
이상이 발생할 수 있는 관심구간을 최근 1/7시점 정의하였고, 이는 이미지상 최우측 1/7시점이다. 관심구간 내 기준 설비 데이터가 다른 설비들의 데이터와 분포 차이가 클 경우, 관심구간이 과거 구간들(나머지 6/7 구간)과 다른 패턴을 보일 경우 이상으로 정의하였다. PM 진행 이후에는 일시적인 패턴 변화가 나타날 수 있기 때문에, PM 진행 이후 급격한 패턴 변화는 어느 정도 감안하였다.

3. 이미지 데이터 이상 분류 및 이상 원인 파악
기준 설비 데이터를 3가지 채널의 이미지로 생성하였다. 각 채널은 기준 설비 데이터, 기준 설비의 PM진행시점, 같은 공정 내 다른 설비들의 데이터의 정보들로 이루어져 있다. 또한 과거 구간 대비 관심 구간의 패턴 변화를 탐지하기 위해 아래와 같이 6개의 데이터 쌍으로 구성하였다. 샴 네트워크 모델은 한 쌍의 이미지들을 입력 값으로 받고 두 구간이 모두 정상을 경우 정상, 하나라도 이상일 경우 이상으로 이상으로 판단한다. 마지막으로 판단된 이상 확률 값에 grad-CAM을 적용하여 모델이 중요하게 간주한 부분을 확인하였다. 

Grad-CAM을 이용한 시각화 결과는 다음과 같다. 모델이 중요하게 간주한 부분은 붉은색으로, 그렇지 않은 부분은 파란색으로 나타내었다.

4. 원본 데이터 이상 탐지
서로 길이가 다른 데이터들을 동일한 길이로 맞추기 위해, 128구간으로 나누어 각 구간 내 통계량 값을 계산하였다. 이후 anomaly transformer 모델을 학습하여 score를 계산하였다. 각 시점별로 계산된 이상 score 중 관심구간에 해당하는 값들을 기준으로 이상/정상을 판단하였다. 이러한 재구축 오차 기반 이상탐지 모델은 정상 데이터만을 이용하여 학습할 수 있다는 장점이 있다.