[학회후기]
오프라인 학회는 처음 경험하였는데, 최근 연구되는 내용들이 매우 높은 비율로 인공지능 방법론을 사용하고 있어서, 각 분야의 도메인마다 다양하게 적용되는 방법론들이 굉장히 흥미롭고 재미 있었다. 참석하는 분들 또한 굉장히 수준높고 발표를 관통하는 질문을 한다는 생각이 들면서, 많은 분들이 열정을 가지고 연구에 임하고 있다는 생각이 들었다. 또한 그 중에서도 우리 연구실의 발표들이 참 재미있는 연구를 많이 한다는 것을 다양한 발표를 통해 느껴지면서 자부심이 한껏 부풀기도 하였다. 오랜만에 교수님과, 연구실 친구들과 함께 학술적으로도, 또한 사적으로도 이야기를 많이 나눌 수 있어서 좋았고, 개인적으로도 연구와 삶을 돌이켜보면서 많은 생각들을 정리할 수 있어서 좋았다. 이번 학회가 우리 연구실 모두에게 좋은 기억으로 남았으면 좋겠다.

[발표후기]
이번 학회에서는 비지도 사전학습 기반 액티브 러닝을 활용한 웨이퍼 빈 맵 불량 패턴 분류라는 제목으로 발표하였다. 웨이퍼 빈 맵 분류 문제는 기존에도 다수 연구되어 왔지만, Unlabeled 데이터인 점과 imabalance 데이터인 점에서는 여전히 개선될 여지가 많다. 특히 이러한 문제에 대해 액티브 러닝을 적용하고 이전 연구보다 성능을 더 높일 수 있는 방법을 모색하였는데, 바로 Unlabeled 데이터를 통채로 Autoencoder를 통해 학습한 다음, 이를 초기 분류 모델에 학습시켜서 좀더 빠르게 전체 샘플에 대한 distribution을 획득한 상태로 액티브 러닝을 진행하는 방법이다. 추가적으로 class간 불균형의 해결을 위해 데이터 증강을 더하는 방식으로 추가하였다. 이렇게 두가지 개선점을 오픈 데이터인 WM-811K 웨이퍼 빈 맵 데이터를 통해 실험하였을 때, 초반의 성능획득량과, 최종적인 성능에서 개선된 모습이 확인되었다. 즉, unlabeled 데이터의 distribution을 획득하고, 불균형을 일부 해소 시켜주는 것이 액티브 러닝의 성능 향상에 효과가 있다는 점을 보였다. 각각이 어느정도 영향도를 가지는 지는 이후 ablation study를 통해 확인할 예정이지만, 이러한 방법이 다양한 산업 영역에서 흥미롭게 사용 되기를 기대한다.

질문 1. 한번의 phase마다 어느 정도의 샘플을 추가 label하고, 학습하는 데에는 어느 정도의 시간이 소요됩니까?
: phase마다 웨이퍼 100매씩 추가되는 구조를 가지고 있고, 학습은 labeled 데이터의 양에 따라 다르나 한 phase마다 충분한 epoch과 early stopping을 통해 가진 데이터로는 성능에 충분히 포화될 수 있도록 실험을 진행하였음.

1. 웨이퍼 테스트 파라미터 기준 최적화를 통한 다이나믹한 웨이퍼 등급 분류 제안 - 권순호(SK하이닉스), 김상진, 김창욱(연세대)
 SK의 경우 완성된 웨이퍼를 테스트하여 파라미터의 값을 통해 고품질/저품질로 나누어 각각 제품 사용을 구분하게 된다. 이 때, 각각의 품질별 생산량을 수요에 맞추어 비율을 조정해야되는 문제가 있는데 현업에서는 파라미터를 고정하여 나누기에는 관리가 불가능하고, 어느정도 엔지니어에 의해 둘의 구분 비율을 조절한다고 한다. 이러한 문제에 대해 해당 연구는 이전날의 생산 비율과 테스트 파라미터를 input으로 받아 누적하여 각각 품질별 웨이퍼가 어느정도 필요한지를 다이나믹하게 예측하는 시스템을 제안하였다. 1일 단위로는 변수가 너무 많아서 예측하기 힘들 수 있으나, 일정 기간을 누적하여 예측하였을 때는 어느 정도 필요한 만큼 잘 예측한다는 점에서 현업에서도 참고하기에 좋은 자료가 될 수 있겠다는 생각이 들었다. 다만 고품질/저품질을 고정된 파라미터가 아니라 필요한 비율에 의해서 기준을 변경하여 생산량을 결정한다는 점은 의아하였다. 이 질문에 대해서는 현업의 파라미터 기준은 이하의 웨이퍼기 때문에 해당 연구에서 예측하는 기준이 기존 가지고 있는 값보다 더 타이트해지는 방향으로 예측하는 것이라는 답변을 들었다. 이런 부분이 현업에서 어떤 방식으로 인정되는지, 고객은 어떻게 이해시키는지 궁금했지만, 연구 자체가 현업에 밀접하게 사용될 수 있는 주제로 이끌어나가고, 합리적인 예측을 위해 다양한 전처리를 해주는 것 자체로 재미있게 들었다.

2. 이미지 기반 다변량 시계열 데이터 변환을 통한 제조 불량 분류 및 원인 인자 탐색 - 이보경, 김창욱 (연세대학교 산업공학과)
 내가 현업에서 자주 보고, 자주 접하던 문제에 대해 직접적으로 연구한 내용이 나와서 매우 흥미로웠다. FDC 데이터를 가공하여 불량을 분류하고, 원인 인자를 탐색하는 업무는 반도체 제조 공정에서의 기술팀이면 누구나 접하는 아주 골치아픈 문제일 것이다. 해당 연구는 FDC 시그널 데이터의 본 time series 형태에서 Image 형태로 전처리 해준다. 이 과정에서 PAA 라는 방법을 통해 시계열 구간을 동일하게 일치시켜주는 방법과, 극 좌표계를 기준으로 이미지로 변환시키는 GAF(gramian angular field) 방법이 쓰였고, 이렇게 변형된 이미지는 Grouped Convolutaion이라는 방법을 통해 feature마다 그룹으로 묶어서 나오는 결과값을 통해 최종 분류에 미치는 영향도를 계산했다. 시그널 데이터를 통해 불량을 분류하는 것은 다소 자주 연구되어왔지만, 묶어서 불량의 원인자를 찾기 위한 값을 사용하는 것은 아주 효과적이고 흥미로운 아이디어라고 생각이 들었다. 어떤 방식으로 변수들을 묶어서 값으로 치환해줄 것인가에 대한 고민이 가장 컸을 것 같은데, 과정이 복잡하지 않으면서 굉장히 합리적인 방법이라는 생각이 들었다. 내 연구에도 이런 insight를 적용하여 풀어보고 싶은 문제들이 많이 생각나는 좋은 발표였다.