- 2021년 8월 20일 오전 11:58
- 조회수: 1320
REFERENCES
INFORMATION
- 2021년 8월 20일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약 : 반도체 산업 현장에서 품질 관리를 진행할 때, 실시간으로 생성되는 데이터는 매우 풍부하나, 이를 가공하여 Labeling하기 위해서 사용되는 시간과 비용이 크다는 문제를 가진다. Active Learning은 이러한 Unlabeled 데이터셋이 방대한 경우 사용되는 준지도학습의 한 종류로, 딥러닝 모델의 성능 향상을 위한 최적의 sample만을 선별 update하기 때문에, 비용을 줄이는 효과적인 방안으로 사용될 수 있다. 이번 세미나에서는 Active Learning의 기본적인 개념 및 대표적인 방법론과, 반도체 산업 분야 중 Wafer Bin Map 분류 문제로의 적용 사례를 소개하고자 한다.
참고 문헌:
[1] Y. Gal, Z. Ghahramani (2016). "Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning" Proceedings of The 33rd International Conference on Machine Learning, PMLR 48:1050-1059.
[2] J. Shim, S. Kang, S. Cho (2020, May). "Active Learning of Convolutional Neural Network for Cost-Effective Wafer Map Pattern Classification" In IEEE Transactions on Semiconductor Manufacturing
발표자 후기

이번 세미나는 반도체 제조 공정에 대한 전체적인 과정과 함께, 그 가운데 어떤 데이터들을 활용할 수 있는지 간략하게 소개하였다. 산업 현장에서는 생각보다 더 많은 부분을 경험적인 요소에 기대어 업무를 진행하고 있다. 기업의 입장으로는 이러한 경험 요소를 최대한 문서나 시스템으로 적용시키고자 하며, 이를 위해서는 엔지니어들의 판단이 잘 녹아있는 모델이 필요하기 마련이다. 그 때문에 경험 요소가 데이터의 어떤 부분에서 작용하면 좋을지를 고민해 보는 것은 중요한 주제라고 생각한다. 이러한 점 때문에 세미나에서는 Active Learning의 비용의 감소 측면을 강조하여 설명하였으나, 실무적인 측면으로 보았을 때, 모델이 제공해주는 sample을 직접 labeling에 할 수 있다는 점 또한, 경험 요소를 녹일 수 있는 좋은 포인트가 될 수 있다는 생각이 든다.
Sampling Strategy의 경우, 방법론에 따라서 어떤 sample이 선택되느냐가 갈린다. 이러한 점 때문에 가장 중요한 핵심이라고 할 수 있는데, 데이터 domain과 원하는 task에 따라서 strategy를 잘 조절한다면 가장 좋은 방식을 실험적으로 판단할 수 있을 것 같다. 이후에는 이러한 부분을 좀더 깊게 공부하여, 만약 이상탐지와 같은 task를 진행할 때엔 어떤 sampling 방식이 좋은지 연구해보고자 한다.
전반적으로 깊게 설명하지 않아 생략된 부분도 많고 매끄럽지 않아 온전한 이해를 전달하지 못했다는 아쉬움이 들지만, 이번 세미나를 통해 개인적으로 현업과 학업이 연결되는 좋은 정리가 된 것 같다. 부족한 발표지만 들어주셔서 감사하단 말씀을 전하고 싶다.
청취자 후기

이번 세미나는 "Active Learning in Semiconductor Manufacturing"이라는 주제로 진행됐다. 세미나의 초반에는 반도체 산업에 대한 소개가 이루어졌다. 반도체 제조는 웨이퍼를 제작하고 웨이퍼를 원하는 형태의 반도체로 만드는 fab 공정, 웨이퍼의 각 칩에 대한 품질 검사를 하는 EDS, 전기적인 포장을 진행하는 packaging으로 이루어진다. EDS 검사에서 웨이퍼의 각 칩셋의 불량 종류에 따라 bin number를 부여하여 Wafer Bin map을 만들 수 있으며, 웨이퍼 빈 맵의 불량 종류를 분류함으로써 공정의 불량 원인을 파악할 수 있다. 하지만 해당 데이터는 엔지니어가 직접 레이블링 해야 하기 때문에 레이블링 비용이 많이 들며 이때 Active Learning을 활용 할 수 있다. Active Learning은 준지도학습의 일종으로 레이블이 없는 데이터 중 어떤 데이터를 레이블링해야 더 빨리 모델의 성능을 올릴 수 있을지에 대해 연구하는 분야이다. 데이터를 샘플링하는 방법에 따라 4가지 접근법이 존재한다. Heuristic approach는 확실하지 않은 예측확률을 갖는 샘플을 먼저 레이블링하며 Ensemble approach는 모델들이 서로 다른 예측 결과를 내는 샘플을 먼저 레이블링한다. Distribution approach는 샘플 중 주변 샘플들을 대표할 수 있는 샘플이 존재한다고 가정하고 해당 샘플을 먼저 학습하는 것을 목표로 한다. 마지막으로 소개된 Bayesian approach는 Bayesian Neural Network를 통해 각 샘플들의 불확실성을 계산하고 불확실성이 큰 샘플을 먼저 레이블링하게 된다. 오늘 세미나를 통해 반도체 산업과 Active Learning에 대해 전반적으로 이해할 수 있어 의미 있는 세미나였다. 세미나를 위해 고생해준 성진이형에게 감사의 뜻을 전한다.

이번 세미나는 'Active Learning in Semiconductor Manufacturing'을 주제로 진행되었다. 통상적으로 반도체 산업에서의 반도체는 특정 기능을 수행하는 전자 회로를 하나의 칩에 모아 구현한 집적 회로와 같은 의미로 사용된다. 이러한 반도체를 실제 산업 현장에서 제조하기 위한 공정 과정은 크게 네 가지 단계로 나뉜다. 먼저 1)집적회로를 만들기 위한 바탕이 되는 얇은 기판인 Wafer를 제작하고, 2)원하는 구조의 반도체를 실질적으로 생산해내는 Fab 공정을 거친 후, 3)완성된 반도체가 잘 작동하는지 정기적으로 체크하는 EDS, 이와 함께 4)최종 제품으로 만들어지는 Packaging을 마지막으로 전체 공정이 완료된다. 각 공정에서 수집되는 반도체 데이터를 기반으로 여러 가지 분석을 수행할 수 있는데, 본 세미나에서는 Wafer Bin Map(WBM) 분류 문제에 대한 데이터 분석을 중점적으로 소개해주었다. WBM 데이터는 실시간으로 대량 생성되지만, 이를 전부 엔지니어에 의해 labeling 하기에는 시간과 비용이 막대하게 요구된다. 이러한 문제에 있어, Active learning은 하나의 좋은 해결책이 될 수 있다. 이는 소량의 labeled data를 통해 모델을 구축하고, 이후 학습에 더 좋은 sample을 선별하여 update해 단기간에 일정 수준 이상의 성능을 확보하는 준지도학습의 일종이다. 따라서 unlabeled pool 전부를 학습시키지 않고, labeling 비용을 줄일 수 있는 장점이 있다. 이때, 학습에 더 좋은 sample인 useful sample을 정의하여 선택하는 것은 보다 빠른 성능 확보에 중요하다. 이를 정의하는 방법은 sampling strategy에 따라 다양한 접근방식이 존재하는데, 본 세미나에서는 Heuristic approach, Ensemble approach, Distribution approach, Bayesian approach에서 각각 useful sample을 어떻게 정의하는지 자세히 소개해주었다. 모두 조금씩 다른 정의지만, Distribution approach를 제외한 동일 맥락은 결국 class 분류가 어려운 sample을 useful sample로 정의하는 것이라고 생각되었다. 그동안 Active learning에 관해 공부해오신 내용을 반도체 산업과 잘 엮어 깔끔히 공유해주셔서 너무나 유익한 시간이었다. 덕분에 반도체 산업에 대해 더 자세히 들여다볼 수 있는 좋은 기회였으며, 세미나를 위해 고생해준 성진오빠께 감사한 마음을 전하고 싶다.

금일 세미나 주제는 반도체 산업에서 활용되는 Active learning이였다. 반도체가 만들어지는 과정을 이해해볼 수 있었고, 반도체에 대한 레이블 부여 비용이 왜 비싸며 Active learning이 필요한 이유를 알 수 있었다.
Active learning은 준지도학습 계열의 딥러닝 학습 방법론이다. Labeled 데이터만으로 학습을 한 뒤, 다량의 Unlabeled 데이터 내에서 학습에 유리한 데이터만을 선별해 추가 레이블링 작업을 하고, 그 데이터로 학습한다. 이와 같은 과정을 반복하는 것이 Active learning이며, Unlabeled 데이터를 좀 더 단시간 내에 적극적으로 활용할 수 있게 된다. 금일 세미나에서는 어떠한 데이터가 학습에 유리한, 유의미한 데이터인지를 알 수 있는 방법론들에 대해 배웠다. 대부분이 모델의 예측 결과로부터 학습에 유의미함을 따지는 방법이며, 예측 결과값 기반 불확실성을 정량화하는 아이디어들을(즉, 학습의 유의미함을 정량화하는) 제시하였다. 세미나를 들으며 왜 이 방법이 모델의 불확실성을 정량화할 수 있는지 신경쓰면서 들었는데, 예시가 친절하게 소개되어 있어있다. 추천해주고 싶은 Active learning 세미나였다. 정성스레 세미나를 준비해주신 성진이 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록한다.

이번 세미나는 Active learning in semiconductor manufacturing을 주제로 진행되었다. 먼저 반도체 산업 데이터에 대한 소개가 있었는데, 반도체 제조공정에 대해 굉장히 흥미롭게 들을 수 있었다. 그동안 Wafer Bin Map에 대해 많이 들어보기만 했었는데, 이번 기회를 통해 Wafer Bin Map이 어떻게 만들어지는지, 또 WBM 외에도 반도체 제조공정의 데이터가 어떻게 머신러닝과 접목하여 활용될 수 있는지 잘 알 수 있었다. WBM은 EDS라고 하는 전기적 특성검사에 의한 결과 데이터로, 각 Chip의 불량 여부를 확인하고 불량 종류에 따라 Bin number를 부여하게 된다. 특히 WBM을 분류하는 문제는 불량의 원인을 찾기 위한 시작점으로써 Map의 형태를 보고 어떤 공정에 문제가 있는지를 파악하여 조치를 할 수 있기 때문에 중요한 문제이다. 따라서 WBM 데이터를 패턴에 따라 잘 분류를 해야하지만, 실제 Label을 부여하는 것은 엔지니어의 판단에 의해 분류되기 때문에 상당한 비용이 수반된다. 이러한 문제를 해결하기 위해 Active learning 방법론이 적용된 사례를 소개해주었다. Active learning은 일종의 준지도학습 방법으로, 먼저 소량의 Labeled data로 모델을 학습하고 이후 학습에 더 좋은 Sample을 선별하여 Labeled data를 update 한다. Update된 data로 모델을 재학습하고 이러한 과정을 반복하는 것이 Active learning 방법론이다. 즉, Active learning에서는 모델의 성능을 향상시킬 수 있는 Useful sample이 존재한다는 가정을 가지고 있고, 이러한 Sample을 선별하는 여러가지 전략을 생각해볼 수 있다. Sampling strategy로 Heuristic, Ensemble, Distribution, Bayesian approach가 소개되었는데, 전체적으로 현재의 모델이 예측하기 어려운 Sample이 학습에 유용하다는 것을 전제로 하고 있다. 실제 WBM 데이터로 Active learning을 적용한 연구 사례에서 Random sampling 대비 대부분의 Active learning 방법론이 효과적인 성능을 보이는 부분도 인상적이었다. 이번 세미나를 통해 반도체 제조공정과 데이터에 대해 재미있게 들을 수 있었고, Active learning이 WBM 데이터에 어떻게 적용될 수 있는지 구체적으로 알 수 있게 되어 도움이 많이 되었다.

이번 세미나는 반도체 공정 데이터인 wafer bin map에 다양한 방식의 active learning을 적용하여 비교한 논문을 소개하는 시간이었다. 논문 소개에 앞서서 반도체에 대한 설명, 제조 공정, 해당 공정에서 확보가능한 데이터와 그 예시에 대한 설명이 이루어졌다. 연구실에 들어와서 프로젝트나 세미나, 교육 등을 통해 자주 설명을 들었음에도 불구하고 매번 헷갈리는 부분이 있었는대, 이번 기회로 다시 한번 정리할 수 있었다. 지금까지 들어보았던 설명, 자료 가운데 가장 직관적이었던 것 같다. Active learning에 대한 설명 가운데 모델의 성능을 더 많이 향상시킬 수 있는 “Useful sample”을 선별하는 과정, 당양한 sampling strategy에 대한 설명도 복잡한 수식을 빼고 간단하게 누구라도 이해할 수 있도록 설명되어 놀라웠다. 논문을 설명할 때, 해당 논문에 대한 디테일을 하나하나 전달하기 바빴던 나에게 ‘아 이렇게도 설명할 수 있구나!’ 새로운 방법을 보여준 세미나였다고 생각한다.

이번 세미나는 “Active Learning in Semiconductor Manufacturing”을 주제로, 반도체 제조 산업과 Active Learning에 대하여 살펴볼 수 있었다. 반도체 제조는 Wafer 제작, Fab 공정, EDS, Packaging의 네 단계로 진행되며, 각 단계에서 다양한 반도체 데이터가 수집된다. Wafer를 중심으로 수집되는 모든 데이터는 통합되어 서로의 상관관계에 대한 분석을 진행하게 된다. 특히 이번 세미나에서는 불량의 종류를 분류하는 문제에 Active Learning을 결합하기 위하여 구체적으로 살펴보았다. Active Learning이란 학습에 좋은 샘플을 선별하고 활용하여 단기간에 좋은 성능을 확보하기 위한 방법론으로, 인공지능과 사람이 협동한다는 특징을 갖고 있다. 이 때 “좋은 샘플”을 잘 선정하고 우선적으로 고르는 것이 중요하다. 이를 위하여 1) 예측 확률이 확실하지 않은 관측치를 고르는 Heuristic Approach, 2) 앙상블 모델들의 결과가 가장 엇갈린 샘플을 고르는 Ensemble Approach, 3) 다른 샘플을 대표하는 관측치를 고르는 Distribution Approach, 4) 가장 uncertainty가 높은 샘플을 고르는 Bayesian Approach 등이 활용된다. 실제로 이와 같은 다양한 sample strategy를 적용하고 평가한 결과 대부분 방법론이 랜덤 샘플링보다 더 좋은 성능을 보였으며, 특히 Bayesian Approach가 가장 우수한 성능을 보이고 있었다. 이번 세미나를 통하여 반도체 제조 공정 뿐만 아니라 이에 적용할 수 있는 Active Learning의 구체적인 방법들까지 살펴볼 수 있어서 의미있는 시간이었고, 구체적인 방법론들을 직관적으로 이해할 수 있어서 도움이 많이 되었다.

이번 세미나는 반도체 산업에서의 active learning에 대해 성진이 형이 발표를 했다.
반도체 공정은 wafer 제작, fab 공정, EDS, Packaging 으로 구성되어 있다. 이 공정을 거치면서 생성되는 데이터는 크게 3가지 분야로 나눌 수 있는데 먼저 wafer 제작에 들어가는 소재 및 원자재 데이터이고 fad 공정에서 모니터링되는 센서 데이터, 공정 사이사이 wafer의 상태를 체크하기 위한 검사 데이터 그리고 fab 이력 데이터 총 3가지가 생성된다. 마지막으로 wafer의 EDS 검사에 의한 결과 데이터인 Wafer bin Map 이 생성되며 이 wafer bin map data를 이용해서 wafer의 상태를 분류하는 연구는 매우 활발한 연구분야이다.
하지만 wafer bin map의 상태는 다양하고 labeling을 하는데 비용이 많이 들기 때문에 이 문제를 해결하기 위한 다양한 방법론이 제안되고 있다. 이번 세미나에서는 Active learning을 활용하여 이러한 문제를 해결하는 방법을 설명했다. Active learning이란 소량의 labeled data를 통해 모델을 구축하고 이후 좋은 샘플을 선별해서 모델을 업데이트하는 방법의 준지도학습 방법론이다. 이때 좋은 샘플에 대한 annotation에서 사람이 참여할 수 있기 때문에 인공지능과 사람이 협동한다는 특징이 있다.
이번 세미나를 통해서 반도체 공정과 이 공정에서 어떻게 인공지능이 활용될 수 있는지를 알 수 있었고 그 중 active learning에 대해서도 알게 되었다. 샘플링 전략들이 어려운 샘플을 어떻게 찾을 것인가에 어떻게 집중하고 있는지도 쉽게 이해할 수 있었다.

금일 세미나는 반도체 산업에서의 active learning을 주제로 진행되었다. 반도체 제조 공정은 wafer 제작, fab 공정, 전기적 특성검사를 통한 품질 테스트 단계인 EDS, packing으로 구성된다. 이러한 반도체 제조 공정에서 다양한 데이터가 생성되는며 이를 사용하여 다양한 반도체 데이터 분석을 수행된다. 대표적으로 regression task는 선행 데이터로부터 수율 등의 후측 데이터를 예측하는 task이고 classification은 불량의 종류 등을 분류하는 문제이다. 본 세미나에서는 다양한 task 중 classification task인 wafer bin map의 분류 문제를 소개한다. Wafer bin map 분류 문제는 불량의 원인을 찾기 위한 시작점으로, map의 형태로부터 문제가 있는 공정을 탐지하기 위해 수행한다. 해당 문제의 특징은 wafer bin map에 대한 label 비용이 크다는 점이다. 따라서 학습에 필요한 labeling 비용을 최소화 하는 방법이 필요하며 대표적으로 active learning을 고려할 수 있다. Active learning이란 소량의 labeled data를 통해 모델을 구축하고 이후 학습에 더 좋을 것으로 선정된 sample을 사용하여 업데이트 하는 방식으로 단기간에 일정 수준 이상의 성능을 확보하는 준지도 학습의 일종이다. Sampling 방식으로는 heuristic approach, ensemble approach, distribution approach, bayesian approach가 있다. 반도체 제조 산업 전반과 해당 도메인에서의 active learning을 소개해주셔서 흥미롭게 들을 수 있는 유익한 세미나었다.