- ALL
- Machine Learning Algorithms
- Smart Manufacturing
- NLP & Text Mining
- Healthcare & Biomedicine
- Game AI
반도체 공정은 순차적으로 FAB 공정을 수행하며 해당 과정에서 설비 정보, recipe정보, 가상 계측 정보 등을 수집한다. FAB 공정 이후 측정되는 제품 특성 값을 통해서 웨이퍼의 전기적 특성을 정량적으로 측정하고 불량 여부를 판단할 수 있다. 본 프로젝트에서는 반도체 FAB 공정 이력 기반 데이터 중 주요 공정 데이터만을 활용하여 다양한 제품 특성값 예측 및 효율적인 공정관리를 하기 위한 공정 별 주요 요인 해석 및 정량화를 목표로 한다. 이때, 주요 공정 데이터들에 대한 특성을 잘 추출할 수 있으면서 동시에, 다양한 제품 특성값들의 범위 차이를 반영할 수 있는 예측 모델을 구축하였다.1. 입력 데이터(주요 FAB 공정 테이터) 특성을 효과적으로 추출할 수 있는 모델 개발입력 데이터 특성으로는 다음과 같은 세 가지 특성이 존재한다.순차성: 설비들이 유기적으로 연계되는 공정 특성 상 시간 흐름에 따라서 순차적으로 값이 수집됨변수 독립성: 각각의 공정 step으로부터 수집되는 설비 정보와 recipe 정보는 서로 다른 고유한 특성을 가짐국소적 패턴 변화: 전체 공정 step들 중 특성 시점에서 생기는 변화가 ET 예측에 중요한 영향을 미침따라서, 설비와 recipe 별 특성을 고유하게 반영할 수 있는 모듈을 제안하며 동시에 공정 순차성 및 국소적인 값의 변화를 고려할 수 있는 모델을 제안하였다.2. 출력 데이터(제품 특성값)들의 범위가 모두 다른 특성을 반영하기 위한 학습 알고리즘 개발각각의 출력 데이터들은 값의 범위가 모두 다르다는 특성이 존재한다. 기존 회귀 모델에서 사용하는 MSE 손실함수를 통하여 학습을 할 경우, 출력 데이터에 대해서 학습적인 불균형을 야기할 수 있다. 따라서, 모든 출력 데이터들에 대해 공정하게 학습을 하기 위한 IQR-Weighted MSE 손실함수를 적용하여 학습적인 불균형을 해소하였다.3. 모델 성능 평가 및 공정 별 주요 요인 해석모델 성능 평가 시에는 기존 회귀 모델 성능 평가 지표들 외에, 출력 데이터들 값의 범위 차이에 의해서 예측 오차가 y 범위 내에서 얼마나 차지하는지 보여주는 normalized MAE 지표를 추가적으로 사용하여 성능 평가를 진행하였다. 실험 결과를 통해서 입력 데이터 특성을 반영할 수 있는 제안 모델인 CSE 모델이 다른 비교 방법론들에 비해서 모든 회귀 성능 평가 지표 상에서 더 우수한 성능을 보였다. 또한, 우측 실험 결과 표를 통해서 출력 데이터 특성을 반영하는 IQR-Weighted MSE 손실함수의 효과를 확인할 수 있다.모델 성능 평가와 더불어서, 공정 별 주요 요인 해석을 진행하였다. 주요 요인 해석으로는 반도체 도메인 지식과 그에 해당하는 두 그룹별 모델링 해석 결과 비교를 통해서 주요 공정해석에 대한 정합성을 확인하였다.
[프로젝트 개요]최근 작물에 대한 생육 분석은 우수한 작물 식별 및 작물 생산계획 수립 등에 있어 중요성이 대두되고 있다. 하지만, 이러한 작물 생육 지표를 인간이 직접 측정하기에, 측정 오차가 존재할 뿐만 아니라 많은 시간과 비용이 발생하고 있다. 따라서, 본 프로젝트는 인공지능을 활용하여 여러 작물이 재배되는 판에서 개별 작물을 식별한 후, 식별된 개별 작물에 대한 생육을 분석함으로써 인간 개입 없이 작물을 분석하고자 하였다.[프로젝트 내용]1. 작물 모델링 데이터셋 구축본 프로젝트는 인공지능을 학습하기 위한 작물 데이터셋 구축 과정부터 시작한다. 이때, 개별 작물 식별하는 알고리즘을 위한 픽셀 수준 레이블과 생육 분석을 위한 개별 작물 수준 생육 정보를 레이블링하여 데이터셋을 구축하였다.2. 개별 작물 식별을 위한 Instance Segmentation 모델개별 작물을 식별하기 위한 알고리즘으로 Instance Segmentation 모델을 활용하였다. Instance Segmentation은 이미지 내 객체 영역을 구분할 뿐만 아니라 구분된 영역 내에서 Instance를 구분할 수 있는 알고리즘이다. 이때, Step1에서 직접 레이블링한 약 40여장 데이터를 기반으로 직접 학습한 모델과 추가적인 학습이 필요 없는 Foundation 모델인 Segment Anything (SAM)을 비교하였다. 실험적으로, 추가적인 학습 없이 활용할 수 있는 SAM이 가장 우수한 성능을 보였다. 이는 데이터가 적기에, 직접 학습하는 것이 큰 효과를 거두기 어려웠던 것으로 판단된다. 이에 따라 개별 작물 이미지 식별에는 SAM을 활용하였다. 3. 생육 분석 모델식별된 개별 작물 이미지에 대하여 생육을 예측하는 인공지능 모델을 구축하였다. 그러나, 앞서 언급한 것처럼 데이터가 매우 적다. 따라서 데이터 증강을 적용하여, 부족한 데이터를 보완하였다. 결과적으로 생육 일자 예측, 수확 중량 예측, 현재 중량 예측 3개 Task에서 모두 오차율 10% 이내 성능을 달성할 수 있었다. 그 외에도 시계열 모델링 등 여러 기법을 검증하였으며, 향후 개선 방향 등 생육 모델링 고도화 방향을 제안하였다.
[프로젝트 개요]의류 산업에서는 주로 사람의 경험을 토대로 미래 판매량을 예측하거나, 기초 통계를 활용해 예측을 진행하였지만 이러한 방식은 예측 정확도가 낮다는 한계점이 존재한다. 따라서 본 프로젝트는 의류 판매량에 특화된 예측 모델을 개발함으로써 정확한 판매량 예측 값을 제공하고, 생산계획 및 재고관리와 같은 의사결정에 도움을 주고자 한다. [판매량 데이터 특성]의류 상품은 실제 상품이 판매되는데까지 약 6개월의 리드타임이 존재하여, 장기 수요 예측을 필요로 한다. 또한, 의류 상품은 계절과 트렌드에 민감하여 주기적으로 반복되는 패턴과 추세를 보이는 동시에, 판매량이 급격하게 증가/감소하는 변동성이 존재한다는 특징이 있다. [예측 모델 개발]이에 본 프로젝트에서는 장기 시계열 예측에 적합한 Sequence to Sequence(Seq2Seq) 모델을 바탕으로 해당 데이터에 적합한 구성 요소들을 추가하였다. 패턴과 추세를 반영하기 위해 오토인코더로 입력 판매량을 스무딩하고, 시점 정보를 함께 입력 데이터로 활용하였다. 마지막으로 급격한 변동성을 효과적으로 예측하기 위해 DILATE 손실함수로 모델을 학습하였다.
[프로젝트 개요]현재 디스플레이 공정 과정에서는 FDC 센서에서 수집된 값이 사전에 설정된 임계값을 넘으면 interlock이 발생하고 공정을 멈춘다. 하지만 사소한 이유로 interlock 이 발생하는 경우가 있으며 이 경우에는 전체 공정을 멈추는 것이 큰 손해로 이어진다. 본 프로젝트에서는 이러한 손실을 방지하기 위해서 interlock 발생 당시 수집된 FDC 센서 데이터를 통해 공정을 멈출지 다시 진행할지 분류하는 interlock auto release 모델을 개발한다. 또한, 공정이 바뀜에 따라서 변화하는 데이터 분포에도 모델이 잘 작동할 수 있도록 continual learning과 domain adaptation 기법을 추가적으로 적용한다.[프로젝트 내용]1. 딥러닝 기반 interlock auto release 모델 본 프로젝트에서는 interlock 발생 전 수집된 두 시간 분량의 FDC 센서 데이터를 입력 데이터로 활용한다. 따라서 FDC 센서의 시계열성을 반영하기 위해 LSTM, Transformer를 베이스 모델로 선정하였으며, 성능 고도화를 위해서 최신 모델 구조인 Sequencer와 PatchTST를 추가적으로 활용하였다. 또한, 데이터 부족 문제를 해결하기 위해 데이터 증강 기법을 도입하였는데, 데이터가 가지고 있는 클래스 정보를 유지할 수 있는 Flip 기법을 활용하였다. 모델 성능 평가를 위해서 각 공정별로 데이터를 나누어 평가하는 Leave-one-out validation을 수행하였으며, 평가지표는 F1-score와 유출률을 활용하였다. 실험 결과, Sequencer가 가장 좋은 성능을 보였기 때문에 Sequencer를 최종 백본 모델로 결정하였다.2. 데이터 분포 변화에 강건한 모델디스플레이 공정마다 설비와 센서가 다르기 때문에 수집되는 FDC 데이터의 분포가 달라진다. 따라서 각 공정별로 interlock auto release 모델을 개발하는 것이 가장 효과적이지만, 디스플레이 공정은 많은 단계로 이루어져 있기 때문에 현실적으로 불가능하다. 이 문제를 해결하기 위해 본 프로젝트에서는 continual learning과 domain adaptation 기법을 활용한다. Continual learning은 분포가 변화된 새로운 데이터에 모델을 fine-tuning하면 기존 데이터에서 성능이 하락하는 catastrophic forgetting 문제를 해결하기 위해 연구된 분야로 본 프로젝트에서는 Elastic Weight Consolidation (EWC, PNAS 2017) 방법론을 활용하였다. Domain Adaptation은 추론 단계에서 학습 데이터와 분포가 다른 샘플이 입력되었을 때 성능이 하락하는 문제를 해결하기 위해 연구된 분야로 본 프로젝트에서는 Adversarial Multiple Source Domain Adaptation (MDAN, NeurlPS 2018)와 Domain Aggregation Neural Networks (DARN, ICML 2020) 방법론을 활용하였다. 실험 결과, continual learning에서는 기존 데이터의 성능을 유지하면서도 신규 데이터에 높은 성능을 달성하였지만, domain adaptation에서는 신규 데이터에서 지도 학습보다 낮은 성능을 보였다. Domain adaptation에서 성능이 하락한 원인을 분석하기 위해 모델이 학습한 특징을 시각화 하였으며, 분석 결과 특정 공정들에서 FDC 센서 데이터의 패턴이 비슷하지만 클래스가 반대인 샘플들로 인해서 domain adaptation의 효과가 떨어짐을 확인하였다.
- 프로젝트 개요: 최근 다양한 이유로 인해 전기차 수요가 증가하고 있다. 그러나 아직 전기차 도입 초기이기 때문에, 이를 운용함에 있어 발생하는 문제점들을 보완하는 과정에 있다고 할 수 있다. 그 중에서 배터리 충전 시 발생하는 이상패턴 탐지는 매우 중요한 task 중 하나이다. 왜냐하면, 전기차의 핵심인 배터리에 발생할 수 있는 잠재적인 고장을 선제적으로 예방할 수 있기 때문이다. 또한, 이상패턴 탐지 후에 어떤 변수(센서)가 중요 변수였는지 파악하여 유지/보수에 도움이 되고자 한다.- 데이터: 전기차 내에서 배터리 관련 정보를 수집하는 BMS(Battery Management System)에서 전달받은 충전량, 전류, 전압, 온도 등의 정보를 활용하여 분석 진행- 적용 방법론: 시계열 분석에서 우수한 성능을 보이는 Transformer 기반 이상탐지 알고리즘인 Anomaly Transformer 와 TranAD 를 적용- 이상패턴 탐지 성능: 적용 알고리즘의 성능을 확인하기 위해, 현업 전문가들이 실제 이상으로 labeling 가능한 데이터를 알려주셨음. 따라서, 해당 이상 데이터를 얼마나 모델이 잘 판별하는지를 탐지 성능으로 활용 (여기서는 AUROC 를 기준)- 중요변수 산출: 높은 성능을 내는 모델을 바탕으로, 어떤 구간에서 어떤 변수가 중요했는지 파악하여 추후 유지/보수 관점에서 도움이 되고자 함
시스템의 규모가 커짐에 따라 결함 발생 빈도가 증가하고, 이러한 결함에 정확하고 신속하게 대응할 방법이 요구되고 있다. 본 프로젝트는 정보 집약적인 답변이 가능한 거대 언어모델(LLM)을 활용하여 결함을 보다 효율적으로 해결할 수 있는 진단 모델을 구축하는 것을 목표로 한다. 이를 위해 Retrieval-Augmented Generation(RAG) 기법을 활용하였으며, 특수 도메인의 문서-질의-응답 쌍 데이터를 생성하고, 생성된 데이터를 기반으로 RAG를 미세 조정하여 강건한 답변 성능을 확보하고자 하였다.1. 데이터 생성특수 도메인 데이터셋은 관련 문서가 풍부하지만, 질의-응답 데이터 쌍이 부족하다는 특징이 있다. 이러한 특징을 고려하여, 본 프로젝트에서는 관련 문서만을 입력으로 사용해 RAG를 미세조정하기 위한 문서-질의-응답 쌍 데이터셋을 생성할 수 있는 LLM 프롬프트를 설계하였다. 이를 위해 LLaMa 2-7B 모델을 사용하였고, 프롬프트는 복잡한 Question Answer Generation 작업을 세 단계로 나누어 구성하였다: 1) Answer Entity Recognition 2)Question Generation 3) Answer Generation. 이처럼 단계를 명확히 구분하여 LLM에게 지시함으로써 Chain of Thoughts 효과를 극대화하였다. 이러한 접근법을 통해 기술 문서의 수만큼 원하는 양의 특수 도메인 데이터셋을 생성할 수 있었고, 데이터 부족 문제를 효과적으로 해결하였다. 본 프로젝트에서는 기술 도메인에 특화된 TechQA 데이터셋을 활용하여 기존 450개의 질의-응답 쌍을 5000개로 증강하여 사용하였다. 2. RAG 미세조정앞서 생성된 증강 데이터셋을 활용하여 RAG 프레임워크를 미세 조정하였다. Generator 미세조정 과정에서는 50% 확률로 정답 문서를 사용하였으며, 여러 연관 문서를 활용할 때 유사도가 높은 상위 K개의 문서를 학습에 활용하도록 설계하여 Generator의 강건한 답변 성능을 확보하였다. Retriever의 경우, 최대 3.6%의 성능 향상을 기록하며, 미세 조정된 retriever가 기존 모델보다 연관 문서를 더 효과적으로 검색함을 입증하였다. Generator의 경우에도 무작위 문서를 학습에 사용하던 기존 방식이나 사전 학습된 모델만 사용했을 때보다, 제안한 학습 기법을 적용했을 때 BERTScore 기준으로 더 높은 성능을 보였다. 결론적으로 본 프로젝트는 특수 도메인에서 데이터 부족 문제를 해결하고, RAG 모델의 성능을 개선하여 결함 대응의 시간 효율성을 높이는 데 기여하였다.
본 프로젝트는 TEM 이미지의 자동계측의 정확도를 향상시키는 것을 목표로 진행되었다. TEM 이미지 자동계측은 1) 이미지에서 관심 물체를 추출 후 계측하거나 2) 이미지 자체로 계측을 진행한다. 이미지에서 관심 물체를 추출한 후 계측하기 위해서는 이미지에서 관심 객체를 추출하는 segmentation 모델을 구축해야 한다. 이미지 자체로 계측을 진행하는 경우, TEM 이미지 내에 존재하는 노이즈를 제거하여 자동계측의 성능을 향상시킨다.1. TEM 특성 최적 Semantic Segmentation 기술 연구TEM 이미지는 촬영 방식의 특성 상 노이즈가 많이 생기며 이로 인해 물체의 경계면이 흐릿하다는 특징이 있다. 따라서 segmentation 모델을 구축할 경우 경게면에 집중한 segmentatoino 모델을 구축하여 계측 성능을 향상 시켰다. 물체의 경계면에 집중한 segmentation 모델을 구축하기 위해서 사전학습, multi-task learning, active boundary loss를 결합해서 모델을 구축했다.2. TEM 이미지 자동 계측 전환을 위한 Image Restoration 기술 연구TEM 이미지 내의 노이즈를 제거하기 위해서 딥러닝 기반 노이즈 제거 기법을 시도했다. 하지만 딥러닝 기반 노이즈 제거 기법은 TEM 이미지에 적합하지 않다는 것을 확인하여 전통적인 노이즈 제거 기법을 적용하게 되었다. 전통적 노이즈 제거 기법을 적용할 경우 사용자가 직접 노이즈 제거 정도를 결정하는 파라미터를 설정해야 한다는 한계점이 있다. 따라서 파라미터 선택이 필요하지 않은 최적화 기반 이미지 선형결합 방식을 제안하여 최종적인 노이즈 제거 이미지를 도출했다.
본 프로젝트는 미래 암모니아 가격 예측을 위한 설명 가능한 시계열 예측 모델을 개발하는 것을 목표로 한다. 암모니아 가격 예측에 영향을 끼치는 다양한 인자들을 활용해 가격 예측 정확도를 높이고, 모델의 해석을 바탕으로 각 인자들이 가격에 미치는 영향을 파악하고자 하였다. 1. 암모니아 가격 데이터 특징을 반영한 시계열 예측 모델 개발 본 프로젝트의 첫번째 목표는 시계열 예측 모델을 활용하여 미래 암모니아 가격을 정확하게 예측하는 것이다. Seq2Seq 모델은 여러 시계열 데이터를 입력 받아 순차적으로 미래 시계열을 예측하는 모델이다. 이때 입력 데이터를 효과적으로 활용하고 모델의 해석력을 확보하기 위해 본 연구에서는 Seq2Seq with Hierarchical Attention을 기본 구조로 활용하였다. 암모니아 가격은 때로 국제적 이슈에 의해 급격하게 가격이 변동하는 구간이 존재하여 이를 정확하게 예측하기 위해 시점과 모양 변동성을 고려하는 DILATE 손실함수로 모델을 학습하였다. 또한 학습과 테스트 데이터내 분포 차이 문제를 해결하기 위해 REVIN 기법을 추가하여 예측 성능을 높였다. 2. 주요 인자 파악을 위한 모델 해석 도메인 전문가의 의견을 수합하여 암모니아 가격과 관련된 변수들에 대한 데이터를 수집하였다. 요소, 오일, 경제지표를 포함한 약 60개의 변수를 선정하였고, 이를 활용하여 암모니아 가격을 예측하였다. 다양한 변수들이 암모니아 가격을 예측하는데 주는 영향력을 해석하기 위해 Hierarchical Attention 구조를 도입하였다. Hierarchical Attention은 입력 데이터들의 시점과 변수에 대한 중요도를 산출하여 예측하며, 이때 Attention Score를 바탕으로 각 시점과 변수의 영향력을 분석할 수 있다.
본 프로젝트는 다수의 센서로 구성된 차량 주행 데이터를 활용하여 차량의 노후화를 평가하기 위한 건전성 지표를 개발하는 것을 목표로 한다. 실제 레이블 및 잔여 수명 데이터가 부족한 상황에서 비지도 학습을 통해 건전성 지표를 도출하였으며, 시간에 따른 지속적인 노후화를 전제로 하는 기존 연구들과 달리 일부 부품의 교체로 인한 노후화 개선을 반영할 수 있는 동적 지표를 생성하여 차별화하였다.1. 차량 주행 데이터 전처리본 연구에 사용된 데이터는 하이브리드 차량의 225.2km부터 15,310km까지의 실제 주행 기록이다. 해당 데이터는 실제 주행 차량에서 수집되었기 때문에 수집된 날짜와 시간이 불규칙하며, 다수의 주행 거리 구간에 누락된 데이터가 존재한다. 차량은 다양한 부품으로 이루어진 복잡한 기계로, 1개의 시간 변수와 500개 이상의 센서 변수로 구성되어 있다. 이를 딥러닝 모델에 학습시키기 위해, 1) 선형 보간법을 사용해 결측치를 보완하고, 수집 간격을 0.01초로 통일하는 작업을 수행했으며, 2) 차량의 주요 기능을 담당하는 시스템을 크게 네 가지로 나누고, 관련 변수를 할당하는 '차량 시스템 군집화' 과정을 거쳤다. 3) 각 시스템의 가동 여부를 구분하는 변수를 통해 가동 구간을 선정하고, 슬라이딩 윈도우 기법을 적용해 각 가동 구간의 입력 데이터를 생성하였다.2. 재구축 오차 기반 모델을 활용한 건전성 지표 구축 개발건전성 지표는 기계 시스템의 모니터링 데이터를 바탕으로 현재 기계의 노후 상태를 정량화한 값을 의미한다. 최근 센서 개수의 증가로 데이터의 양이 기하급수적으로 늘어남에 따라, 중요한 특징을 자동으로 추출할 수 있는 딥러닝 기법을 사용하는 연구가 활발해지고 있다. 하지만, 지금까지 제안된 건전성 지표 구축 연구는 기계 시스템에 대해 가동 시작부터 끝까지의 생애 데이터 전부를 필요로 한다. 이로 인해 차량과 같이 생애 주기가 긴 기계에는 적용하기 어렵하는 한계점을 가진다. 본 프로젝트에서는 학습 데이터 분포와 다른 분포를 가지는 데이터가 들어왔을 때 재구축 오차가 커진다는 재구축 모델의 특징을 활용하여 차량의 초기 생애 데이터만으로도 건전성 지표를 구축할 수 있는 방법을 제안하였다. 특히 시계열 데이터에 특화된 LSTM-VAE를 활용하여 초기 주행 데이터 분포를 학습시키고, 이후의 주행 데이터를 입력해 재구축 오차를 계산함으로써 노후화로 인해 발생하는 분포 변화를 정량화 하였다.3. 누적합 재구축 오차 기반 모델을 활용한 건전성 지표 구축 개발재구축 오차 기반 모델을 단순히 활용한 결과, 정량적 및 정성적 평가에서 제안된 건전성 지표가 차량의 노후화를 제대로 반영하지 못한다는 점이 확인되었다. 이는 재구축 오차의 변동성이 크고, 노후화에 따른 분포 변화를 정확히 탐지하지 못했기 때문이다. 이를 해결하기 위해 관리도의 일종인 누적합 기반 관리도 기법을 도입하였다. 누적합 관리도는 감시통계량과 목표값의 차이를 누적해감으로써, 미세하게 변한 공정을 탐지하는데 유용하다는 특징을 가지고 있다. 본 프로젝트에서는 해당 특징을 활용하여 재구축 오차를 누적함으로써 노후화로 인해 발생하는 미세한 분포 변화를 탐지하였으며, 정량적/정성적 평가에서 모두 성능이 향상된 것을 확인할 수 있었다. 특히, 정성적 평가에서 노후화가 시간에 따라 증가하는 모습과 더불어, 특정 부품 교체와 같은 이벤트 발생 시 건전성 지표가 감소하는 양상을 보여주어, 차량의 노후화를 효과적으로 반영하는 지표를 개발하였음을 입증했다.
본 프로젝트는 제조 공정에서 사용되는 환경 인자 및 설정 인자를 활용하여 공정 결과를 예측하는 예측 AI 모델 개발을 목표로 한다. 세부 목표는 ① 공정 인자 정보 기반 공정 결과 예측 알고리즘 개발, ② 공정 장비 예열 판정 분류 알고리즘 개발 두 가지로 나눌 수 있다.1. 공정 인자 정보 기반 공정 결과 예측 알고리즘 개발본 프로젝트의 첫 번째 목표는 노광 공정 배경에서 계측되는 환경 인자와 설비 담당자가 직접 설정하는 설정 인자에 의해 글래스 규격 좌표를 나타내는 공정 결과 값(Overlay_X, Overlay_Y)을 정확히 예측하는 예측 알고리즘 개발하는 것이다. 인자들이 변화함에 따라 노광 공정 결과 글래스의 규격 좌표가 정확한 규격 좌표와 일치하지 않는 문제가 존재하는데, 예측 알고리즘을 통해 다양한 인자들과 공정 결과 값의 인과 관계 규명을 목표로 한다. 사용된 데이터의 경우 차수별(4~10차)로 수집되고, 차수의 특성 상 차수별 입력 및 출력 데이터에 약간의 차이가 존재한다. 실험의 경우 특정 한 차수의 데이터를 테스트 할 때, 해당 차수를 제외한 나머지 차수 데이터로 학습된 모델을 사용한다. 그리고 방대한 데이터 수집이 어려운 환경을 반영하여 회귀 문제에 적합한 데이터 증강 방식으로 학습 데이터를 충분히 확보하고, 머신러닝 방법론을 적용하여 공정 결과 값을 예측하였다.2. 공정 장비 예열 판정 분류 알고리즘 개발본 프로젝트의 두 번째 목표는 실제 공정 시작 이전 공정 장비의 예열 완료 상태 여부를 정확히 분류하는 분류 알고리즘을 개발하는 것이다. 본 공정에 들어가기 이전, 시험 글래스(Dummy Glass)를 도메인 전문가의 경험을 기반으로 약 10장 정도 투입하여 공정 장비를 예열시킨다. 하지만 10장이라는 시험 글래스의 수는 어디까지나 전문가의 경험에 의존하고, 실제로 10장 이전에 예열이 완료된다면 불필요한 시험 글래스의 사용을 줄일 수 있다. 따라서 본 프로젝트는 예열 완료 판정을 정확하게 분류하는 모델을 개발하고, 실제 레이블링이 되어있지 않은 시험 글래스에 Inference 실험을 통해 실제로 10장의 시험 글래스가 필요한지 여부에 대한 해석을 진행하였다. 제공받은 데이터로 실험을 진행한 결과, 약 7장의 시험 글래스에 대한 작업을 마치면 예열이 완료되고, 3장의 시험 글래스는 불필요한 것으로 나타났다.
본 프로젝트의 목표는 PLM(Product Lifecycle Management) 시스템에서 분산된 정보를 효율적으로 통합하기 위해 문서들 간의 연관성을 분석하는 데이터 기반 연관성 알고리즘을 구축하는 것이다. 이를 위해 먼저 사용자 쿼리와 시스템 내 문서 데이터의 유사성을 계산하고, 이를 바탕으로 연관성 그래프를 생성하는 텍스트 데이터 기반 알고리즘을 개발하였다.한국어 데이터로 사전학습된 BERT 기반의 KLUE-RoBERTa 모델을 차량 도메인의 특성을 고려하여 재학습시켜 사용자 쿼리와 시스템 내 문서 데이터의 표현 벡터를 추출하였다. 그 후에는 코사인 유사도와 TF-IDF를 이용하여 텍스트 데이터의 표현 벡터 간 유사성을 계산하고, 이를 가중합하여 쿼리와 문서 간의 유사도를 정의하였다. 이를 통해 쿼리와 유사한 문서를 찾아 추천함으로써 연관성이 높은 문서를 탐색할 수 있게되었다. 또한 각 소과제의 특성에 따라 알고리즘을 적용한 결과를 분석하여 유관 문서가 추출되었음을 정성적으로 검증하였다.1. 연관 아이디어 추천쿼리와 유사한 아이디어 문서를 다양하게 탐색할 수 있도록 연관문서 출력 단계를 확장하였다. 먼저, 쿼리와 유사성이 높은 문서를 1단계 연관 문서로 분류하고, 이러한 문서들과 유사성을 보이는 문서들을 2단계 연관 문서로 정의하여 관계성을 보다 체계적으로 구성하였다.2. 연관 문제상황 및 해결 방법 자동 조합 및 추천ITSM(IT Service Management) 문서 내에서 쿼리와 관련된 요청 내용에 대한 관련 해결 방안 및 담당자를 제안하도록 구성하였다. 유관 문서의 출력 정확도를 높이기 위해 카테고리를 매핑하여 특정 카테고리 내에서 쿼리와 가장 유사한 연관 문서를 출력한다. 또한, 쿼리와 함께 카테고리가 제안되지 않은 경우에는 카테고리를 예측하는 알고리즘을 추가하였다.3. 연관 문제상황 기반 유관 문서 추천협업 요청서 문서 내에서 쿼리와 관련된 제기 내용에 대한 해결 방안을 제안하기 위해 구성하였다. 추가적으로 협업 시스템 데이터의 특성을 반영하기 위해 전문 용어 스페셜 토큰들을 구축하고 활용하여 쿼리와 관련된 문서를 추천한다.
본 프로젝트는 불규칙적인 월별 불량률을 조기에 예측하는(회귀) 태스크와 불량 여부를 조기에 분류하는 태스크의 인공지능 모델을 구축하는 것을 목표로 하였다. 이는 불량률 및 불량을 조기에 탐지하여 제품 품질 및 고객 서비스 품질을 효율적으로 관리하기 위함이다. 월별 불량률을 예측하는 태스크에서는 월별로 불량률 예측 머신러닝 모델을 구축하였으며, 불량을 분류하는 태스크에서는 단일 머신러닝 모델을 구축하였다.1. 월별 불량률 예측월별 불량률 예측은 양산 모델의 특성 데이터와 초기 불량률 데이터를 랜덤포레스트로 학습하여 N개월 후 불량률을 예측하는 태스크이다. 모델 학습을 위해 중요 변수 및 파생 변수를 생성하는 등의 전처리를 수행하였다. 성능 향상을 위해 학습에 사용되는 초기 불량률 기간을 조절하였으며, 도메인 지식을 통한 제품군별 군집화를 진행하였다.2. 제품 계측값을 활용한 불량 분류불량 분류는 제품 계측 값 및 장비 라인 데이터를 학습하여 양품과 불량을 분류하는 이진 분류와 불량의 종류(개월)를 확장한 멀티 클래스 분류 태스크이다. 데이터 수집, 파생변수 생성, 결측치 대체 등 전처리를 수행하였다. 클래스 불균형 문제를 해결 하기 위해 도메인 지식을 통한 여러가지 방법의 다운샘플링 샘플링을 적용하였다. 세가지 앙상블 모델을 통해 성능을 비교했으며, 이진 분류의 경우 변수 중요도를 통해 공정의 주요 인자를 확인할 수 있었다.3. 결론 및 성능 - 결론 : 불량 관련 데이터 전처리 프로세스를 최초로 정의한 것에 의의가 있으며, 회귀 및 분류 두 개 태스크를 수행하는 모델을 각각 구축하여 유의미한 성능을 달성하였다. - 성능 1) 월별 불량률 예측 - MAPE 기준 군집화 전보다 6차 군집화를 통해 성능 개선을 보였으며, MAE 기준 군집화 전보다 제품군별 군집화 및 초기 불량률 기간 조절을 통해 4차, 5차, 6차에서 성능 개선을 보였다. 2) 제품 계측값을 활용한 불량 분류 - 클래스 불균형 문제를 해결하여 이진 분류 기준 Recall 0.69를 달성하였다. 다중 분류의 경우 클래스 개수를 군집화(16개 → 6개)하여 모든 지표 성능을 개선하였다.