Projects

Projects

Category
  • ALL
  • Machine Learning Algorithms
  • Smart Manufacturing
  • NLP & Text Mining
  • Healthcare & Biomedicine
  • Game AI
ALL
Keyword
더보기
Number of entries: 2 (필터 적용됨)
  • Smart Manufacturing

불확실성 인과 관계 모델 개발(삼성전자 CSE팀)

본 프로젝트의 목표는 반도체 공정 이력 기반 데이터를 통해서 제품 특성값 예측 및 효율적인 공정관리를 하기 위한 불확실성 인과 관계 모델을 구축하는 것이다. 예측에 영향을 미치는 주요 공정에 대한 해석 및 불확실성을 정량화하는 것이 핵심이며, 반도체 공정 이력 데이터에 존재하는 시계열성 및 공정 간 순차 정보를 반영하여 반도체 제품 특성값 예측을 수행하였다. 입력데이터의 분포가 시간에 따라 변할 수 있는 covariate shift 및 출력데이터인 제품 특성값이 다양하게 존재할 수 있는 multi-output 문제를 모델 학습에 반영하여 불확실성 인과 관계 모델을 고도화하였다.1. 반도체 공정 이력 기반 데이터 탐색 및 전처리반도체 공정 이력 기반의 시계열 데이터에는 범주형으로 구성된 공정 step 정보와 수치형 계측 데이터가 혼재되어 있으므로 각 데이터 타입별 적절한 전처리가 요구되며, 예측 알고리즘에 적용하기 위해 데이터 특성을 반영한 정제 과정이 필요하다. 이에 따라 주어진 데이터에 대한 데이터 탐색 및 전처리를 진행하였다.              2. 순차적 공정 데이터 특징을 반영한 해석 가능한 알고리즘 개발 및 불확실성 정량화공정 이력 데이터에는 각 공정 별 순차성이 존재한다. 본 프로젝트에서는 순차성을 반영하면서 동시에 결과에 대한 주요 공정 해석이 가능한 알고리즘을 제안하였다. 예측값과 입력값 사이의 관계 파악을 위해 모델에 내부적인 파라미터로 모델을 구성(model specific)하는 방식인 Attention mechanism을 활용하여 변수별 주요 해석이 가능하도록 모델을 구축하였다. 모델 구조에 stochastic feedforward attention layer를 사용하여 해석에 대한 불확실성 정량화가 가능하도록 하였다.  3. 시점에 따라 데이터 분포가 변경되는 상황 반영공정 데이터는 시점에 따라 데이터 분포가 변화하는 특성을 지니기 때문에, 이를 고려하여 cluster를 사전에 정의하고 각 cluster별로 모델 학습 및 검증을하는 2단계 모델링을 수행하였다. 본 프로젝트에서는 각 cluster별로 결과를 도출한 2단계 모델링 기법을 시점을 반영하지 않은 결과와 비교하여 성능 평가를 하였다.                                                                        4. 예측 알고리즘 주요 변수 해석 및 불확실성 정량화 시각화 결과아래 그래프는 공정 이력 데이터에 대한 주요 변수 해석 및 불확실성 정량화를 시각화한 것이다. 첫 번째 그래프는 주요 변수 해석에 대한 그래프이다. X축이 각 공정 변수들이며 Y축 값이 attention score이다. 제품 특성값 예측에 있어서 주요하게 영향을 준 변수를 확인할 수 있다. 두 번째 그래프는 주요하게 영향을 준 변수 상위 10개에 대한 불확실성 정량화 값이다. 제품 특성값 예측 결과에 대한 주요 변수 해석 및 불확실성을 확인할 수 있다.

#Regression #Clustering #Multi-output #TimeSeries_Analysis
2022.07.01 ~ 2023.06.30
  • Healthcare & Biomedicine

임피던스 및 광학센서를 이용한 생체신호 예측 모델 개발(삼성전자종합기술원)

본 프로젝트의 목표는 비침습적인 방식으로 여러 가지의 혈중 성분을 측정하기 위한 인공지능 예측 모델을 구축하는 것이다. 임피던스 데이터와 광학 센서 데이터에서 여러 혈중 성분들과 관련된 의미 있는 특징을 추출하는 것이 핵심이며, 이를 기반으로 피험자 간 변동성에 강건한 멀티 아웃풋 모델과 supervised contrastive learning 방식의 사전학습을 활용하는 방법론을 적용하였다. 수집된 생체 데이터들은 사람별로 다른 특성을 갖기 때문에 피험자별로 학습/평가 데이터를 구성하는 subject-wise cross-validation을 사용하여 보다 객관적인 학습 및 평가를 진행하였다.1. 임피던스 데이터 기반 멀티 아웃풋 예측모델 구축임피던스 데이터는 인체에 미세한 전류를 통과시킬 때 발생하는 저항값을 계측하여 수집되었으며, 여러 주파수, 측정 범위, 측정 위치에 따라 총 117개의 변수로 구성된다. 또한 피험자의 메타 정보(키, BMI, 성별 등)을 같이 활용하여 입력 데이터로 구성하였다. 이후 여러 혈중성분 중 서로 상관성 있는 성분들을 파악하고, 이들을 동시에 예측할 수 있는 멀티 아웃풋 심층 신경망을 적용하였다. 구축된 모델은 correlation, MSE, MAPE 지표 관점에서 단일 예측 모델보다 좋은 성능을 보였다.2. 광학 센서 데이터 기반 중성지방 예측모델 구축 광학 센서 데이터는 빛을 내는 광원과 이를 흡수하는 PD센서로 이루어져 있다. 8종류의 광원에서 나오는 빛을 18개의 PD센서에서 흡수하여 144개의 변수로 구성되어있으며 산란방정식 기반의 가공변수를 생성하였고, 이동평균 및 변수선택을 통해 노이즈를 제거하였다. 이후, 중성지방 농도별 유사한 데이터끼리 모아 10개의 class를 구성하였으며 이를 예측하는 사전학습 task를 학습하였고, 학습된 모델을 지식전이를 통해 예측모델에 활용하였다. 구축된 모델은 다른 예측모델들에 비해 정확하고 강건한 성능을 보여주었다.

#Regression #Healthcare #PPG(photoplethysmography) #Impedance #Multi-output #Self-Supervised Learning
2021.06.01 ~ 2022.05.31