Projects

Projects

Category
  • ALL
  • Machine Learning Algorithms
  • Smart Manufacturing
  • NLP & Text Mining
  • Healthcare & Biomedicine
  • Game AI
ALL
Keyword
더보기
Number of entries: 87 (필터 적용됨)
  • Machine Learning Algorithms

공정 인자정보 기반 예측 AI모델 개발(LG생산기술원)

본 프로젝트는 제조 공정에서 사용되는 환경 인자 및 설정 인자를 활용하여 공정 결과를 예측하는 예측 AI 모델 개발을 목표로 한다. 세부 목표는 ① 공정 인자 정보 기반 공정 결과 예측 알고리즘 개발, ② 공정 장비 예열 판정 분류 알고리즘 개발 두 가지로 나눌 수 있다.1. 공정 인자 정보 기반 공정 결과 예측 알고리즘 개발본 프로젝트의 첫 번째 목표는 노광 공정 배경에서 계측되는 환경 인자와 설비 담당자가 직접 설정하는 설정 인자에 의해 글래스 규격 좌표를 나타내는 공정 결과 값(Overlay_X, Overlay_Y)을 정확히 예측하는 예측 알고리즘 개발하는 것이다. 인자들이 변화함에 따라 노광 공정 결과 글래스의 규격 좌표가 정확한 규격 좌표와 일치하지 않는 문제가 존재하는데, 예측 알고리즘을 통해 다양한 인자들과 공정 결과 값의 인과 관계 규명을 목표로 한다. 사용된 데이터의 경우 차수별(4~10차)로 수집되고, 차수의 특성 상 차수별 입력 및 출력 데이터에 약간의 차이가 존재한다. 실험의 경우 특정 한 차수의 데이터를 테스트 할 때, 해당 차수를 제외한 나머지 차수 데이터로 학습된 모델을 사용한다. 그리고 방대한 데이터 수집이 어려운 환경을 반영하여 회귀 문제에 적합한 데이터 증강 방식으로 학습 데이터를 충분히 확보하고, 머신러닝 방법론을 적용하여 공정 결과 값을 예측하였다.2. 공정 장비 예열 판정 분류 알고리즘 개발본 프로젝트의 두 번째 목표는 실제 공정 시작 이전 공정 장비의 예열 완료 상태 여부를 정확히 분류하는 분류 알고리즘을 개발하는 것이다. 본 공정에 들어가기 이전, 시험 글래스(Dummy Glass)를 도메인 전문가의 경험을 기반으로 약 10장 정도 투입하여 공정 장비를 예열시킨다. 하지만 10장이라는 시험 글래스의 수는 어디까지나 전문가의 경험에 의존하고, 실제로 10장 이전에 예열이 완료된다면 불필요한 시험 글래스의 사용을 줄일 수 있다. 따라서 본 프로젝트는 예열 완료 판정을 정확하게 분류하는 모델을 개발하고, 실제 레이블링이 되어있지 않은 시험 글래스에 Inference 실험을 통해 실제로 10장의 시험 글래스가 필요한지 여부에 대한 해석을 진행하였다. 제공받은 데이터로 실험을 진행한 결과, 약 7장의 시험 글래스에 대한 작업을 마치면 예열이 완료되고, 3장의 시험 글래스는 불필요한 것으로 나타났다.

#Regression #Classification #Machine Learning #Explainable AI
2023.06.01 ~ 2023.11.29
  • NLP & Text Mining

텍스트 데이터 기반 연관 문서 추천 알고리즘 개발(현대모비스)

본 프로젝트의 목표는 PLM(Product Lifecycle Management) 시스템에서 분산된 정보를 효율적으로 통합하기 위해 문서들 간의 연관성을 분석하는 데이터 기반 연관성 알고리즘을 구축하는 것이다. 이를 위해 먼저 사용자 쿼리와 시스템 내 문서 데이터의 유사성을 계산하고, 이를 바탕으로 연관성 그래프를 생성하는 텍스트 데이터 기반 알고리즘을 개발하였다.한국어 데이터로 사전학습된 BERT 기반의 KLUE-RoBERTa 모델을 차량 도메인의 특성을 고려하여 재학습시켜 사용자 쿼리와 시스템 내 문서 데이터의 표현 벡터를 추출하였다. 그 후에는 코사인 유사도와 TF-IDF를 이용하여 텍스트 데이터의 표현 벡터 간 유사성을 계산하고, 이를 가중합하여 쿼리와 문서 간의 유사도를 정의하였다. 이를 통해 쿼리와 유사한 문서를 찾아 추천함으로써 연관성이 높은 문서를 탐색할 수 있게되었다. 또한 각 소과제의 특성에 따라 알고리즘을 적용한 결과를 분석하여 유관 문서가 추출되었음을 정성적으로 검증하였다.1.  연관 아이디어 추천쿼리와 유사한 아이디어 문서를 다양하게 탐색할 수 있도록 연관문서 출력 단계를 확장하였다. 먼저, 쿼리와 유사성이 높은 문서를 1단계 연관 문서로 분류하고, 이러한 문서들과 유사성을 보이는 문서들을 2단계 연관 문서로 정의하여 관계성을 보다 체계적으로 구성하였다.2. 연관 문제상황 및 해결 방법 자동 조합 및 추천ITSM(IT Service Management) 문서 내에서 쿼리와 관련된 요청 내용에 대한 관련 해결 방안 및 담당자를 제안하도록 구성하였다. 유관 문서의 출력 정확도를 높이기 위해 카테고리를 매핑하여 특정 카테고리 내에서 쿼리와 가장 유사한 연관 문서를 출력한다. 또한, 쿼리와 함께 카테고리가 제안되지 않은 경우에는 카테고리를 예측하는 알고리즘을 추가하였다.3. 연관 문제상황 기반 유관 문서 추천협업 요청서 문서 내에서 쿼리와 관련된 제기 내용에 대한 해결 방안을 제안하기 위해 구성하였다. 추가적으로 협업 시스템 데이터의 특성을 반영하기 위해 전문 용어 스페셜 토큰들을 구축하고 활용하여 쿼리와 관련된 문서를 추천한다.

#NLP #BERT #Recommendation
2023.03.13 ~ 2023.11.27
  • Machine Learning Algorithms

Field RMA 불량률 예측 및 불량 분류(LG 디스플레이)

본 프로젝트는 불규칙적인 월별 불량률을 조기에 예측하는(회귀) 태스크와 불량 여부를 조기에 분류하는 태스크의 인공지능 모델을 구축하는 것을 목표로 하였다. 이는 불량률 및 불량을 조기에 탐지하여 제품 품질 및 고객 서비스 품질을 효율적으로 관리하기 위함이다. 월별 불량률을 예측하는 태스크에서는 월별로 불량률 예측 머신러닝 모델을 구축하였으며, 불량을 분류하는 태스크에서는 단일 머신러닝 모델을 구축하였다.1. 월별 불량률 예측월별 불량률 예측은 양산 모델의 특성 데이터와 초기 불량률 데이터를 랜덤포레스트로 학습하여 N개월 후 불량률을 예측하는 태스크이다. 모델 학습을 위해 중요 변수 및 파생 변수를 생성하는 등의 전처리를 수행하였다. 성능 향상을 위해 학습에 사용되는 초기 불량률 기간을 조절하였으며, 도메인 지식을 통한 제품군별 군집화를 진행하였다.2. 제품 계측값을 활용한 불량 분류불량 분류는 제품 계측 값 및 장비 라인 데이터를 학습하여 양품과 불량을 분류하는 이진 분류와 불량의 종류(개월)를 확장한 멀티 클래스 분류 태스크이다. 데이터 수집, 파생변수 생성, 결측치 대체 등 전처리를 수행하였다. 클래스 불균형 문제를 해결 하기 위해 도메인 지식을 통한 여러가지 방법의 다운샘플링 샘플링을 적용하였다. 세가지 앙상블 모델을 통해 성능을 비교했으며, 이진 분류의 경우 변수 중요도를 통해 공정의 주요 인자를 확인할 수 있었다.3. 결론 및 성능 - 결론 : 불량 관련 데이터 전처리 프로세스를 최초로 정의한 것에 의의가 있으며, 회귀 및 분류 두 개 태스크를 수행하는 모델을 각각 구축하여 유의미한 성능을 달성하였다. - 성능   1) 월별 불량률 예측      - MAPE 기준 군집화 전보다 6차 군집화를 통해 성능 개선을 보였으며, MAE 기준 군집화 전보다 제품군별 군집화 및 초기 불량률 기간 조절을 통해 4차, 5차, 6차에서 성능 개선을 보였다.   2) 제품 계측값을 활용한 불량 분류      - 클래스 불균형 문제를 해결하여 이진 분류 기준 Recall 0.69를 달성하였다. 다중 분류의 경우 클래스 개수를 군집화(16개 → 6개)하여 모든 지표 성능을 개선하였다. 

#Smart_Maufacturing #Regression #Classification
2022.09.01 ~ 2023.10.31
  • Machine Learning Algorithms

상세 풍절음 예측 및 해석가능한 AI 모델 개발 고도화(현대자동차, BRFrame)

본 프로젝트에서는 차량 디자인에 따른 풍절음 예측 모델을 고도화하여, 기존 모델을 신규 차종에 적용하는 프레임워크 구축을 최종 목표로 하였다.세부 목표는 ① 데이터에 적합한 Augmentation 적용 및 중요 Grid 탐색  ② Self-Supervised Learning 방법론을 이용한 신규 차량 데이터 두 가지이다.1. Augmentation 및 중요 Grid 탐색강건한 모델 학습을 위해 Resize, RandomCrop, ColorJitter 등 다양한 Augmentation 기법들을 적용하여 최적의 조합을 탐색하였다. 또한 입력 이미지들에 대해, 여러 Grid로 나누어 학습한 후, 각각의 Attention score를 이용하여 모델에 중요하게 작용하지 않은 부분들을 제거하였다.2. Self-Supervised Learning 적용신규 차종의 경우 실험 데이터가 거의 없기 때문에, 새로운 모델을 학습시키기에는 부적절하다. 따라서 기존 차종들로 학습된 모델에 소량의 신규 차종 데이터로 미세조정을 할 수 있는 2-Stage 방법론을 적용하였다. 1-Stage에서는 다량의 기존 차량 데이터를 이용하여 딥러닝 모델을 학습하였다. 이 과정에서 Augmentation과 Metric Learning을 사용하여 보다 일반적인 모델을 구축하였다.  2-Stage에서는 소량의 신차 데이터를 이용하여 미세조정하였다. 이러한 과정을 통해 기존의 모델을 효율적으로 신차 데이터에 맞게 수정할 수 있는 프레임워크를 제안하였다.

#Self-Supervised Learning #NVH analysis #Vehicle Exterior Design
2022.09.01 ~ 2023.02.28
  • Machine Learning Algorithms

상세 풍절음 예측 및 해석가능한 AI 모델 개발(현대자동차, BRFrame)

본 프로젝트에서는 차량의 디자인에 따라 주행 시 발생하는 상세 풍절음들을 예측하고, 이를 바탕으로 중요한 디자인적 요소를 찾아주는 것을 최종 목표로 하였다.세부 목표는 ① 3가지 대역의 풍절음 예측, ② 풍절음에 중요하게 작용하는 디자인 요소 탐색으로 총 두 가지이다. 1.  풍절음 예측디자인에 따른 풍절음을 예측하기 위해, 자동차의 특징적인 부분을 반영할 수 있는 여러 이미지들을 입력 값으로 사용하였고, CNN기반의 특징 추출기를 이용하여 특징 벡터를 추출하였다. 또한 추출된 특징 벡터들 중 예측값에 가장 중요하게 반영되는 가중치를 연산하는 Self-Attention 모듈과 이를 이용하여 3가지의 주파수 대역을 예측하는 Linear Layer를 이용하여 3가지 대역의 풍절음을 예측하였다.2. 디자인 요소 탐색디자인 요소 탐색을 위해서는 가장 중요하게 사용된 이미지 종류와, 그 이미지 안에서도 어떤 부분이 중요했는지에 대한 정보가 필요하다. 이를 위해 Attention Score와 Grad-CAM을 사용하였다. 우선 Attention Score를 이용한 중요 이미지 탐색은 아래 표와 같으며, 주로 사이드 미러의 형태가 풍절음에 중요하다는 것을 알 수 있다. 또한 오른쪽 그림은 중요하게 작용했던 7가지 이미지에 대해 Grad-CAM을 이용하여 각 이미지 내에서 중요한 부분을 탐색한 결과이다.

#Regression #Explainable_AI #Multi-label Regression #NVH analysis #Vehicle Exterior Design
2021.09.01 ~ 2022.02.28
  • Smart Manufacturing

효율적인 이상감지 시스템 확산을 위한 AI 자가학습기술 개발(삼성전자)

본 프로젝트의 목표는 반도체 공정의 가상계측(VM) 데이터를 통해 설비의 이상을 탐지하기위한 AI 모델을 구축하는 것이다. 이를 위해 공정에서 수집된 데이터를 2가지 방법(이미지데이터, 원본 데이터)으로 이상감지를 하였고, 이미지 분류 모델의 이상원인을 파악할 수 있는 프레임워크를 설계하였다. 1. 수집 데이터공정 내 여러 설비 데이터를 수집하였으며, 이상을 탐지하고자 하는 기준 설비 데이터를 파란색으로 표시하였다. 같은 공정 내 다른 설비들의 데이터를 회색으로 표시하였으며, 기준 설비의 PM진행시점을 초록색 선으로 표시하여 아래와 같은 이미지 데이터를 생성하였다. X축은 시간, Y축은 fab value를 나타낸다.2. 이상 데이터 정의이상이 발생할 수 있는 관심구간을 최근 1/7시점 정의하였고, 이는 이미지상 최우측 1/7시점이다. 관심구간 내 기준 설비 데이터가 다른 설비들의 데이터와 분포 차이가 클 경우, 관심구간이 과거 구간들(나머지 6/7 구간)과 다른 패턴을 보일 경우 이상으로 정의하였다. PM 진행 이후에는 일시적인 패턴 변화가 나타날 수 있기 때문에, PM 진행 이후 급격한 패턴 변화는 어느 정도 감안하였다.3. 이미지 데이터 이상 분류 및 이상 원인 파악기준 설비 데이터를 3가지 채널의 이미지로 생성하였다. 각 채널은 기준 설비 데이터, 기준 설비의 PM진행시점, 같은 공정 내 다른 설비들의 데이터의 정보들로 이루어져 있다. 또한 과거 구간 대비 관심 구간의 패턴 변화를 탐지하기 위해 아래와 같이 6개의 데이터 쌍으로 구성하였다. 샴 네트워크 모델은 한 쌍의 이미지들을 입력 값으로 받고 두 구간이 모두 정상을 경우 정상, 하나라도 이상일 경우 이상으로 이상으로 판단한다. 마지막으로 판단된 이상 확률 값에 grad-CAM을 적용하여 모델이 중요하게 간주한 부분을 확인하였다. Grad-CAM을 이용한 시각화 결과는 다음과 같다. 모델이 중요하게 간주한 부분은 붉은색으로, 그렇지 않은 부분은 파란색으로 나타내었다.4. 원본 데이터 이상 탐지서로 길이가 다른 데이터들을 동일한 길이로 맞추기 위해, 128구간으로 나누어 각 구간 내 통계량 값을 계산하였다. 이후 anomaly transformer 모델을 학습하여 score를 계산하였다. 각 시점별로 계산된 이상 score 중 관심구간에 해당하는 값들을 기준으로 이상/정상을 판단하였다. 이러한 재구축 오차 기반 이상탐지 모델은 정상 데이터만을 이용하여 학습할 수 있다는 장점이 있다.

#Anomaly_Detection #TimeSeries_Analysis #Smart_Maufacturing #Exaplainable_AI
2022.09.01 ~ 2023.08.31
  • Machine Learning Algorithms

AI 기반 V2G 적용 위한 EV 에너지 예측 모델 개발(현대자동차)

본 프로젝트에서는 전기자동차를 사용하는 상황에서 사용자, 충전소에 대한 충전 패턴 분석을 진행하여, 충전 상황의 패턴을 파악할 수 있는 프로토콜을 제시하고, 이를 바탕으로 최적의 의사결정을 내리거나 이에 도움을 주는 것을 최종 목표로 하였다. 세부 목표는 ① 전기자동차 사용자의 충전 패턴 예측, ② 충전소의 시간대별 정보 예측, ③ 충전소 군집화로 총 세 가지이다.충전소에서 전기자동차들이 충전을 진행한 내역이 기록된 데이터인 충전 세션 데이터를 이용하여 분석을 진행하였으며, 해당 데이터는 사용자 ID, 충전소 ID, 충전 시작 시간, 충전 종료 시간, 순충전량 등이 포함된다.1. 전기자동차 사용자의 충전 패턴 예측본 프로젝트의 첫 번째 목표는 충전 세션 데이터를 이용하여 사용자의 충전 패턴을 예측하는 것이다. 전기차 배터리는 사용자의 패턴에 따라 수명이 달라지기 때문에 해당 프로젝트에서는 사용자의 패턴을 파악하기 위해 확률분포, 머신러닝 방법론을 사용하여 패턴 예측을 진행하였다. 사용자가 얼마나 오랫동안 충전할 것인지, 얼만큼 충전할 것인지, 언제 다시 충전을 시작할 것인지, 배터리가 얼마 남았을 때 충전을 진행할 것인지에 대해 예측을 진행하였다. 확률분포는 실제 데이터를 바탕으로 추정된 분포를 통해 진행하였으며, 머신러닝 방법론으로는 부스팅계열의 모델을 사용하여 사용자의 패턴 예측을 진행하였다.2. 충전소의 시간대별 정보 예측본 프로젝트의 두 번째 목표는 기존에 충전소에서 획득할 수 있는 정보를 바탕으로 미래 시점에서 충전소의 전력 소모량과 방문 차량 수를 예측하는 것이다. 충전 세션 데이터로부터, 각 충전소의 시간대(1시간, 6시간, 24시간)별 전력 소모량, 방문 차량 수에 대한 시계열 데이터를 획득하고, 획득한 데이터에 대하여 순환 신경망 구조인 LSTM을 학습시켰다. 학습시킨 LSTM 모델을 활용하여 미래 시점들에 대해 시간대별로 전력 소모량과 방문 차량 수를 예측하고, 그 성능을 평가하였다.3. 충전소 군집화 분석본 프로젝트의 세번째 목표는 군집화를 통해 유사한 충전소를 하나의 군집으로 묶고 군집별 특성에 대한 다양한 인사이트를 도출하는 것이다. 이때 충전소ID를 기준으로 각 충전소의 충전기 모델 종류 그리고 시간대(24시간,1시간)별 특징 ( 충전량, 충전 연결 시간, 그리고 방문자 등)을 추출하고 K-Means Clustering을 진행하였다. 최종적으로 충전소의 군집화 결과를 시각화하여 각 군집들이 어떤 특징을 보이는지 분석을 진행하였다.

#Regression #Clustering #EV prediction #TimeSeries_Analysis
2022.07.21 ~ 2023.07.06
  • Machine Learning Algorithms

시계열 XAI 기반 설비 Weak Point 감지(삼성디스플레이)

본 프로젝트는 다양한 설비들이 연속적으로 작동하는 디스플레이 photo공정에서 공정 지연을 유발한 인자(Glass)를 탐지하고 원인이 되는 단위 공정(Unit)을 해석하는 것을 목표로 수행되었다. 여러 공정을 통과할때마다 걸리는 시간 데이터(Tack time)를 연속적으로 반영하여 특징을 추출하고 해석하여 공정 지연이 되는 주요 원인을 작업자에게 전달하는 것이 핵심이며, 이를 기반으로 이상치 탐지 알고리즘과 해석 가능 모델을 설계하였다.1. 시계열 데이터 특징을 반영한 이상치 탐지 알고리즘 개발Photo 설비에서 공정이 가동되면 연속적인 시계열 특성을 갖기 때문에 본 프로젝트에서는 시계열 특징을 반영한 이상치 탐지 알고리즘을 개발하였다. 다양한 이상치 탐지 알고리즘을 사용하였으며 LSTM-AE, LSTM-VAE, MAD-GAN, Anomaly Transformer 그리고 USAD를 적용하였고 그 중 AutoEncoder와 GAN 구조를 함께 사용하는 USAD가 가장 우수한 성능을 보였다. 평가를 위해 정확도와 F1-score를 사용하였으며 추가적으로 설비 공정에서 사용되는 실제 정상 데이터 중 불량으로 잘못 예측한 비율인 과검률과 실제 불량 데이터 중 불량으로 올바르게 예측한 비율인 불량 검출률을 사용하였다.2. 주요 원인 진단이 가능한 해석 가능 모델 설계 및 해석 결과 검증해석을 위해 이상치 탐지 알고리즘을 모방하는 해석 가능한 보조모델에 대한 학습이 필요하였다. Autoencoder 모델을 생성하여 원본 데이터를 입력 값으로 학습이 된 이상치 탐지 모델로부터 얻어진 이상치 점수 데이터를 출력 값으로 활용하였으며 이상 정도에 따라 원인 unit을 정의 할 수 있었다. 또한 시계열이라는 특성을 반영하여 각 unit에 대한 주요 unit 추적도 가능하다. 

#Anomaly_Detection #TimeSeries_Analysis #Explainable_AI
2022.09.01 ~ 2023.08.31
  • Smart Manufacturing

불확실성 인과 관계 모델 개발(삼성전자 CSE팀)

본 프로젝트의 목표는 반도체 공정 이력 기반 데이터를 통해서 제품 특성값 예측 및 효율적인 공정관리를 하기 위한 불확실성 인과 관계 모델을 구축하는 것이다. 예측에 영향을 미치는 주요 공정에 대한 해석 및 불확실성을 정량화하는 것이 핵심이며, 반도체 공정 이력 데이터에 존재하는 시계열성 및 공정 간 순차 정보를 반영하여 반도체 제품 특성값 예측을 수행하였다. 입력데이터의 분포가 시간에 따라 변할 수 있는 covariate shift 및 출력데이터인 제품 특성값이 다양하게 존재할 수 있는 multi-output 문제를 모델 학습에 반영하여 불확실성 인과 관계 모델을 고도화하였다.1. 반도체 공정 이력 기반 데이터 탐색 및 전처리반도체 공정 이력 기반의 시계열 데이터에는 범주형으로 구성된 공정 step 정보와 수치형 계측 데이터가 혼재되어 있으므로 각 데이터 타입별 적절한 전처리가 요구되며, 예측 알고리즘에 적용하기 위해 데이터 특성을 반영한 정제 과정이 필요하다. 이에 따라 주어진 데이터에 대한 데이터 탐색 및 전처리를 진행하였다.              2. 순차적 공정 데이터 특징을 반영한 해석 가능한 알고리즘 개발 및 불확실성 정량화공정 이력 데이터에는 각 공정 별 순차성이 존재한다. 본 프로젝트에서는 순차성을 반영하면서 동시에 결과에 대한 주요 공정 해석이 가능한 알고리즘을 제안하였다. 예측값과 입력값 사이의 관계 파악을 위해 모델에 내부적인 파라미터로 모델을 구성(model specific)하는 방식인 Attention mechanism을 활용하여 변수별 주요 해석이 가능하도록 모델을 구축하였다. 모델 구조에 stochastic feedforward attention layer를 사용하여 해석에 대한 불확실성 정량화가 가능하도록 하였다.  3. 시점에 따라 데이터 분포가 변경되는 상황 반영공정 데이터는 시점에 따라 데이터 분포가 변화하는 특성을 지니기 때문에, 이를 고려하여 cluster를 사전에 정의하고 각 cluster별로 모델 학습 및 검증을하는 2단계 모델링을 수행하였다. 본 프로젝트에서는 각 cluster별로 결과를 도출한 2단계 모델링 기법을 시점을 반영하지 않은 결과와 비교하여 성능 평가를 하였다.                                                                        4. 예측 알고리즘 주요 변수 해석 및 불확실성 정량화 시각화 결과아래 그래프는 공정 이력 데이터에 대한 주요 변수 해석 및 불확실성 정량화를 시각화한 것이다. 첫 번째 그래프는 주요 변수 해석에 대한 그래프이다. X축이 각 공정 변수들이며 Y축 값이 attention score이다. 제품 특성값 예측에 있어서 주요하게 영향을 준 변수를 확인할 수 있다. 두 번째 그래프는 주요하게 영향을 준 변수 상위 10개에 대한 불확실성 정량화 값이다. 제품 특성값 예측 결과에 대한 주요 변수 해석 및 불확실성을 확인할 수 있다.

#Regression #Clustering #Multi-output #TimeSeries_Analysis
2022.07.01 ~ 2023.06.30
  • Healthcare & Biomedicine

광학 센서 및 Pulse Wave Signal 기반 중성 지방 측정 알고리즘 개발(삼성전자종합기술원)

본 프로젝트의 목표는 비침습적인 방식으로 혈중 중성 지방 농도를 측정하기 위한 인공지능 예측 모델을 구축하는 것이다. 광학 센서 데이터와 pulse wave signal 데이터에서 중성 지방과 관련된 의미 있는 특징을 추출하는 것이 핵심이며, 이를 기반으로 피험자 간 변동성에 강건한 중성 지방 측정 알고리즘 개발을 수행하였다.Table 및 signal의 두 가지 형식의 데이터에 기초하여 예측에 중요한 여러 특징들을 다양하게 추출하고 활용하고자 하였으며, 두 가지 형식의 데이터를 함께 사용하여 설명력을 상호 보완할 수 있는 방식으로 예측 모델을 고도화하였다.본 프로젝트의 연구 결과는 비침습 방식의 혈중 중성 지방 측정 기기에 적용 가능하며, 비침습 센서 기술 발달과 함께 스마트 의료 진단 기술 발전에 기여할 수 있을 것으로 기대된다.1. 광학 센서 Table 데이터 기반 중성 지방 예측 모델 구축손목에 부착된 광학 센서로 수집된 데이터는 노이즈와 많은 변수로 인해 과적합 발생 가능성과 피험자 간 변동성이 존재한다. 따라서 raw 데이터를 기반으로 산란 방적식 기반 가공 변수 생성, 차원 축소 기법 적용 및 이동 평균을 통한 노이즈 제거, 중요 변수 선택 등의 기법을 적용하여 중성 지방 예측에 유의미한 특징을 추출하였다. 이후, 다양한 머신러닝 알고리즘을 사용하여 혈중 중성 지방 농도를 예측하였으며, subject-wise cross-validation을 사용하여 모델 별 성능을 객관적으로 평가하였다. 구축된 모델의 경우 correlation 지표 관점에서 매우 좋은 성능을 보였으며, 실제 중성 지방의 증감 패턴을 우수하게 예측한다는 것을 확인하였다.2. Pulse Wave Signal 데이터 기반 중성 지방 예측 모델 구축Pulse wave signal 데이터는 주파수 영역에서 다양한 정보를 담고 있으며 시간에 따라 변하는 파형 및 동적인 특성을 포착하는 것이 중요하다. 따라서 1차원의 pulse wave signal 데이터를 2차원의 이미지 형태인 scalogram으로 변환하여 시계열성과 주파수에 대한 특징을 보다 풍부하게 추출하였다. 이후, 이미지 기반 딥러닝 알고리즘을 사용하여 혈중 중성 지방 농도를 예측하였으며, subject-wise cross-validation을 사용하여 모델의 성능을 객관적으로 평가하였다. 구축된 모델의 경우 IoU 지표 관점에서 좋은 성능을 보였으며, 실제 중성 지방의 절대적인 수치를 우수하게 예측한다는 것을 확인하였다. 3. 광학 센서 Table 데이터 및 Pulse Wave Signal 데이터 기반 멀티 모달 중성 지방 예측 모델 구축서로 다른 형식의 광학 센서 데이터와 pulse wave signal 데이터를 함께 활용할 수 있는 멀티 모달 프레임워크를 적용하여 기존의 예측 모델을 고도화하였다. 각 데이터 별로 적합한 모델을 사용해 특징을 추출하였고, 이를 결합하여 하나의 특징 벡터로 매핑하는 feature vector concatenation 기반의 방법을 사용하였다. 이때, 각각 학습된 특징 간의 분포 차이를 줄여 멀티 모달 데이터가 포괄적으로 사용되도록 하기 위해 스케일링 기법과 가중치에 따른 결합 기법을 적용하였다. 구축된 모델은 광학 센서 및 pulse wave signal를 단독으로 사용했을 때보다 향상된 성능을 보였으며, correlation과 IoU 지표 관점에서 우수한 성능을 보였다. 멀티 모달 모델링을 통해 각 데이터의 특징과 장점을 효과적으로 활용하여 실제 중성 지방의 증감 패턴 및 절대적인 수치를 우수하게 예측한다는 것을 확인하였다. 4. 피험자 별 중성 지방 농도 예측 결과 시각화아래 그래프는 피험자 별 혈중 중성 지방 농도 예측 결과를 시각화한 것이다. 한 피험자에 대해 시간에 따른 혈중 중성 지방 농도의 실제값과 예측값을 함께 보여준다. 각 피험자 내에서 시간에 따른 혈중 중성 지방 농도 값과 변화 추이를 우수하게 예측하고 있음을 확인할 수 있다.

#Regression #Healthcare #PPG(photoplethysmography) #Multi-Modal Learning
2022.07.01 ~ 2023.06.30
  • Healthcare & Biomedicine

임피던스 및 광학센서를 이용한 생체신호 예측 모델 개발(삼성전자종합기술원)

본 프로젝트의 목표는 비침습적인 방식으로 여러 가지의 혈중 성분을 측정하기 위한 인공지능 예측 모델을 구축하는 것이다. 임피던스 데이터와 광학 센서 데이터에서 여러 혈중 성분들과 관련된 의미 있는 특징을 추출하는 것이 핵심이며, 이를 기반으로 피험자 간 변동성에 강건한 멀티 아웃풋 모델과 supervised contrastive learning 방식의 사전학습을 활용하는 방법론을 적용하였다. 수집된 생체 데이터들은 사람별로 다른 특성을 갖기 때문에 피험자별로 학습/평가 데이터를 구성하는 subject-wise cross-validation을 사용하여 보다 객관적인 학습 및 평가를 진행하였다.1. 임피던스 데이터 기반 멀티 아웃풋 예측모델 구축임피던스 데이터는 인체에 미세한 전류를 통과시킬 때 발생하는 저항값을 계측하여 수집되었으며, 여러 주파수, 측정 범위, 측정 위치에 따라 총 117개의 변수로 구성된다. 또한 피험자의 메타 정보(키, BMI, 성별 등)을 같이 활용하여 입력 데이터로 구성하였다. 이후 여러 혈중성분 중 서로 상관성 있는 성분들을 파악하고, 이들을 동시에 예측할 수 있는 멀티 아웃풋 심층 신경망을 적용하였다. 구축된 모델은 correlation, MSE, MAPE 지표 관점에서 단일 예측 모델보다 좋은 성능을 보였다.2. 광학 센서 데이터 기반 중성지방 예측모델 구축 광학 센서 데이터는 빛을 내는 광원과 이를 흡수하는 PD센서로 이루어져 있다. 8종류의 광원에서 나오는 빛을 18개의 PD센서에서 흡수하여 144개의 변수로 구성되어있으며 산란방정식 기반의 가공변수를 생성하였고, 이동평균 및 변수선택을 통해 노이즈를 제거하였다. 이후, 중성지방 농도별 유사한 데이터끼리 모아 10개의 class를 구성하였으며 이를 예측하는 사전학습 task를 학습하였고, 학습된 모델을 지식전이를 통해 예측모델에 활용하였다. 구축된 모델은 다른 예측모델들에 비해 정확하고 강건한 성능을 보여주었다.

#Regression #Healthcare #PPG(photoplethysmography) #Impedance #Multi-output #Self-Supervised Learning
2021.06.01 ~ 2022.05.31
  • NLP & Text Mining

로그 데이터 기반 조기 결함 탐지 모델 개발(삼성종합기술원)

본 프로젝트는 슈퍼 컴퓨터 운용 중에 발생할 수 있는 결함을 로그 메시지를 활용하여 탐지 및 예측하는 기술 개발을 목표로 하였다. 각각의 목표는 다음과 같다.    -  결함 탐지: 해당 로그 메시지가 어느 수준의 이상인지를 판단    -  결함 예측: 과거부터 현재까지의 로그 메시지를 기반으로 일정 시간 이후 특정 시간 구간에 이상이 발생할 지를 판단결함 탐지 및 예측을 효과적으로 수행하기 위해 인공지능 모델을 활용했다. 또한 실제 업무에서의 활용도를 높이기 위해 결함 탐지 모델을 경량화하고 결함 예측 모델에 대한 시각화 작업을 추가하여 수행했다.1. 대조학습을 활용한 언어모델 기반 결함 탐지 모델 개발로그 메시지는 슈퍼 컴퓨터의 상태를 자연어 문장으로 표현한 데이터지만, 슈퍼 컴퓨터에서 이상이 나타나면 그에 대한 수준은 나타나지 않는다. 따라서 현재 발생한 로그 메시지를 바탕으로 슈퍼 컴퓨터 내푸에 어느 정도 수준의 이상이 발생한 지를 판단하는 것이 결함 탐지이다. 본 프로젝트에서는 텍스트 데이터인 로그 메시지 내의 문맥적 정보까지 반영하기 위해 어텐션 기반의 언어모델인 RoBERTa를 활용했다. RoBERTa는 일상 언어로 사전 학습했기 때문에, 본 프로젝트의 분야에 맞도록 컴퓨터 및 로그 메시지 분야를 순차적으로 추가 사전 학습했다. 사전학습 방법으로는 대조학습 기반의 SimCSE를 활용했다. 사전 학습을 마친 후, 최종적으로 로그 내역에 대해 결함을 탐지하도록 지도학습을 수행 및 경량화를 통해 목표 성능을 달성함과 동시에 모델 크기를 성공적으로 줄였다.2. 계층구조를 활용한 결함 예측 모델 생성 및 예측인자 시각화슈퍼 컴퓨터에서 발생하는 오류에 대한 대처는 사후 조치를 취하는 것이 유일하나, 이는 가동율을 떨어트리게 된다. 결함 예측은 미래에 일어날 이상을 예측해, 사전 조치를 취할 시간을 확보하는 것이 목표이다. 본 프로젝트에서는 과거의 로그 메시지를 통해 일정 시간 이후 특정 시간 구간에 결함이 발생할 지 예측하는 기술을 개발을 수행했다. 예측 모델은 어텐션 기반의 네트워크로 순환 신경망을 계층적 구조로 구성했다. 계층적 구조를 통해 낮은 레벨에서는 단어 별 표현을 모아 문장 표현을 구성했고, 높은 레벨에서는 만들어진 문장 표현을 모아 일련의 로그 내역에 대한 표현을 만들었다. 어텐션 메커니즘은 결함 예측에 주요한 데이터일수록 가중치를 높게 받으므로 중요한 로그 내역을 쉽게 파악할 수 있다. 즉, 어떤 로그의 발생이 향후 결함 발생에 주요한 역할을 했는지 파악할 수 있으며, 이를 시각화해 실제 업무에서 결과 해석하는 것이 용이하도록 하였다(데이터는 비공개 사항이므로 그림은 일반적인 예시로 대체함). 본 프로젝트에서 순환신경망은 GRU로 사용했으며, 목표한 성능 달성 및 시각화 툴을 제작하였다.

#NLP #BERT #Self-Supervised Learning
2022.05.16 ~ 2023.05.19