고려대학교 DMQA 연구실

Projects

Home
Research
Projects

Number of entries: 2 (필터 적용됨)

NLP & Text Mining

텍스트 데이터 기반 연관 문서 추천 알고리즘 개발(현대모비스)

본 프로젝트의 목표는 PLM(Product Lifecycle Management) 시스템에서 분산된 정보를 효율적으로 통합하기 위해 문서들 간의 연관성을 분석하는 데이터 기반 연관성 알고리즘을 구축하는 것이다. 이를 위해 먼저 사용자 쿼리와 시스템 내 문서 데이터의 유사성을 계산하고, 이를 바탕으로 연관성 그래프를 생성하는 텍스트 데이터 기반 알고리즘을 개발하였다.한국어 데이터로 사전학습된 BERT 기반의 KLUE-RoBERTa 모델을 차량 도메인의 특성을 고려하여 재학습시켜 사용자 쿼리와 시스템 내 문서 데이터의 표현 벡터를 추출하였다. 그 후에는 코사인 유사도와 TF-IDF를 이용하여 텍스트 데이터의 표현 벡터 간 유사성을 계산하고, 이를 가중합하여 쿼리와 문서 간의 유사도를 정의하였다. 이를 통해 쿼리와 유사한 문서를 찾아 추천함으로써 연관성이 높은 문서를 탐색할 수 있게되었다. 또한 각 소과제의 특성에 따라 알고리즘을 적용한 결과를 분석하여 유관 문서가 추출되었음을 정성적으로 검증하였다.1. 연관 아이디어 추천쿼리와 유사한 아이디어 문서를 다양하게 탐색할 수 있도록 연관문서 출력 단계를 확장하였다. 먼저, 쿼리와 유사성이 높은 문서를 1단계 연관 문서로 분류하고, 이러한 문서들과 유사성을 보이는 문서들을 2단계 연관 문서로 정의하여 관계성을 보다 체계적으로 구성하였다.2. 연관 문제상황 및 해결 방법 자동 조합 및 추천ITSM(IT Service Management) 문서 내에서 쿼리와 관련된 요청 내용에 대한 관련 해결 방안 및 담당자를 제안하도록 구성하였다. 유관 문서의 출력 정확도를 높이기 위해 카테고리를 매핑하여 특정 카테고리 내에서 쿼리와 가장 유사한 연관 문서를 출력한다. 또한, 쿼리와 함께 카테고리가 제안되지 않은 경우에는 카테고리를 예측하는 알고리즘을 추가하였다.3. 연관 문제상황 기반 유관 문서 추천협업 요청서 문서 내에서 쿼리와 관련된 제기 내용에 대한 해결 방안을 제안하기 위해 구성하였다. 추가적으로 협업 시스템 데이터의 특성을 반영하기 위해 전문 용어 스페셜 토큰들을 구축하고 활용하여 쿼리와 관련된 문서를 추천한다.

#NLP #BERT #Recommendation

2023.03.13 ~ 2023.11.27

NLP & Text Mining

로그 데이터 기반 조기 결함 탐지 모델 개발(삼성종합기술원)

본 프로젝트는 슈퍼 컴퓨터 운용 중에 발생할 수 있는 결함을 로그 메시지를 활용하여 탐지 및 예측하는 기술 개발을 목표로 하였다. 각각의 목표는 다음과 같다. - 결함 탐지: 해당 로그 메시지가 어느 수준의 이상인지를 판단 - 결함 예측: 과거부터 현재까지의 로그 메시지를 기반으로 일정 시간 이후 특정 시간 구간에 이상이 발생할 지를 판단결함 탐지 및 예측을 효과적으로 수행하기 위해 인공지능 모델을 활용했다. 또한 실제 업무에서의 활용도를 높이기 위해 결함 탐지 모델을 경량화하고 결함 예측 모델에 대한 시각화 작업을 추가하여 수행했다.1. 대조학습을 활용한 언어모델 기반 결함 탐지 모델 개발로그 메시지는 슈퍼 컴퓨터의 상태를 자연어 문장으로 표현한 데이터지만, 슈퍼 컴퓨터에서 이상이 나타나면 그에 대한 수준은 나타나지 않는다. 따라서 현재 발생한 로그 메시지를 바탕으로 슈퍼 컴퓨터 내푸에 어느 정도 수준의 이상이 발생한 지를 판단하는 것이 결함 탐지이다. 본 프로젝트에서는 텍스트 데이터인 로그 메시지 내의 문맥적 정보까지 반영하기 위해 어텐션 기반의 언어모델인 RoBERTa를 활용했다. RoBERTa는 일상 언어로 사전 학습했기 때문에, 본 프로젝트의 분야에 맞도록 컴퓨터 및 로그 메시지 분야를 순차적으로 추가 사전 학습했다. 사전학습 방법으로는 대조학습 기반의 SimCSE를 활용했다. 사전 학습을 마친 후, 최종적으로 로그 내역에 대해 결함을 탐지하도록 지도학습을 수행 및 경량화를 통해 목표 성능을 달성함과 동시에 모델 크기를 성공적으로 줄였다.2. 계층구조를 활용한 결함 예측 모델 생성 및 예측인자 시각화슈퍼 컴퓨터에서 발생하는 오류에 대한 대처는 사후 조치를 취하는 것이 유일하나, 이는 가동율을 떨어트리게 된다. 결함 예측은 미래에 일어날 이상을 예측해, 사전 조치를 취할 시간을 확보하는 것이 목표이다. 본 프로젝트에서는 과거의 로그 메시지를 통해 일정 시간 이후 특정 시간 구간에 결함이 발생할 지 예측하는 기술을 개발을 수행했다. 예측 모델은 어텐션 기반의 네트워크로 순환 신경망을 계층적 구조로 구성했다. 계층적 구조를 통해 낮은 레벨에서는 단어 별 표현을 모아 문장 표현을 구성했고, 높은 레벨에서는 만들어진 문장 표현을 모아 일련의 로그 내역에 대한 표현을 만들었다. 어텐션 메커니즘은 결함 예측에 주요한 데이터일수록 가중치를 높게 받으므로 중요한 로그 내역을 쉽게 파악할 수 있다. 즉, 어떤 로그의 발생이 향후 결함 발생에 주요한 역할을 했는지 파악할 수 있으며, 이를 시각화해 실제 업무에서 결과 해석하는 것이 용이하도록 하였다(데이터는 비공개 사항이므로 그림은 일반적인 예시로 대체함). 본 프로젝트에서 순환신경망은 GRU로 사용했으며, 목표한 성능 달성 및 시각화 툴을 제작하였다.

#NLP #BERT #Self-Supervised Learning

2022.05.16 ~ 2023.05.19