고려대학교 DMQA 연구실

2018 대한산업공학회 춘계학술대회 - 성유연

2018년 4월 9일 오후 6:39
조회수: 1054

Reviewed by

성유연

2018 춘계공동학술대회는 한국경영과학회, 대한산업공학회, 한국시뮬레이션 학회가 주최하여 ‘비즈니스 애널리틱스와 스마트 경영’을 주제로 개최되었다. 저번 추계대한산업공학회에는 신입생으로서 학회에 대한 경험을 쌓는 차원에서 의미가 있었으나, 이번 학회는 처음으로 학회 발표를 하는 입장으로서 더욱 다채로운 시각으로 새로운 연구를 접한다는 점에서 의의가
있었다.

[발표 후기]

이번 학회에서 ‘설비 고장예지진단을 위한 머신러닝 기반 건강도 지표’라는 주제를 발표했다. 청중의 연구 목표에 대한 이해를 돕기 위해
변전소와 차단기의 역할에 대한 개괄적인 설명으로 발표를 시작했다. 변전소 내에 있는 핵심적인 변전 설비
중 하나인 차단기의 상태(Health Index)를 예측하는 것은 매우 중요하지만, 기존 예측 프로세스는 전문가의 개입으로 인해 각 설비 평가 항목들의 중요도를 정확히 반영하지 못하여, 설비에 주요 결함이 있음에도 불구하고 실제 설비 상태와 상이한 HI가
산출된다. 본 연구에서는 HI에 대한 평가 항목의 중요도를
반영하는 데이터 기반 HI 산출 모형을 제안하였다. 이 과정은
평가 항목에 부여된 점수들의 조합을 등급으로 분류 한 다음, 최종 HI
점수를 예측하는 총 두 단계로 이루어진다. 평가 점수들이 등급 별로, HI 점수들도 등급 별로 분류되는 데이터 특성이 존재하기 때문에 방법론을 이와 같이 제안했다. 방법론은 실제 데이터로 검증 예정에 있고 차단기 외의 다른 설비에 대한 확장성을 검토할 예정이다.

-질문1: 제안 방법론을
통해서 중요도가 포함된 예측 HI점수가 산출된다면 중요도에 대한 검증은 어떻게 이루어졌는가

-답변1: 제안 방법론은 data-driven 알고리즘이기 때문에 input data의 평가
점수와 HI 점수가 각 평가 항목에 대한 알맞은 중요도가 내재되어 있다면 산출된 예측 HI도 평가항목에 대한 중요도를 반영할 것이다. 또한, 본 연구의 목적은 명시적인 중요도 산출이 아닌 중요도가 포함된 HI 예측
점수 산출임을 참고해주시기 바란다.

-질문2: PCA로는 평가
점수들에 대한 등급 분류가 잘 확인되지 않는데 등급 별 모델을 왜 사용하셨는지

-답변2: 맞는 말씀이다. 평가 점수의 등급별 분류에 대한 시각화는 명확하지 않으나, HI 점수의
분포를 확인하시면 등급 별로 패턴이 상이하다는 것은 확실하기 때문에 등급별 예측모델을 제안했다. 평가
점수의 PCA 플랏을 사용한 이유는 회귀분석을 위해 데이터의 분포가 촘촘하다는 것을 강조하고 싶었기
때문이다. 또한, 평가 점수도 완전히 등급 별로 완전히 섞여
있지 않다는 점을 참고해 주셨으면 한다.

-질문3: 차단기의 실제 HI 점수는 제공 받은 것인지

-답변3: 아까 차단기의
HI 진단 방법에서 설명 드렸다시피 이전에 전문가가 HI 점수를
진단한 값들이 있다. 경험적으로 얻어진 이 값들을 Y 값으로
사용한 것이 맞다.

-질문4: 실제로 정상데이터, 보통점검 데이터, 정밀 점검 데이터 중 정상데이터의 비율이 압도적으로
컸을 텐데 어떻게 예측력이 우수한지

-답변4: 좋은 지적이다. 말씀하신대로
처음에는 클래스 불균형인 데이터를 사용했다. 하지만 건강도 지표를 구축하는 데에 있어서는 최대한 다양한
케이스를 반영해야 한다고 생각했다. 따라서 설비가 정상 상태일 때 평가 점수들의 여러 조합, 보통 점검일 때 평가 점수들의 여러 조합, 정밀 점검일 때 평가
점수들의 여러 조합의 데이터를 등급 별로 같은 비율로 생성하여 전문가에게 HI 점수 진단을 의뢰했다. 연구 목적이 ‘설비의 건강도 지표’임을
상기시켜드리는 바이다.

발표 및 질의응답을 진행하며 현업 종사자 분들과 다른 연구원분들의 다양한 의견을 들을 수 있었다. 산업에서 중요시하는 것이 알고리즘의 실효성이라는 점과 학계에서 집중하는 것은 성능 뿐만 아니라 알고리즘에 대한
발상 및 논리 흐름이라는 점을 깨달을 수 있었다.

[청취 후기]

암호 화폐 수익률을 이용한 암호 화폐 시장
구조 분석

본 발표는 Financial
modeling and data analytics의 특별세션에서 진행되었다. 최근 암호
화폐에 대한 이슈가 사회에서 급증하고 있는 만큼 흥미롭게 들었다. 암호 화폐는 탈중앙화, 거래 잔고관리의 자유성, 거래의 유효성, 새로운 화폐 생성을 목적으로 한다. 본 연구는 블록 체인에서 새로운
블록을 전의 해쉬함수를 통합하여 생성할 때마다 암호 화폐의 가치평가가 올바르게 되지 않는다는 문제 상황을 안고 제안되었다. 따라서, 지금까지 사용되었던 off-chain
데이터를 뒤로 하고, 실제 network에 참여하고
있는 노드를 활용하여 가격을 책정한다. 사용된 알고리즘은 Linear
Regression, SVM, Beysian Neural Network인데 아무래도 트렌드 데이터이기 때문에 성능적인 면에서 우수한
결과를 보이지는 않았다고 생각한다. 하지만, 블록 체인의
기술적인 면모를 알고리즘에 녹여 방법론을 제안했다는 점에서는 의미 있는 연구라고 생각한다.

의료 성과 분석을 이용한 환자 특성별 CP(Critical Pathway) 변이 도출 방법론

본
발표는 환자의 특성 별로 CP(특정 진단에 대한 표준적인 진료 가이드라인)에 대한 변이를 도출하는 방법론을 제안했다. 표준 CP는 입원 기간 동안 환자가 받아야 할 진료 오더이다. 환자 간의
진료 내용에 차이가 많으면 변이가 큰 것이고, 환자 간의 진료 내용에 차이가 적으면 변이가 적은 것인데, 이 변이를 정량적으로 나타내는 것은 의료 관점에서는 매우 중요하다. 본
연구는 CP의 trace alignment를 통해 공통 오더, 삭제 오더, 추가 오더에 대한 정확성을 확인하였고 CP의 효과를 분석하기 위해 ‘정합율’이라는
measure를 개발하였다. 이는 CP의 활용도를 검증하여 환자의 진료에 얼마나 도움이 되었는지를 평가하는
measure이다. 이 후에, CP변이와 변이
유발요소의 관계를 분석하기 위해 프로세스 마이닝을 적용한다. Data-driven 알고리즘이라는 점에서
오직 정확한 기간에 정확한 기준을 만족해야만 CP의 변이를 파악할 수 있다는 점에서 한계가 있는 것으로
보인다. 또한, 전처리 때 변이를 인지하지 못했을 경우에 CP의 변이 발생 원인을 찾아내지 못할 것이라는 점에서도 추후 연구가 필요하다.
다소 생소한 분야였지만 여러 분야에서 머신러닝 알고리즘이 사용되어 효율적인 매커니즘이 필요한 것을 알 수 있었다.

텍스트 분류 문제에서 특징 간 상호 작용을
고려한 특징 선택 기법

본
연구는 두 단어 간의 연관성을 각 단어의 특정 클래스에 속할 확률을 사용하여 구하는 알고리즘을 제안한다. 각
단어 당 ‘클래스 관련성’의 값이 나오게 되는데, 이때 한 클래스가 정해진다면 그 다음 단어를 선택하는 폭이 확률적으로 적어진다는 논리이다. 하지만, 클래스 관련성의 값이 출현 빈도수만 사용하고 클래스 분류가
이진 분류로만 제한된다는 점에서 contribution 측면에서 아쉬웠다. 또한, 각 단어의 유사성을 이용한 워드임베딩 방법론들이 있는데 이
방법론들을 사용하여 단어를 벡터화시켜 분류한 수치랑 비교했으면 조금 더 완성도 있는 발표가 되지 않았을까라는 생각이 들었다.

Conference