이번 대한산업 공학학회는 연구실의 일원이 된 이후 처음으로 참석하게 된 학회이다. 학교에서 수업을 듣거나 혼자 책과 논문을 읽으며 공부를 하는 것도 좋지만, 때론 이렇게 같은 분야에 대한 연구를 진행하는 사람들끼리 모이는 자리에 와서 연구의 트렌드를 읽는 것도 중요하다고 생각한다. 여러 개의 세션 중 대부분의 시간을 데이터마이닝 세션에서 보냈는데, 그 중에서 몇 개 인상 깊었던 발표들이 있었다.

 

 





● 발표 청취 후기

 




1. A New Feature Ranking Method using a Markov Blanket for Gene Selection (발표자: 이정혜, POSTECH 산업경영공학과)

 

 
Markov Blanket을 기반으로 한 변수 선택 방법론을 제안한 발표였다. 그래프 이론에서 Markov Blanket은 한 노드를 설명할 수 있는 최소한의 노드 집합을 의미한다. 발표자는 Markov Blanket의 이런 특성에 착안하여 예측 변수를 설명하는 최소한의 변수 집합을 찾는 것을 목표로 하였다. 실험은 변수의 개수(p)가 개체의 수(N)보다 훨씬 많은 유전자 microarray 데이터에 대해 진행하였다. 학교 수업에서 비슷한 형태의 유전자 데이터를 이용하는 프로젝트를 진행한 경험이 있는데, 이 분야에서는 해당 질병을 특정 지을 수 있는 적은 수의 유의미한 변수들을 찾는 것이 매우 중요하다는 생각이 든다. 발표자가 제안한 방법론이 기존의 변수 선택 기법보다 적은 수의 변수로도 높은 예측력을 보여준다는 점은 매우 고무적이다. 하지만 질병에 따라 비슷한 특성을 갖는 여러 개의 변수를 동시에 선택해야 할 때 있기 때문에 이런 점도 충분히 고려할 수 있다면 좋겠다. 하지만 데이터 도메인을 떠나 범용적인 용도로 볼 때는 좋은 성능을 보여주는 방법론 같다. 발표자의 전달력과 장표의 흐름 구성이 모두 좋아 이 날 들은 발표 중에 가장 이해하긴 쉬웠지만, 장표에 잦은 수도코드(pseudocode)의 사용이 아쉬웠다.

 

 

 



2. 야구 기사와 선수 기록을 활용한 딥러닝 기반 극성 판별 모델의 개발 (발표자: 김형석, 고려대학교 산업경영공학과)

 

 
기존의 감성 분석 방법론과 딥 러닝 기반의 예측 방법론의 한계를 부분적으로 극복하기 위한 알고리즘을 제안했다. 정량적 기록을 활용하여 명시적 긍부정의 범주가 존재하지 않는 텍스트로부터 자동으로 극성 범주를 할당하고, 단어 혹은 문서의 빈도 행렬의 극성을 출력 할 수 있는 딥 러닝 모델인데, 실제 국내 야구 분야의 기사 데이터를 사용하여 실험을 진행하였다고 한다. 문장의 감성 분석을 단어 단위로 하게 될 경우, 문맥적 요소를 충분히 고려하지 못하기 때문에 문장 단위로 긍정/부정의 수준을 판별하는 것을 목표로 하였다고 한다. 영어가 아닌 한글 기사를 실험 데이터로 사용하였다는 점이 외국에서 발표되는 방법론들 사이에서 부각되는 요소인 것 같다. 추후 연구로 문장의 문맥적 요소를 고려할 수 있는 딥 러닝 모델을 적용한다고 하는데, 텍스트 데이터 분석에 많이 쓰이는 Recurrent Neural Network를 적용해보면 좋은 결과가 있을 것으로 예상한다. 또한, 야구뿐만 아니라 다른 스포츠 분야의 기사도 적용하여 해당 도메인에 국한된 평가요소체계가 필요 없는 모델이 구축되면 좋을 것 같다.