학회 후기

이번 BI 한국데이터마이닝 학회 추계학술대회는 서울대에서 열렸다. 작년에 다녀왔던 BI 학회에서 많은 배움을 얻었기에 더욱 기대가 큰 학회였고, 좋은 커리큘럼으로 구성된 발표들을 들으며 기대했던 이상으로 자극제가 되었던 것 같다. 매 번 학회를 다녀오며 느끼는 것이지만, 많은 노력이 깃든 연구, 성능이 좋은 연구, 트렌드에 맞는 연구 중 택일하는 것에 집중하기 보다 열정과 함께 주어진 문제 상황을 격파하려는 도전 정신과 끈기를 갖는 것이 결국에 좋은 연구로 이어질 것이라는 생각이 들었다. 

 

청취 후기 

금융 뉴스 토픽 분석을 통한 KOSPI 변동성 급변 예측 

토픽 모델링의 기법 중 하나인 LDA를 사용하여 주가를 예측한다는 흥미로운 연구였다. 여러 금융 토픽 뉴스를 수집하여 문서 별 토픽 벡터를 구한 후에, 이 토픽 벡터를 Lasso Regression에 적용한다. Lasso Regression은 GARCH 모델의 예측 성능을 향상 시키기 위해 잔차 보정을 해주는 역할을 한다. 문서의 토픽 비중을 고려하여 문서의 대표 내용을 확인 한 후에 또 한 번 문서 별 선택된 토픽의 대표성을 추출한다는 논리가 인상적이었다. 개인적으로 LDA를 활용한 연구를 하고 있는 입장에서 LDA의 아웃풋인 토픽 벡터를 활용하여 다른 모델의 예측에 도움을 준다는 것이 신선했다. 

 

속보 문서 분류를 위한 RNN 기반의 임베딩 

Word2Vec 모델의 대표적 방법 중 하나인 skip gram에 RNN 모델을 활용한 연구이다. Skip gram은 특정 단어로 주위 단어를 예측하게 하는 모델을 학습하여 각 단어를 벡터로 표현한다. 이 때, 특정 단어를 character level 단위로 RNN Cell로 축약하여 skip gram을 시행한다는 것이 핵심 아이디어이다. RNN Cell을 활용하므로써 새로운 단어(Out of Vocabulary)가 주입되었을 때 이 단어에 대한 새로운 벡터값이 생성될 수 있다는 점이 연구의 기여하는 바이다. 하지만 RNN State가 아닌 RNN Cell을 학습시키기 때문에 RNN 모델 자체의 학습 여부에 의문이 들었다. 발표자의 의도인 각 단어의 의미론적, 구문론적 임베딩이 가능하게 하기 위해서, RNN 모델의 학습 특성을 활용하여 각 글자의 순차 정보를 다른 단어들과 함께 학습시키면 어떨까라는 생각이 들었다. 

 

워드 임베딩을 활용한 특징 선택 기법

대량의 문서 집합에서 관심 있는 토픽과 관련된 문서들만을 뽑기 위해서는 이진 분류를 시행하면 된다. 본 발표는 워드 임베딩을 활용하여 특징 공간을 확장하므로써 타겟 주제의 분류 성능을 높이는 방법을 제안한다. 라운드 로빈이라는 기법으로 토픽과 문서간의 연관성을 추출하여 특징 집합을 생성하고, 특징을 바탕으로 워드 임베딩을 시행한다. 즉, 워드 임베딩을 통해 특징과 문서들의 유사도를 찾아 특징 집합에 추가하는 것이다. 워드 임베딩이 최근 많은 연구에 활용되고 있는데 그 만큼 단어를 벡터화 시킬 때 어떤 의미를 내포하고 있는지가 향후 적용된 텍스트 관련 task의 결과를 좌우한다는 생각이 들었다.