- 2017년 4월 30일 오후 3:21
- 조회수: 1937
이한규
■ 학회 후기
마지막으로 춘계학술대회에 참여했던것이 1년이 넘었던것 같다. 지난 추계학술대회에 이어 이번 학술대회에서 대부분 데이터마이닝 및 기계학습쪽에서는 "딥러닝"이 대세였다. 발표된 거의 모든 연구들이 딥러닝 기반의 연구로써 몇가지 인상깊었던 연구를 정리 및 소개할 겸해서 적고자 한다.
1. 워드임베딩을 활용한 휴대폰 리뷰에서의 핵심 대상 기능 추출
* 휴대폰과 관련된 VOC 데이터를 워드임베딩을 활용하여 특징을 추출하는 연구였다. 일반적으로 텍스트 전처리에서 "꼬꼬마", "코모란", "Twitter" 등의 Parser를 사용해서 데이터를 전처리 한다. 이러한 툴이 한국어를 대상으로 개발되어 나왔다고 하더라도 특정한 룰이 없는(오타, 띄어쓰기 등)상황에서는 전처리 결과가 만족스럽지 못한다는 문제가 있었다. 그러나 본 연구에서 사용된 기법인 Cohesion probability는 기존의 방법과 비교하여 상당히 좋은 형태의 전처리 결과를 내는것으로 보였다. 텍스트 마이닝에서 parser의 성능은 결과에 영향을 주기때문에 중요하다 따라서 추후에 한국어 텍스트를 분석할때 Cohesion probability를 통해 전처리를 수행한다면 상대적으로 좋은 결과를 낼 것으로 생각된다.
2. 감성 분석을 위한 딥러닝 기반 문장 표현
* 마찬가지로 문장의 감성을 분류하는 일반적인 문제로서 이 연구의 경우 접근 방식이 독특하여 소개하고자 한다. 감성 분석에 대한 일반적인 프로세스는 전처리 이후에 one-hot vector 또는 워드 임베딩을 통해 벡터화를 시켜 이를 기반으로 분류모델에 적용한다. 본 연구에서 특이한 점은 단어를 vector화 시킨 이후에 최종적으로 하나의 문장을 이미지화 하여 분석하였다. 따라서 각 문장이 하나의 이미지로 변형이 되며 이를 CNN을 통해 분석하여 분류문제에 적용하였다. 따라서 각 이미지화 된 문장은 문장의 감성 (부정 또는 긍정)에 따라 이미지내에서 특정 부분에 색이 더 밝게 나타는등의 특징을 보였다. 일반적인 감성분석과는 다른 방법의 접근으로 상당히 인상 깊었던 연구였다.
■ 발표 후기
이번 학회에서는 정상과 이상으로 불균형 문제를 띄는 sequence classification을 위해 진행중인 연구를 발표하였다.. 일반적으로 불균형 문제를 해결하기위해 가장 단순히 sampling을 수행한다. 그러나 sequence를 대상으로 기존에 제안된 oversampling 기법을 적용하는 것은 매우 어려운 문제이다. 따라서 sequence를 생성하기 위해 image 생성 분야에서 이슈인 generative adversarial net(GAN)을 적용하였다. 본 학회에서 발표한 내용은 sequence classification을 수행하기에 앞서 GAN의 효용성을 검증한 것 까지 발표를 진행하였다. GAN계열인 conditional GAN / conditional DCGAN / conditional InfoGAN을 각각 적용하여 RMSE / DTW / t-sne / pca를 통해 비교하였다. 특히 infoGAN의 경우 1.정보량의 보존이 가능하며, 2. latent code를 통해 간접적으로 데이터의 특징에 대해 해석이 가능하다는 측면에서 타 GAN계열보다 좋은 성능을 보임을 확인하였다.
본 연구와 관련하여 받은 한가지 질문은 최종 목표인 sequence classification을 수행한다고 하였을때 GAN을 통해 얻는 이점에 대한 질문으로써 불균형을 해결하기위해 GAN을 통해 실제 이상 데이터의 sequence를 생성하기 때문에 실제와 유사한 sequence를 생성할 수 있다는 점과, latent code를 통한 간접적인 해석이 가능하기 때문에 이상 데이터의 sequence의 특징을 파악할 수 있다는 이점이 있다는 설명을 하였다.
■ 기타
나름 추억이 있는 여수를 다시 방문하였다. 화창한 날씨 속에서 기분전환의 기회와 지금 하고 있는 연구에 대해 다시 한번 생각해 볼 시간이 된것 같아 좋은 시간이었다고 생각된다.