고려대학교 DMQA 연구실

2018 BI Conference - 이한규

2018년 4월 13일 오후 4:57
조회수: 1761

Reviewed by

이한규

오랜만에 참여한 BI 데이터마이닝 학회로 코엑스에서 개최되었다.

춘계 BI는 학술세션이 그리 많치 않았으나 그 중에 흥미있는 발표가 있어 해당 내용을 후기로 적고자 한다.

[Korea Stock Market Prediction using Recurrent Neural Networks with Extended Min-Max Normalization]

수학적인측면에서 주식의 기대값은 0이라 한다. 따라서 머신러닝 및 데이터마이닝 기법을 사용하여 예측을 수행하는 것은 단기적으로는 이익이 날 수 도 있으나 장기적으로는 크게 의미가 없는 것이라 주장한 논문들도 많이 있다. 또한, 일반적으로 주식을 예측하기위해 필요한 데이터를 생각해본다면 과거부터의 해당 사의 주식 트렌드 데이터와 타겟으로 하는 회사와 관련한 기사 및 홍보자료 등 상당히 많은 데이터가 필요하지 않을까? 라는 생각을 하게 된다. 그러나 본 발표에서는 단지 RNN을 사용하여 단기간 주식을 예측하는 모델을 선보였다.

무엇보다 흥미로운 점은 그 결과가 주식의 트렌드의 상승 또는 하강을 예측하는 것이 아니라 각 시간에 따라 주식의 변화를 잘 예측하였다는 데있다.

주식이라는 대상이 센서데이터와 달리 최대치 또는 최소치가 특정 구간에서 움직이는 것이 아니라 시장현황에 따라 더 클거나 작을수 있다는 문제점이 있다. 즉, training 데이터를 대상으로 min/max scaling을 수행하여 모델을 구축하여도 추후 미래의 test 데이터에서는 min/max값이 training 데이터의 min/max보다 더 크거나 더 작아 모델이 제대로 동작할 수 없는 문제가 발생한다. 따라서 이를 해결하기 위해 본 연구에서는 extented min-max normalization algorithm을 제안하였다. 이를 활용하여 데이터의 min-max 범위를 항상 일정하게 고정할수 있기문에 구축된 모델의 성능의 향상을 보인것으로 생각된다. 해당 방법은 꼭 주식과 관련한 연구뿐만이 아니라 실제 우리가 분석하고 사용하는 일반적인 시계열데이터에도 적용이 가능한 방법이라 생각한다.

[Bagged Multiple Discriminators in GAN]

주 연구분야인 GAN에 관련한 발표가 있어 매우 반가웠다. GAN에 대해서는 초기에 발표된 이후에 다양한 형태의 GAN이 제안되었는데 그중에 하나인 Boosting 기법을 접목한 AdaGAN과 매우 유사한 연구였다. 본 발표에서는 하나의 Generator로 생성한 샘플을 bootstrap을 통해 k개의 샘플을 만들고 이를 사용하여 k개 만큼의 Discriminator를 만든다. 그 후에 흔히 알려진 boosting 기법과 같이 real/fake sample을 majority voting을 통해 분류하게되고 이과정에서 k만큼의 discriminator를 학습하고 generator 또한 discriminator의 평균 loss를 통해 업데이트를 수행한다.

AdaGAN의 경우 adaboost와 같이 실제 데이터의 가중치를 부여하고 학습과정에서 관측치의 가중치를 조절한다면 본 연구의 경우 다수의 discriminator를 학습시키는 전략을 접목하였다. 본 발표에서는 제안방법의 장점을 설명하기 위해 2d mixture of gaussians 데이터와 mnist데이터를 사용하여 GAN과 비교하였다. 한가지 아쉬운 점이라면 다수의 discriminator를 학습시키는 전략은 complexity 측면에서 기존의 GAN과 큰 차이가 나타날 것이라 생각된다. 따라서 이부분을 상쇄할 만한 제안방법만의 장점을 좀더 보였더라면 하는 아쉬운점이 있었다. 또한, AdaGAN 을 비롯한 다른 GAN 모델과 같이 비교를 했으면 Discriminator를 다수만듬으로써 오는 장점에 대해 좀더 이해가 쉬었을꺼라 생각한다.