이번 추계 산업공학회는 겨울비가 오는 가운데 연대에서 열렸다. 오전부터 진행된 학회에서 모든 세션에 걸쳐 데이터마이닝 세션을 다양한 발표를 들었고, 이중에서 몇가지 지금 프로젝트 연구를 함에 있어서 내가 고민하고 있는 것과 비슷한 고민을 통해 연구를 진행 했던 발표가 있어서 이를 주로 하여 학회 후기를 적어보려 한다.


 


 


1. 딥러닝


확실히 딥러닝이 하나의 트랜드가 된것 같다고 생각된다. 세션에 발표했던 이미지를 활용한 패션 수요예측 연구, 두번째 세션에서의 저널 추천시스템등 데이터마이닝 전공 유무를 떠나 모두 딥러닝을 활용하여 연구를 진행하였다. 예전에는 다양한 방법을 결합 변형하여 방법론을 제안하고 실험을 통해 증명했다면  방법론 측에서는 오히려 간단해진 같다. 창의적인 방법론 보다는 데이터를 딥러닝 모델에 넣고 결과를 내는 단순한 접근방식이 주를 이뤘다. (물론 복잡한 방법이 무조건 좋은것이다 라는 생각은 아니지만..)

아마도 딥러닝 자체를 코딩으로써 변형하여 사용하는 것은 힘든 측면이 있어서 그럴 수도 있다고 생각은 되지만, 과거에 다양한 창의적인 방법론들은 들으면서이렇게 생각할 수도 있구나!” 라는 것은 느끼기 힘들었다. 딥러닝이 상대적으로 성능 측면에서는 매우 좋은 알고리즘인 것은 맞으나 연구 하는 입장에서는 오히려 획일적으로 딥러닝만 고집하지 않을까 라는 생각이 들었다.


딥러닝내에서도 세부적으로 들어가면 다양한 연구들이 진행되고 있는데 중에 하나로 딥러닝 해석에 관련된 문제이다. 알려져 있다시피 딥러닝 모델은 Black box형태로 해석이 불가능하다고 알려져 있는데 최근 이러한 딥러닝을 해석하려는 다양한 연구들이 시도되고 있다. 혹시나 하는 생각에 발표에서도 이러한 부분을 들을 있지 않을까? 하였으나 아마도 이러한 연구를 학회에서 보기에는 시간이 흘러야 할꺼 같다.


 


2. 이산화 기법


이산화기법, , 실수를 특정 조건에 따라 discrete하게 나타내는 것을 의미한다. 일단 이산화기법과 관련한 연구는 주된 관심분야는 아니었으나, 충분히 흥미 있는 연구라고 생각된다. 일반적으로 변수가 실수인 경우실수인 상태로 활용하거나 혹은 이를 분석자 임의로 discrete하게 분할하여 분석에 활용한다. 데이터에 기반하여 이를 systemically하게 분할 수만 있다면, 예를 들어, 다수의 의사결정나무를 구축하고 중요한 규칙을 뽑는다고 할때, 만일 모든 변수가 실수라면 다수의 모델에서 나온 규칙을 결합하는데 있어 매우 어렵게 된다. 그러나 이처럼  변수를 discrete하게 만들어서 활용하게 된다면 다수의 모델에서 나온 규칙도 어려움없이 합칠 있고 결과적으로 해석함에 있어 용이할 것이라 생각된다

발표에서는 변수의 확률분포를 추정하여 사용자가 정한 비율만큼 구간을 정하고 이에 맞춰 discrete 하였는데, 발표에 나온 실험결과 작은 변동에도 이를 찾아내는 것을 확인 있었다. 변수간의 상관관계를 어떻게 고려할 것인가? 라는 궁금증이 있지만 이러한 부분은 개인적으로 다른 reference 찾아서 확인하면서 하나씩 해결해봐야 같다.


 


매일 연구실에서 일정한 루틴만 소화하다가 오랜만에 다른 발표를 들으면서 다양한 생각을 해볼 있었던 시간이 었다고 생각한다.