고려대학교 DMQA 연구실

2017 한국BI데이터마이닝 추계학술대회 - 도형록

2017년 11월 27일 오전 11:48
조회수: 1970

Reviewed by

도형록

- 발표 후기

지도학습 문제에서 설명변수들 간 관계 또는 구조가 사전지식을 통해 주어졌을 때, 이를 모델에 반영하기 위한 다양한 알고리즘이 연구되어 왔다. 이러한 알고리즘들은 설명변수 간 관계가 정확하게 주어지고 이를 모델에 적절하게 반영할 경우 예측성능 향상 및 정확한 변수 선택을 기대할 수 있으며, 특히 관측치의 수가 변수의 수에 비해 부족한 상황에서 정확한 모델을 학습하는데에도 도움이 된다. 또한 설명변수 간 관계를 기반으로 변수 선택을 시행하는 경우 중요 변수에 대한 해석이 용이하기 때문에 bioinformatics와 같은 분야에서 유용하게 활용될 수 있다. 설명변수 간 구조를 반영할 경우, 타겟을 예측하는데 중요한 개별 변수들이 아닌 사전에 주어진 구조의 중요한 substructure를 선택할 수 있기 때문이다. 설명변수들 간 관계는 변수의 그룹, 변수/그룹 간 계층, 변수 간 그래프 등 다양한 형태로 주어질 수 있으며, 각각의 구조를 반영하기 위한 다양한 연구들이 제안되었다. 이번에 발표한 연구에서는 변수 간 관계가 그래프를 통해 주어진 문제 상황을 해결하고자 하였다.

변수 간 그래프가 주어진 경우, 이를 반영하기 위한 아이디어는 크게 두 가지가 있는데, 한 가지는 그래프 상에서 인접한 두 변수가 같은 회귀계수를 갖는다고 가정하는 것이고(즉, 타겟 값을 예측하는 데 같은 정도의 중요도를 갖는다고 가정), 다른 한 가지는 그래프 상에서 인접한 두 변수의 회귀계수가 동시에 0이거나, 0이 아닌 값을 갖는다고 가정하는 것이다(즉, 회귀계수의 값과는 관계없이, 타겟 값을 예측하는 데 중요하다는 사실만 동일하다고 가정). 대부분의 기존 연구는 첫 번째 아이디어를 반영하기 위해 제안되었으며, 두 번째 아이디어에 대한 연구는 거의 진행되지 않았다. 발표한 알고리즘은 두 번째 아이디어를 반영하여 변수선택을 수행하기 위해 제안하였으며, 해당 아이디어를 잘 반영하기 위해 discrete optimization formulation과 이를 풀어내기 위한 optimization 알고리즘을 사용하였다. 시뮬레이션 데이터를 사용하서 실험을 진행한 결과, 제안하는 방법론이 기존 모델들에 비해서 정확한 변수 선택에서 좋은 성능을 나타내었으며, 보다 약한 모델 가정으로 인하여 다양한 시나리오에서 robust한 결과를 도출하는 것을 확인하였다.

- 질문 1: 제안한 문제 상황이 어떤 분야에서 응용될 수 있는지 실제 사례에는 어떤 것이 있는가

- 답변 1: Bioinformatics에서 gene expression과 biological pathway를 이용하는 것이 대표적인 실제 사례이다. 타겟 값을 예측하는 데 중요한 개별 유전자를 선택할 수도 있지만, 중요한 biological pathway의 substructure를 선택하는 것보다 더 많은 정보를 제공할 수 있다.

- 질문 2: 실험한 시뮬레이션 세팅 중 시나리오 3번이 실제 문제에서 어떤 상황을 반영하는가

- 답변 2: 설명변수 그래프 상에서 특정 substructure 내에서도 중요 변수와 중요하지 않은 변수가 혼재되어 있을 가능성이 높다. 시나리오 3번은 하나의 subnetwork 안에 중요 변수와 중요하지 않은 변수가 혼재된 상황을 간략하게 시뮬레이션 한 것으로, 현실적으로 나타날 수 있는 문제상황에서 제안 모델이 어떤 성능을 나타내는 지 확인하기 위해 실험하였다.

- 질문 3: 실험한 시뮬레이션 세팅이 제안하는 기법보다는 기존 기법들에 유리한 상황인 것으로 보인다. 특히, 시나리오 3번에서도 실제로 하나의 subnetwork 내에서 중요 변수와 중요하지 않은 변수가 혼재되어 있긴 하지만, 실제로 회귀계수는 두 가지 밖에 없다. 이런 상황에도 제안하는 모델이 더 좋은 성능을 나타낸 이유가 무엇이라고 생각하는가

- 답변 3: 실제로 회귀계수가 두 가지 밖에 없다고 하더라도, 그래프 상의 연결 관계를 고려하면 기존 알고리즘들이 가정하는 상황과 많이 다른 상황이기 때문이다.

- 질문 4: 실험한 시뮬레이션에서는 하나의 subnetwork 안에 대부분의 실제 회귀계수가 같은 경우밖에 없는데, 하나의 subnetwork 내에서 회귀계수가 다양하게, 또는 모두 다른 경우에 대해 실험을 진행한 적이 있는가

- 답변 4: 설명하신 것과 같은 시나리오는 제안하는 알고리즘이 기존 알고리즘에 비해 더 잘 작동할 것으로 예상하나, 체계적으로 실험을 진행하고 결과를 도출하지는 않았다. 추후 실험을 진행할 예정이다.

이번 발표는 SAS 논문경진대회 세션에서 진행했는데, 일반 세션에서 발표할 때와는 다르게 더 많은 관심과 질문/코멘트를 받을 수 있었다. 의미있는 질문과 코멘트를 기반으로 연구를 한층 더 발전시킬 수 있는 계기가 된 것 같다.

- 청취 후기

- Distance-based self-attention network for natural language inference

텍스트마이닝 세션의 발표여서 자세한 내용은 이해하지 못했고, 텍스트마이닝 분야에서는 이런 연구도 하고있다는 정도로만 이해했지만, recurrent 구조를 갖지 않는 neural network에서 attention이라는 개념을 활용하는 모델들이 제안되었다는 사실을 들을 수 있는 발표였다. 해당 논문들을 리뷰하고 시그널 데이터 분석에 적용할 수 있는지 확인해볼 예정이다.

- 내재적 결측값 처리를 위한 희소 베이지안 회귀분석

Regression 문제에서 결측치가 존재하는 상황(특히 반도체 공정 데이터 등)에서 결측치를 제거하지 않고 최대한 활용하기 위한 방법론을 제안한 연구이다. 제안하는 기법은 kernel method 중 하나인 relevance vector machine (RVM) regression에 기반하고 있으며, 전처리 단계에서 imputation을 시행하는 것이 아닌, 모델 학습에 결측치를 처리하기 위한 기능을 추가하였다. 간단한 아이디어인 것 처럼 설명하였지만, 간단한 아이디어를 통해 결측치를 처리하고 기존 다른 기법들에 비해 좋은 성능을 낸다는 것이 의미있다고 생각한다. 관측치가 적고 변수가 많은 경우에 결측치를 처리하기 위한 효과적인 방법론 연구인 것 같다.

- 다변량 시계열의 변수 중요도 추출 및 분류 성능 향상을 위한 컨볼루션 필터

요즘 많은 관심을 갖고 연구하는 다변량 시계열 데이터 분석과 관련된 연구로, CNN을 학습하는 데 있어서 중요한 채널을 선택할 수 있도록 첫 번째 필터를 설계하고 제안하였다. 적은 수의 채널을 이용하여 최대한의 성능을 내기위한 상황에서 활용하기에 좋을 것으로 보인다. 내가 이해한 방식대로 작동하는 것인지는 확인이 필요하겠지만, 이와 유사한 문제 상황을 해결하기 위한 초석으로 활용할 수 있을 것 같다.

Conference