고려대학교 DMQA 연구실

2013 추계 한국BI데이터마이닝학회 - 이슬기

2013년 12월 9일 오후 2:06
조회수: 1167

Reviewed by

이슬기

1. 발표준비과정

PPT제작에 많은 공을 들였다. 연구 내용이 순차적인 이해가 필요한 부분이라, 최대한 프로세스가 눈에 보이도록 만들었다. PPT제출 후에도 발표연습을 하면서, 연구내용의 흐름을 유지하는 선에서 자연스럽지 않은 부분은 제거하고 필요한 부분은 추가하기도 했다.

2. 발표 시 아쉬웠던 점과 개선방향

예상했던 것 보다 청중이 많아서였는지, 발표 연습을 할 때 보다 말하는 속도가 빨랐다. 더 자연스럽기 위해서는 공간을 마련하여 실전같이 육성으로 발표 연습을 여러 번 진행하고, 더 침착하고 천천히 할 수 있도록 해야겠다. 또 하나는 청중을 바라보며 발표하려 노력하다가 슬라이드 넘어가기도 전에 다음 장을 설명하였다. 조금 더 여유를 가지고 슬라이드를 확인 후 청중과 대화할 수 있도록 유념해야겠다.

3. 발표 후 나온 질문 목록과 답변 평가

질문1) 제품마다 판매량을 구획하여 파생변수를 생성할 때, 구획하는 크기(window size)를 데이터 마다 다르게 하는 것을 고려하였는지요? 또한 window size 고정하지 않는 것이 패턴을 더 잘 반영하는 것 아닌지?

대답) 유사한 패턴을 군집화하기 위해 window 내에서 파생변수를 만드는데, 군집화를 위해서는 동일한 변수가 필요합니다. 그런 부분 때문에 관측치 별로 최적의 구획 잡는 것은 적용하지 않았습니다. 그리고 현재는 window size를 하나로 고정하여 파생변수를 생성하였는데, 데이터에 따라 window size를 변경하는 것은 향후 연구하도록 하겠습니다.

의견) 두 번째 질문에 대해서 적절한 답을 하지 못했다. 사실 초기 연구에서는 window size가 일정하지 않았다. 그러나 연구 중에 window size를 고정하기로 결정을 한 후부터 생각하지 않았던 부분이라 적절한 대응이 어려웠다.

사실 제안하는 알고리즘에서 가장 중요한 부분이 판매패턴을 군집화하는 단계이다. 그런데 이 군집화는 군집화 전 단계에서 생성된 파생변수를 통해 시행되므로 파생변수가 데이터의 특성을 가장 잘 나타내도록 만드는 것이 더욱 중요하다. 이런 의미에서 window size를 결정하는 것은 매우 중요하다. 이를 보안하기 위해서는 데이터 특성에 맞는 최적의 window size를 구하는 것이 필요하다. 최적의 window size를 구하기 위해서는 각 데이터들이 대체적으로 어떤 시점들에서 판매량의 패턴이 변하는지를 알 필요가 있다. 이를 알기 위해 각각의 데이터들을 시계열데이터로 봤을 때, 열을 시간으로 두고 행을 제품으로 두어 시간을 군집화 해 볼 수 있을 것 같다. 만약 각 데이터의 시간의 군집을 통해 데이터의 판매패턴이 변하는 시점이 각각의 데이터에 대해서 나온다면, 모든 데이터의 시간 군집화 결과를 살폈을 때, 주로 구분되는 시점을 찾는다. 이때 시간을 군집화 하는 이유는 window size를 정하기 위함이므로 시간 흐름에 따라 군집이 형성되어야 하는데 이를 위해 시간의 순서를 나타낼 수 있는 변수로 1부터 n까지 자연수로 차례대로 추가할 수 있을 것 같다.

질문2) 의사결정 나무 예측모델 결과를 보면, 첫 번째 노드가 4주의 판매량을 기준으로 나눠졌는데,독립변수로 4주까지의 누적판매량은 안 사용하였는가?

대답) 네. 주 별 판매량만 변수로 사용하였습니다.

의견) 독립변수로 누적 판매량을 사용할 수는 있으나, 4주까지의 누적판매량만 넣는 것은 매우 인위적인 것이라 생각된다. 만약, 누적판매량을 추가로 넣는다고 할 때, 1~2주, 1~3주, 1~4주 등 각 주마다 첫째 주부터의 누적판매량을 넣게 되면 변수의 수가 늘어나게 된다. 또한 누적판매량은 각 주의 판매량의 선형조합으로 나타날 수 있는데, 예를 들어 (1~3주누적판매량)=(1주판매량)+(2주판매량)+(3주판매량) 이므로 의미상 중복될 우려가 있다. 따라서 각 주의 판매량만을 예측모델의 독립변수로 사용하는 것이 정보의 복잡성과 중복을 막으면서 충분히 의미 있다고 생각된다.

Conference