고려대학교 DMQA 연구실

2014 대한산업공학회 추계 학술대회 - 최우식

2014년 11월 24일 오후 2:15
조회수: 1184

Reviewed by

최우식

발표자 후기

주제 : 대칭 조건부 확률과 TF-IDF 기반 텍스트 분류를 위한 N-gram 특질 선택

텍스트 분류를 하기 위한 특질 선택 방법으로 자주 쓰이는 방법 중 하나인 TF-IDF를, 대칭 조건부 확률이라는 개념을 도입하여 새롭게 제안하였다. 현실 데이터를 이용하여 분석을 한 결과 본 연구에서 제안하는 방법이 기존에 존재하는 방법보다 텍스트를 정확하게 분류하는 것을 확인하였으며, 따라서 앞으로도 본 연구를 확장하여 실험하면 더 좋은 결과가 있을 것이라 예상하고 있다.
다만 개인적으로는, 발표 자체에는 큰 아쉬움은 없으나, 예상하지 못한 질문에 대해 적절하게 답변하지 못했다는 것이 아쉬운 점으로 남는다. 이에 대하여, 앞으로 발표준비를 할 때는 발표 내용을 어떻게 잘 전달할 것인지에 대해서 생각함과 동시에 등장할 수 있는 질문을 보다 폭넓게 생각하여 안정적으로 답변할 수 있도록 해야겠다.

질문 1 : 텍스트 분류를 하는 데 걸리는 시간이 기존의 방법과 비교하여 어느 정도 차이가 나는가?

답변 : 현재 실험한 결과에서는 대략 2배 정도 차이가 존재한다.

의견 : 적절하지 못한 답변이라 생각한다. 현재 단계에서는 결과를 확인하기 위한 수단으로서만 코드를 사용하였기 때문에, 가지고 있는 코드를 보다 효율적으로 개선할 수 있는 여지가 충분히 있기 때문이다. 따라서 "실험을 할 때에는 계산 시간을 고려하지 않아 차이가 존재하였으나, 코드를 보다 효율적으로 개선하게 되면 계산 시간은 큰 차이가 존재하지 않을 것으로 예상한다" 와 같은 형태로 답변해야 했다.

질문 2 : 일반적으로 Machine Learning을 할 때에는 학습 데이터와 실험 데이터를 5:5로 나누는데 이에 대한 실험결과가 없는 이유가 궁금하다. 또한 9:1에서 8:2로 비율 변경을 했을 때 제안하는 방법이 정확도가 감소하는 추세가 보이는데, 그렇다면 5:5에서는 효과가 없는 것이 아닌가?

답변 : 일반적으로 텍스트 분류를 할 때에는 10-fold cross validation을 사용하기 때문에, 이와 유사한 비율인 9:1, 8:2에서만 실험을 진행하였다. 그리고 현재 실험에서는 추세가 보인다고 명확하게 설명하기 어렵기 때문에 5:5에서도 제안한 방법이 더 좋은 결과를 보여줄 것이라 생각하고 있다.

의견 : 답변의 방향 자체는 적절했다고 생각하나, 답변을 서술함에 있어서 정돈되어있지 않았다는 느낌을 스스로도 받았다. 따라서 질문에 대한 답변을 잘 정리하여 말할 수 있도록 준비해야겠다.

청취자 후기

2014 대한산업공학회 추계학술대회에 참석하여 석사논문경진대회 및 특별 세션, 오후 세션에 대해 발표 내용을 확인하였다. 몇 가지 발표에 대해 요약 및 견해 내용을 서술하면 다음과 같다.

1. 석사논문경진대회, An Integer Program and a Hybrid Genetic Algorithm for the University Timetabling Problem

강의 시간표에 따른 강의실 배치문제를 어떻게 해결할 것인가에 대해서 발표하였으며, 이에 대한 해결 방안으로 제안하는 휴리스틱 방법을 이용하였고 그 결과는 최적해와 비슷하면서도 빠른 시간 내에 도출이 가능하다는 장점을 가지고 있다. 개인적으로 이 문제가 몇십년간 최적화 분야에서 다루고 있는 중인 문제라는 점이 예상 외였으며, 연구가 현재까지 진행됨에 있어 변하는 과정이 인상깊었다. 다만, 물론 서술 시간의 부족으로 제외한 것일 수도 있지만, 현재 기존방법에 대한 비교로 사용하고 있는 MIP(mixed-integer programming) 모델이 현실과는 조금 거리감이 느껴진다. 이는 대학교 3개(서울대, 고려대, 연세대)만을 놓고 봐도 시간표를 형성하는 방식이 크게 다르고 이에 대한 차이를 모델에서 잘 반영하고 있지 않기 때문이다. 이에 대한 문제를 잘 해결할 수 있다면 매우 훌륭한 연구가 될 수 있을 것이라 생각하였다.

2. 특별 강연, 품질 및 신뢰성 분야의 흐름과 발전 방향

카이스트 명예교수인 염봉진 교수님의 발표로 진행되었으며, 품질공학, 신뢰성공학 연구가 국내 및 해외에서 어떻게 이루어지고 있는 지에 대해 확인할 수 있는 시간이 되었다. 국내 보다는 외국에서 다변량 분석 기법을 토대로 하는 관리도 문제에 대해 중점적으로 다루고 있음을 확인하였고, 따라서 국내에서도 이에 대하여 연구를 진행해야하는 주장이 등장하였다. 연구실 내에 이러한 다변량 관리도 문제를 연구하는 사람들이 있고, 실제로도 국내, 국외에 논문을 다수 제출한 것으로 알고 있다. 따라서 우리 연구실이 시대의 흐름에 맞는 연구를 진행하고 있음에 자부심을 느낄 수 있었으며, 개인적으로도 시대의 흐름에 맞춤과 동시에, 사회에 보다 유익한 연구를 할 수 있도록 해야겠다고 생각하였다. 또한, 은퇴 이후에도 연구를 진행하고 있는 후배들을 위하여 해당 분야에 대한 연구 동향을 전달해주신 염봉진 교수님의 열의는 본받아야 하겠다.

3. 오후 세션(확률모형 활용), 연관규칙을 이용한 마코프 네트워크의 1차 규칙 생성 및 가중치 학습 방법

연관규칙(association rule)을 자동적으로 생성할 수 있도록 하는 방법에 대해 중점적으로 서술하였으며, 해결 방법으로 마코프 논리(markov logic)을 제시하였다. 발표 자체는 보다 발전해야겠지만 내용은 흥미로웠다. 특히 마코프 논리라는 개념이 생소하였는데, 이를 잘 연구한다면 본인이 진행하고 있는 프로젝트나 연구에 도움이 될 수 있지 않을까 생각하였다. 연관규칙에 대해 더 공부하고, 해당 내용을 잘 이해할 수 있도록 해야 하겠다.

Conference