고려대학교 DMQA 연구실

2015년 대한산업공학학회 춘계학술대회 - 박영준

2015년 4월 13일 오후 12:20
조회수: 1570

Reviewed by

박영준

-발표 후기-
[발표 후기]
발표제목: 딥러닝을 이용한 그래프 데이터 분석: 미 상원의회 네트워크에의 응용
이번 발표에서는 딥러닝을 이용한 그래프 데이터 차원 축소 방법론을 미국 상원 의회 네트워크에 적용한 연구결과를 발표하였다. 발표 전날 학회에 참석한 우리 일행은 어떻게 해야 좋은 발표를 할 수 있는지에 대해서 토론했다. 그 때 나온 얘기 중 외워서 발표하지 말라는 말이 기억이 난다. 외운 대상은 발표 대본을 포함하여 매 슬라이드 마다 어떤 것을 말해야 하는지 기억하는 것도 포함한다. 이렇게 암기에 기반한 발표를 하게 되면 자연스러움이 떨어지게 되고, 결과적으로 전달력이 떨어지는 발표를 하게 된다. 이번 발표에서는 지금까지 암기에 기반한 발표를 벗어 던지고자 발표 한 두 시간 전부터는 발표에 대해 신경쓰지 않으려고 노력했다. 아무래도 뭔가 준비한것 같은 느낌이 부족하기에 발표 전에는 상당히 긴장이 되었다. 하지만 막상 발표를 위해 앞에 서니 그러한 긴장감은 다 사라졌다. 결과적으로 발표내용도 좋았다. 이제 어떻게 준비해야 좋은 발표를 할 수 있는지 감을 잡은것 같다. 하지만 암기를 지양한다고 해서 연습을 소흘이 한것은 절대 아님을 분명히 해둔다. 작성한 슬라이드를 꼼꼼히 공부하고 이를 바탕으로 어떻게 전달해야 하는지는 다각도로 연습을 해봤다.

[발표 후 질의응답]
질문: 딥러닝 모델을 학습하는데 걸리는 시간은 얼마나 되는가?
답변: 상원의회 네트워크의 경우 CPU를 이용한 학습이 8시간 정도 걸렸다.

질문: 네트워크 상에서 그래프 이론을 이요한 방법으로 거리를 계산할 수도 있지 않은가?
답변: 본 연구는 각 네트워크를 관측치로 간주한 그런 데이터에 대한 연구이기 때문에 그래프 이론으로 노드 사이의 거리를 계산하는 것과는 무관하다.
의견: 이 질문은 발표 내용을 잘 이해하지 못하여 발생한 질문으로 내가 슬라이드 구성을 더 잘 하지 못한 탓이 크다. 추후 발표할 때 이런 부분에 대해 잘 전달하기 위해 노력해야 겠다.

질문: 추출한 feature의 수가 너무 작은 것 아닌가?
답변: 시뮬레이션에서 보여준 10, 2, 1개의 feature는 딥러닝이 그래프 데이터의 차원을 효과적으로 줄일 수 있는지 검증하기 위해 임의로 갯수를 지정한 것이다. 실제 상원 의회를 분석할 때는 10개의 feature를 이용하여 실험을 수행하였다.
의견: 충분히 의문을 제기할 수 있는 내용이었고, 이에 대해 적절하게 답변한 것 같다.

질문: 데이터 불균형 상태는 어떻게 해결하였는가?
답변: 이번 연구에서 딥러닝은 unsupervised feature extraction 기법으로 사용되었다. 즉, clustering과 같이 클래스를 고려하는 supervised learning 문제가 아니기 때문에 데이터 불균형 문제는 고려하지 않았다.
의견: 실험 결과에서 하나의 군집이 비대하여 의문을 가졌던것 같다. 이에 대해 적절한 답변을 하였다.

-청취 후기-
이번 산업공학회는 인간공학, 시뮬레이션 학회 등 여러 학회가 연합하여 개최한 상당히 큰 규모의 학회였다. 전반적으로 각 세션마다 발표가 많아 짧은 시간안에 효과적으로 연구내용을 전달해야 하는 학회였다. 발표를 듣다 보니 긴 발표보다 짧은 발표가 훨씬 어렵다는 것을 느꼈다. 앞선 발표자의 시간초과로 예상치 못하게 짧은 시간이 주어졌을 때, 내공이 있는 발표자는 준비해온 슬라이드 중 필요 없는 내용은 과감히 쳐내고 무엇을 했는지에 대해서 초점을 맞춰 발표를 해낸다. 그럼에도 전달을 잘 하여 연구내용에 대해 질문까지 받는 경우를 보면 존경스럽다. 반면에 시간은 충분하지만 지루한 발표도 있었다. 특히 이번 학회에서 많은 사람들이 tf-idf 개념에 대해 아주 자세하게 설명한것을 봤다. 결국 tf-idf는 텍스트 분석에 있어 필요한 한 과정이지 연구의 핵심이 아님으로 수식에 대해 요약 및 재해석 하여 전달하는 것이 더 바람직한 발표가 아닌가 생각한다.

이번 산업공학회에서 정말 눈의 띄는 연구결과 하나가 있어 소개한다. 서울대 조성준 교수님 연구실 소속의 김현중 박사과정이 발표한 내용이었다. 텍스트 마이닝을 이용하여 한글을 분석하는 것은 경험해본 사람들은 알겠지만 매우 어렵다. 이러한 어려움은 한글을 parsing 하는 작업이 기존의 형태소 분석기에 의해 잘 되지 않는 다는 것이다. 영어는 의미 혹은 문법적 완성을 위해 필요한 글자가 띄어쓰기 단위로 구분이 된다. 하지만 한글은 조사나 받침(을, 이 , 가, ㄴ 등)에 의해 문장의 문법을 완성하기에 기존의 형태소 분석기로 부터 만족할만한 결과를 얻기 힘든 경우가 발생한다. 발표자는 한글의 특징에 대해 주의깊게 관찰하여 새로운 형태소 분석기를 개발하였다. 아직 완성도는 떨어지지만 정량적인 속도 평가와 정성적인 분석능력에 있어 좋은 성능을 보였다. 앞으로 완성도만 높인다면 기존의 형태소 분석기를 대체할 수 있는 좋은 연구결과라고 생각한다.

Conference