미국 펜실베니아주 필라델피아의 필라델피아컨벤션센터와 메리어트호텔에서 개최된 INFORMS 2015는 듣던 대로 규모가 어마어마했다. 하루 5회 70여개의 세션에서 4~5개의 발표가 4일동안 진행되었으니, 총 5000개가 넘는 발표가 이루어진 것이다. 첫째날에는 등록시 받은 책자를 이용하여 들을만한 세션을 골랐지만, 규모가 이렇다 보니, 찾는 것도 보통일이 아니었다. 이틀째부터는 INFORMS 공식 어플을 이용하니, 보다 수월하게 듣고 싶은 세션을 고를 수 있었다. 다음에 참석하시는 분들은 어플을 미리 설치하여 유용하게 이용하면 도움이 될 것 같다. 특히, 책자에는 Abstract없이 제목만 있지만, 어플에서는 Abstract를 확인할 수 있으므로 제목만 보고 기대한 내용이 아닌 경우의 수를 줄일 수 있었다. 규모가 큰 만큼, Keynote Speech도 2개가 동시에 열렸다. 또한, 한 쪽에서는 다양한 업체의 면접이 이루어지고 있었으며, 몇몇 솔루션 회사나 대학교에서도 부스를 설치하고 참가하였다. 3일째 저녁에는 General Reception도 열렸는데, 간단한 샌드위치와 쿠키류를 먹으며 밴드의 음악도 들을 수 있었다. 다만, 잠깐 자리를 같이 하며 얘기를 나눈 버지니아텍의 한 교수님은 이제까지의 INFORMS와는 달리, 음식이 너무 부실하다고 하셨다. 하지만, 자유로운 네트워킹을 하는 참가자들을 보며 영어에 대한 의욕을 불태웠다(?).


 


-. 발표 후기


 


   발표 제목: Predictive Analytics of Semiconductor Chip Quality under Data Imbalance Situations


 


  올해 6월 IEA/AIE 2015, 10월 ISMI 2015에 이은 세번째 영어 발표였다. 이전의 실수를 만회하기 위해 많은 연습을 하였지만, 여전히 만족스럽지 않은 발표였다. Script는 많은 연습을 통해 중간에 잊거나 하지 않았지만, 기본적인 발표 울렁증이 여전해서 생각한 것보다 빠르게 발표를 하고 말았다. 또한, 여전히 청취자들의 반응을 보며 발표하는 노련함은 전혀 발휘하지 못하였다. 지난 2년간의 대학원 생활동안 발표능력이 향상되긴 하였으나, 여전히 부족한 부분이 많았다 더군다나 마지막날 마지막 세션이어서 Session Chair와 그의 동료, 또 우리 연구실 학생 외에는 참석자도 없었다. 그럼에도 불구하고, 여전히 긴장을 하지 않는데에는 실패하였다. 또한, 쉬운 질문임에도 부족한 영어 실력으로 답변을 충실히 하지 못하였다. 다행히 이상민 연구원이 도움을 주어서 마무리를 할 수 있었다. 결국 많은 경험이 필요할 것 같다. 회사 복귀 후에는 발표 기회를 피하지 말고, 잘 활용해야겠다는 생각을 했다. 또한, 영어 공부도 꾸준히 해야 하겠다.



-. 질문 내용과 답변
  
   1. SMOTE에서 소수클래스가 1개이면?
      -. SMOTE 알고리즘 상 주위 이웃이 최소한 2개는 있어야 하기 때문에, SMOTE 알고리즘 적용이 불가능하다. 1개밖에 없을때에는 어차피 정확한 분류는 불가능하다고 생각한다.


 


   2. PCA를 분류에 적용한 것인가?
      -. PCA는 visualization을 하기 위해서 사용했을뿐, 실제 분류에는 29개의 Feature를 그대로 사용하였다.


 


   3. Accuracy가 Original data의 결과보다 낮은데?
      -. 처음에 발표했듯이, 품질 이상 물량의 분류 정확도에 초점을 맞췄으므로, 전체적인 Accuracy보다는 F-measure의 향상에 주목을 해주시면 좋겠다.



-. 청취 후기



   Keynote: Optimization Techniques in Data Analysis (Stephan Wright)
  
   첫날이라 적응을 못하고 있을때에 교수님의 추천으로 듣게 되었다. 우리에게 익숙한 Regression, SVM 등의 다양한 알고리즘에서의 Optimization의 formualtion에 대해서 설명을 해주셨고, 또, 이러한 접근법이 새로운 방법에 대한 연구도 활발하게 한다고 하셨다. 최적화에 대한 개념이 부족하여 많은 부분을 이해하는데 어려움이 있었지만, 최적화에 대한 지식도 쌓는다면 데이터마이닝을 연구하는 데에 큰 도움이 되리라는 생각을 하게 되었다.



   Quantifying the Level of Risk of Functional Chips in Semiconductor Wafers (Young-seon Jeong)
  
   전남대 정영선 교수님의 발표는 내가 연구하는 주제와 매우 비슷하여 흥미로웠다. 실제로, 삼성전자 반도체의 한 부서와 프로젝트한 내용이라고 하였다. Wafer Test에서 pass한 Chip을 Functional Chip으로 정의하고 Fail난 Chip은 Fail Chip으로 정의한 후, 두 그룹을 RVM을 이용하여 분류를 한다. 이 때, Decision Boundary에 가까운 Functional Chip은 잠재 불량이 날 확률이 높다고 판단하고, 그 Chip들을 Risky Functional Chip으로 구분해낸다. 발표에서는 이 Risky Functional Chip들이 실제 Wafer map상에서 Fail Chip 부근에 존재하게 때문에 불량 확률이 높다고 결론을 지으며, 실제 현업 엔지니어도 좋은 결과로 판단을 했다고 마무리를 지었다. 좋은 접근법이고, 충분히 수긍이 갈만한 내용이지만, 정량적인 척도로 결과를 내지 않은 점이 좀 아쉬웠다. Session이 끝나고 데이터 불균형 문제는 어떻게 처리했는지 질문을 했지만, 본 과제는 데이터 불균형이 초점이 아니기 때문에, 랜덤샘플링으로 수량을 맞춰서 연구를 진행했다고 하셨다. 어렵지 않은 접근법이었지만, 이 연구가 IEEE에 Accept이 되어 게재가 될 논문이라는 점이 신선했다. 나중에 논문을 검색해서 읽어보면 많은 도움이 될 것 같다.



   A Gravity Model for Tourist Forecasting at FIFA Soccer World Cups (Ghaith Rabadi)


 


   2022 카타르 월드컵의 관객수를 Gravity model을 이용하여 예측하는 내용이다. 다음 주에 빅콘테스트에서 야구 관중 수 예측에 관한 최종 발표가 있기 때문에 관심있게 들었다. 이 발표에서는 카타르와 주요 국가의 거리도 Feature로 활용하였다. 우리도 홈팀과 어웨이팀 간의 거리를 Feature로 활용했으면 어땠을까하는 아쉬움이 남았다. 아무래도 잠실구장의 경기에는 마산팬보다는 목동팬이나 수원, 인천팬이 오기가 쉬울테니까. 또한, 각 팀별 팬의 충성도도 중요한 Factor가 될 수 있을 것 같다. 몇년간의 성적에 따른 최소 관중 수를 충성도 높은 팬의 수로 가졍하고, 이를 Feature로 삼는다면 좀 더 좋은 결과가 나오지 않았을까 생각이 든다.


 


   이 밖에 다양한 주제의 발표가 있었는데 동양인들은 주로 Application 위주의 내용을 발표하는 반면, 현지 백인들은 WOW(World of Warcraft)를 이용한 내용이나, 간단한 데이터마이닝 알고리즘을 설명하는 등 가벼운 분위기에서 토론을 하는 분위기가 많이 연출됐다. 무거운 내용도 많았지만, 가볍게 들으며 새로운 아이디어를 찾을 수 있는 기회가 될 수도 있을 것 같다. 일방적인 발표가 아닌 어떤 화두를 제시하며 청취자들이 서로의 의견을 제시하며 토론을 하는 분위기는 신선하기도 하고 부럽기도 했다.​