이번 추계 학술대회는 대전, 카이스트에서 진행되었다. 이번 학회는 4차산업혁명과 산업공학이라는 주제를 걸고 진행되었으며, 주제에 맞게 데이터 분석과 관련된 세션들이 상당히 많이 진행되었으며, 이전에는 보기 어려웠던 강화학습 등을 주제로 하는 발표도 들을 수 있었다.  


 


- 발표 후기


이번 학회에서는 sparse logistic regression via first order methods라는 주제로 발표하였다. Logistic regression은 classification을 위한 linear model로, 다른 복잡한 모델 (SVM, NN)등과 비교했을 때 분류 성능이 뛰어나지는 않지만, 모델 해석 면에서 유용하기 때문에 의미있는 모델이다. 특히 모델의 interpretability를 잘 활용하기 위해서는 변수선택을 잘 하는 것이 중요하다. 본 연구에서는 L0 norm regularization 문제로 formulation되는 logistic regression의 변수 선택 문제에서 좋은 해를 찾기 위한 휴리스틱 알고리즘을 제안하였다. 구체적으로는, projected gradient descent를 이용하였으며, convergence rate을 높이고 더 좋은 해를 찾기 위하여 acceleration 방법론들을 적용하였다. 제안 방법론을 검증하기 위해 시뮬레이션 실험을 진행하였다.


 


상대적으로 가벼운 마음으로 시작한 간단하다고 생각한 연구였는데, 실제로 발표를 준비하다보니 그렇지 않다는 것을 알게되었다. 문제 상황이 간단하기 때문에 방법론이나 실험결과를 위주로 발표를 준비했는데, 실제로 발표를 하다보니 문제 상황을 더 자세히 설명했어야 했다. 추후 알고리즘이나 방법론 관련 발표를 할 때에 참고하면 좋을 경험이 되었다. 연구의 배경 설명을 명확하게 하지 못한 탓인지 구체적인 내용에 대한 질문은 없었다.


 


- 질문: Projected gradient descent를 사용할 경우, iteration 마다 objective value의 값이 감소하는가?


- 답변: 매 iteration마다 objective value의 값이 감소하며, 수렴한다.


 


 


- 청취 후기


 


TF-IDF based Association Rule Mining for a Large Transection Data


Association rule 알고리즘을 사용할 때 주요 규칙을 추출하는 rule mining에서는 일반적으로 자주 출현하는 아이템들을 기준으로 규칙을 추출한다는 한계점이 있다. 자주 출현하는 아이템을 기준으로 추출된 규칙은 일반적으로 큰 의미가 없으며, 단순히 빈도를 기준으로 주요 규칙을 선정하지 않도록 새로운 방식을 개발할 필요가 있다. 발표자는 이를 해결하기 위해 텍스트마이닝 분야에서 사용되는 TF-IDF 개념을 도입하였다. 간단한 방식으로 단순히 빈도가 높은 아이템이 아닌 TF-IDF 점수가 높은 아이템을 기준으로 규칙을 추출함으로써 실제 문제에서 더 좋을 결과를 얻을 수 있었다고 한다. Association rule에 대해 잘 알지 못하기 때문에 자세한 내용은 알아듣기 어려웠지만, 간단하면서도 핵심을 잘 짚은 아이디어라는 생각이 들었다.


 


반도체 설비데이터 분석을 통한 주요변수선택 알고리즘 개발


반도체 설비데이터 분석에 다양한 기법을 적용한 연구로, 문제 상황이 특수하거나 아주 흥미로운 것은 아니었지만, 문제 해결을 위해 시도한 기법들이 새로워서 기억에 남는 발표다. 반도체 공정 데이터에는 unlabeled data가 많고 labeled data가 적은 상황이 많기 때문에, semi-supervised learning을 적용하기에 적합한 경우가 많다. 발표자는 이 상황에서 SAFER라는 방법론을 적용했는데, 간단한 소개였지만 아이디어가 상당히 재미있었다. 또한, missing value가 많은 상황이어서 변수나 관측치를 제거하기 보다는 imputation을 시도하였으며, 이 때 사용한 알고리즘이 trimmed score regression이라고 했다. 간단한 설명으로는 PCA reconstruction을 통해 imputation을 시행하는 것 같았는데, 정확히 어떤 아이디어인지 논문을 찾아봐야할 것 같다.