[발표 후기]

발표 주제: Conflict Graphical Model of Feature Selection

발표 Summary

정수계획법을 활용해서 다중공선성을 제거하면서 동시에 유의한 변수를 선택할 수 있는 방법에 대해서 발표를 진행했다. 이전까지 통계학에서는 변수선택을 위해서 연속형의 최적화를 많이 이용했었는데, 좀 더 좋은 변수를 선택하면서도 모델의 성능을 향상시키기 위해서 정수 계획법을 활용해 모델을 만들어 보았다. 이진변수를 활용해서 변수를 선택한다 선택하지 않는다라는 개념을 모델에 반영하고, Conflict Graph 개념을 활용해서 다중공선성을 제거할 수 있는 제약조건을 추가했다. 새롭게 만들어진 모델을 적용하면, 다중공선성을 제거하면서도 변수를 선택하는 회귀모델을 만들 수 있다.

그런데 정수계획법을 활용하게 되면 문제가 될 수 있는 부분이 모델을 최적화하는 데 걸리는 시간이 길어질 수 있다는 점이다. 이를 해결하기 위해 Conflict Graph 상에서 Clique 구조를 찾아내어 제약식에 추가해 문제 해결 시간을 줄이는 방법을 연구했다. 그리고 모델에서 사용되는 파라미터 람다를 최적화하기 위한 알고리즘도 개발했다. 연구한 방법론의 우수성을 입증하기 위해서 기존에 변수선택 모델로 제안되었던 Lasso 방법론과 비교를 해보았다. 비교해본 결과, 제안한 방법론이 예측성능과 다중공선성 제거 측면에서 효과적임을 확인할 수 있었다.

세션 질문

Q1. 모델에서 사용된 람다가 없어도 되는 것 아닌가? 파라미터 K는 사전에 정의해줘야 하는 것인가?

답변 : 람다는 없으면 안 되는 파라미터이다. 이 모델의 제약조건을 살펴보면 다중 공선성 제거를 위해서 서로 상관관계가 큰 변수끼리 Conflict한 관계를 만들어 주는 부분이 있는데, 이 부분에서 람다보다 상관관계가 큰 두 변수를 Conflict한 관계로 만드는 것으로 모델링이 되어있다. 람다는 꼭 필요하다. 파라미터 K는 사전에 사용자가 정의해줘야 하는 파라미터이다.

발표 후기

이번 발표에서는 발표의 전체적인 시간 구상을 잘못해서 발표가 전반적으로 빠르게 진행이 되었고, 중요한 개념들에 대해서 청취자들에게 잘 전달하지 못한 것 같았다. 세션이 끝나고 나온 질문에서도 모델의 기초적인 부분들에 대해서 질문을 받는 것을 보았을 때에도 발표가 너무 빠르게 진행되었다는 생각이 들었다. 사실 처음에는 짧은 시간이지만 많은 내용을 전달할 수 있다고 생각했지만 너무 욕심을 부린 것이 아닌가 반성해본다. 발표의 시간에 맞춰서 장표도 수정해야 하고 발표할 내용도 다시 정리해야 한다는 중요한 교훈을 얻을 수 있었다. 다음부터는 발표 성격에 맞는 장표 구성을 할 수 있도록 발표 준비를 해야겠다.

발표 주제: 정수계획법을 활용한 확률밀도 추정 방법 및 새로운 관리도 개발

발표 Summary

정수계획법을 활용해서 주어진 데이터의 확률밀도를 추정하는 방법에 대한 연구를 포스터로 발표했다. 품질공학 분야에서 OCC 기법이 많이 사용되고 있는데, Continuos 최적화에 기반하고 있는 기존의 OCC 기법으로는 이론적으로 트레이닝 알파를 맞추는 것이 쉽지 않다. 그래서 Bootstrap과 같은 추가적인 통계기법들이 사용되야 하는데, 이 연구에서는 최적의 원 안에 특정 데이터를 포함할 것인지 포함하지 않을 것인지 하는 개념을 정수계획법의 이진변수를 활용해서 디자인하고 이를 해결해서 사용자가 원하는 알파값을 맞는 OCC 기법을 제안하였다. 지금은 원이 사용되서 데이터의 분포를 추정하는 방법이 제안되었지만, Kernel 함수를 사용하게 되면 원형이 아닌 복잡한 형태의 데이터도 표현이 가능하다.

Q1. Mixed Integer Programming이 무엇인가?

답변 : 결정 변수가 정수와 실수과 혼합되어 있는 경우에 Mixed Integer Programming이라고 한다. 제안하는 모델이 Mixed Integer Programming이 되는 이유는 데이터 포인트를 선택하는 결정변수가 이진변수이고, 원의 중심, 반지름과 같은 결정 변수가 실수이기 때문에 혼합정수계획법이 되는 것이다.

Q2. 어떻게 정확한 알파를 얻을 수 있다는 것인가?

답변 : 제안하는 모델에서는 데이터 포인트를 선택하는 결정변수로 이진변수를 추가했다. 각 데이터 포인트에 해당하는 이진변수가 1이 되면 해당 데이터 포인트를 최적의 원 안에 포함하고, 0이 되면 포함하지 않게 되도록 모델링이 되어있다. 그래서 원하는 비율만큼의 데이터 개수를 파라미터로 넣어주게 되면 사용자가 원하는 알파를 맞출 수 있게 되는 것이다.

발표 후기

이 주제로 발표를 하면서, 포스터를 처음으로 제작해 보았는데 포스터는 발표 장표를 프리젠테이션하는 것보다 훨씬 설명력이 줄어들기 때문에, 포스터 앞에 서서 관람자들과 적극적으로 커뮤니케이션을 하는 것이 중요한 것 같다. 포스터를 보면서 질문을 하지 않더라도 먼저 제안하는 방법론에 대해서 설명을 하고 의견을 물어본다면 서로에게 더 큰 공부가 될 수 있는 시간이 되리라 생각해 본다.


[청취 후기]

이번 학회는 산업공학과 관련한 다섯 개의 학회가 모여 동시에 학회를 주최한 만큼 유익한 세션도 많았고, 흥미로운 주제도 많이 발표되었다. 좋은 발표들이 많이 있었지만 가장 인상깊고 좋았던 발표들을 정리해보려고 한다.

1. Building a Smart Digital Society Together

이 발표는 스위스 ETH Zurich에서 오신 Dirk Helbing 교수님께서 발표한 특별 강연이었다. Dirk 교수님은 유럽에서 FutureICT라고 해서 범 국가적으로 진행되는 정책의 ICT화를 추진 프로젝트의 최고 책임자이다. 이 날 강연에서는 복잡한 정책 의사 결정 과정에서 왜 ICT 기술이 필요하며, ICT 기술을 적용함으로서 지금과는 다른 어떤 세상이 펼쳐질 수 있는 지에 대해 들을 수 있었다. 사실 이러한 프로젝트의 경우 우리 나라에서도 정부 3.0이라는 이름으로 진행되고 있다. 하지만 얘기를 들어보면 구체적으로 무엇을 하겠다라는 것보다는 두루뭉실한 개념들만이 모여 있는 느낌을 받을 때가 많이 있다. 좀 더 효과적인 의사결정을 위해 무엇이 중요하고 무엇을 해야하는지 명확해졌으면 하고, 외국의 사례를 배워 좀 더 개선했으면 좋겠다.

2. 패션 상품에 대한 박스 패키징 및 배분 최적화 사례연구

이 발표는 코오롱 스포츠와 카이스트가 하고 있는 상품의 박스 패키징과 배분에 관한 연구에 대한 것이었다. 상품의 수요에 맞춰 재고를 최소화하고 판매를 촉진시키기 위해 선형회귀 분석을 통한 예측 방법론과 최적화 기법이 결합되어 결과가 도출되었다. 이 발표가 인상깊었던 이유는 사실 내가 이와 유사한 프로젝트를 진행했기 때문이다. 제일모직과 했던 프로젝트에서 우리는 할인율에 따른 상품 판매를 예측하고, 예측된 판매량을 이용해 최적의 할인율을 도출했다. 이 발표와 마찬가지로, 예측 방법론과 최적화 모델이 결합된 형태의 프로젝트였다. 그래서 그런지 관심이 많이 갔고, 결과 또한 매우 흥미로워서 인상깊게 들었던 것 같다. 그러나 한 가지 아쉬운 점은 수요를 선형모델로 예측하고 예측 결과를 최적화 모델에 넣는 과정에서 예측의 정확도 검증 부분이 생략된 것이었다. 결국 최적화 모델을 풀어서 나온 결과의 신뢰성은 예측 모델의 결과에서부터 출발할 텐데 그 부분이 제대로 안 되지 않았나 생각이 된다. 예측 성능 검증만 잘 된다면 좋은 연구가 될 것 같다.

3. 이종 정보를 활용한 질병 네트워크 상의 결측노드 연결방법

이 발표는 기존의 단백질 분석 정보로 질병 네트워크가 그려져 있을 때 질병의 외부 연관성 정보를 가지고서 현재는 연결이 되있지 않은 질병을 연결하는 방법에 관한 발표였다. 질병 네트워크는 질병간의 상관관계를 규명하고 합병증과 같은 추가 질병에 관한 위험을 사전에 파악하게 해주는 유익한 정보이다. 그런데 이런 질병 네트워크는 현재 단백질 정보만을 가지고 연결되기 때문에 단백질 분석이 되지 않은 질병 같은 경우 네트워크에 포함될 수 없는 한계가 있다. 그래서 저자들은 질병이 동시에 처방되는 정보나 논문에 등장하는 사실을 가지고 질병 간을 이어주는 연구를 진행했다. 이 발표는 아이디어는 매우 인상깊고 좋아 보였지만 실제로 새롭게 생긴 연결에 대한 신뢰성 검증 부분이 약해서 아쉬웠다. 물론 질병 네트워크를 확장시키는 것은 중요하지만 그보다 더 중요한 것은 네트워크의 정확성이라 생각된다. 질병간 연관 관계가 잘못 찾아져 잘못된 진단을 하게 된다면 많은 사람들이 큰 고통을 받을 수 있기 때문이다. 그래서 신뢰성 부분을 좀 더 보강한다면 좋은 연구가 되겠다는 생각이 들었다.