- 2019년 3월 11일 오후 2:04
- 조회수: 4094
REFERENCES
INFORMATION
- 2019년 3월 8일
- 오후 1시 30분 ~
- 고려대학교 신공학관 212호

TOPIC
OVERVIEW
발표자 후기

Variational inference는 inference 문제를 optimization 문제로 변형시켜 풀 수 있게 해주는 유용한 approximate inference 방법론으로, 많은 데이터가 주어지고 복잡한 모델을 사용하는 경우에 적합하다. Variational inference는 근사할 때 사용할 함수의 집합인 variational family를 정의하는 방식에 따라 세분화 될 수 있으며, factorize 가능한 함수들로 posterior를 근사하는 mean-field variational Bayes 방법론이 일반적으로 사용된다. Mean-field variational Bayes로 정의되는 optimization 문제는 주로 coordinate ascent optimization을 사용하여 해를 구한다. 하지만 많은 경우, 이러한 variational optimization 문제는 nonconvex하며, coordinate ascent를 통해서는 좋은 해를 구하기 어려워진다. 세미나에서는 coordinate ascent를 사용하는 대신, variational optimization 문제를 reformulation하고 semi-definite programming relaxation을 사용하여 푸는 방법론을 소개하였다. 이러한 접근 방식이 현실 문제를 효과적으로 또는 효율적으로 풀어낸다고 하기는 어렵지만, 전통적인 통계 문제를 optimization 도구를 이용해서 풀어내려는 의미 있는 시도라고 생각한다.
청취자 후기

개인적으로 variational inference와 Bayesian inference 둘다 모두 쉽게 이해하기는 어려운 부분이라고 생각한다. 그럼에도 불구하고 최근의 연구 흐름에 한 가닥으로 이러한 variational inference를 사용하고 더불어 Kullback-Leibler Divergence와 같은 개념 또한 GAN 을 포함한 다양한 딥러닝 학습 방법에서 주로 사용되는 하나의 도구이기에 원활한 이해를 위해서는 어느정도 흐름을 파악할 필요가 있기도 하다. Convex Relaxation을 위한 Variational Inference 방법에 대해 논하기 보다는 전체적인 variational inference에 대한 개념 및 그 기저가 되는 Bayesian inference에 대해 이해하고 정리할 수 있었던 세미나라 생각된다.

오늘 전체세미나는 ‘Convex Relaxation for Variational Inference’라는 주제로 형록이형이 진행하였다. Convex Relaxation 은 Variational Inference를 위한 최적화 기법으로, 이를 설명하기 위해 Bayesian Inference(베이즈 추론) 개념부터 설명을 시작했다. Bayesian Inference은 통계적 추론의 한 방법으로 추론 대상의 사전확률과 추가적인 정보를 통해 해당 대상의 사후확률을 추론하는 방법이다. 베이즈 추론은 베이즈 확률론을 기반으로 하고, 이는 추론하는 대상을 확률변수로 복아 그변수의 확률분포를 추정하는 것을 의미한다. 베이지안 추론을 적용한 선형회귀는 우리가 학습해야할 대상인 회귀계수값에 분포를 가정하고 그를 추정한다. 이로인해 예측값도 분포를 갖게되는데 그 분포를 이용하여 예측값에 대한 불확실성(uncertainty)를 측정하는 데 활용할 수 있다. Variational Inference는 분포차이를 측정할 수 있는 KL Divergence를 줄이는 데 목적을 두고, 그 분포는 모델의 Posterior에 근사하는 것이다. 이를 추정하는 기법으로 Convex Relaxation이 사용된다. 자세한 절차는 좀더 스터디가 필요할 것 같다. Convex Relaxation은 coordinate ascent와 같은 기법에 비해 더 좋은 성능을 보이는 것으로 나타났다. 요즘 Variational 추론, Bayesian 추론 등 공부할 기회가 많은데 응용보다는 먼저 디테일한 과정을 차근차근 익혀 현실문제에 어떻게 적용해볼 수 있을지 살펴볼 계획이다.

오늘 세미나는 Variational Inference의 Convex Relaxation에 관한 세미나를 주제로 구성되었다. 그전에 앞서 Bayesian Inference와 Variational Inference에 대한 이해로 구성되어 다시 복습할 수 있어서 좋았던 것 같다. 특히 prior를 선택하는 것이 일종이 regularizer로 생각될 수 있다는 점과 likelihood가 model이라고 짚어준 점이 인상적이다. 특히 prior가 regularizer라고 말한 부분이 왜 인상적이었냐하면 지난주 세미나에서 ELBO내의 prior와 variational distribution이 KL divergence부분이 특정 prior가 주어졌을 때 L2 norm과 똑같다는 부분과 연결되어 생각되었기 때문이다. 또 다시 한번 정리해서 좋았던 부분은 Bayesian Inference 예로 Bayesian Linear Regression으로 예시가 이루어진 부분이었다. Linear Regression에서 random noise를 Gaussian 분포로 주면 Least square와 MLE에서 구한 파라미터 값이 같아지고 Laplacian error가 주어지면 |y-Xb|로 구해진 파라미터 값과 같아진다. 또한 MAP로 구한 파라미터 값은 Ridge regularization을 사용해 구한 값과 연결되어 해석될 수 있다. 그리고 결국 데이터가 증가하면 MAP로 구해진 값은 MLE로 구해진 파라미터 값에 수렴한다. 사실 여기서 MAP가 Bayesian Inference라고 하는 것에는 의견차이가 있을 수 있기때문에 간혹 혹자에게는 의문을 일으킬 수도 있다고 생각이 들었다. Approximate Bayesian Inference의 Sampling-based 방식과 Approximate Inference 방식 각각에 대해서 간단한 설명도 이루어졌는대 항상 두가지 방식에 대해서 알고는 있지만 실제 코드로 구현해보지 않아 체득되지 않는 느낌이 있다. 혼자 관련 예제 코드라도 구현해보아야겠다고 생각했다. 오늘 사실 제일 중심이 Variational Inference의 Convex Relaxation이었는대 Convex Relaxation 쪽에 얕은 지식으로 깊게 이해못한 아쉬움이 크다. 틈틈이 Convex쪽 관련 서적 찾아보면서 공부해두면 추후 도움될 일이 있지 않을까 생각이 든다.

금일 세미나는 Convex Relaxation for Variational Inference를 주제로 진행되었다. Variational Inference를 이해하기 위해서는 Bayesian Inference에 대한 이해가 선행되어야 한다. Bayesian Inference는 Prior probability와 Likelihood를 이용하여 Posterior Probability를 추론하기 위한 방법론이다. Conjugate Prior가 잘 알려진 경우엔 계산이 쉽지만 그렇지 않은 경우 근사적으로 Posterior을 추정해야 한다. 잘 알려진 방법으로 Sampling based와 Approximate inference가 있다.
Variational Inference는 Distribution function set 중 Posterior function과 가장 유사한 function을 찾아 이를 posterior으로 추정하는 방법이며 KL divergence를 minimize하는 Optimization problem으로 풀 수 있다. 전통적으로는 Coordinate ascent 방법으로 이를 해 풀었지만 Local optimal의 함정에 빠질 수 있기 때문에 최근에는 convex relation 방법이 연구가 많이 되고 있다고 한다. Bayesian Linear regression example에서 polynomial term이 주된 원인이라는 가정 하에, polynomial term을 Quadratic term으로 대체함으로써 nonconvex problem을 convex problem으로 relaxation한다. Convex Optimization problem은 global optima로 수렴이 보장되는 문제이므로 더 좋은 성능을 보인다.
머신러닝이나 딥러닝을 공부하면서, 쉬워보이는 문제도 생각보다 모델의 성능이 좋지 않은 경우가 많이 발생한다. 최근에 참여했던 공모전에서도 예측모델의 성능이 많이 떨어져서 고민이 많았었다. 적용했었던 통계 모델의 경우 데이터의 분포가 지수족에 속하거나 다른 형태의 잘 알려진 분포를 따른다는 엄격한 가정을 하기 때문에 그 가정에 위배되는 데이터셋을 학습하면 성능이 떨어질 수 밖에 없다. 이런 경우 Bayesian 접근법이 성능 향상에 좋은 방법이 될 수 있다는 것을 민정이와 형록이형의 세미나를 통해서 많이 배웠다. 베이지안 방법론도 관심을 갖고 공부를 많이 해야겠다는 생각을 했다. 그리고 이번 세미나에서도 역시 머신러닝, 딥러닝 모델에서 최적화 문제가 중요하다는 것을 느꼈다. 최적화를 얼마나 잘 알고 있느냐에 따라 다양한 연구를 할 수 있다는 것을 느꼈다. 어려운 수식도 하나하나 잘 정리해서 설명해준 형록이형에게 감사하다

금일 세미나는 Convex Relaxation for Variational Inference 주제로 진행하였다. Inference에는 Bayesian과 Variational에 대하여 설명하였다. Bayesian Inference에서는 Bayes’ Rule에서 posterior probability를 구하는 것이다. 동전 던지기를 예로 들어 어떻게 구해지는지 설명하고 Posterior의 분포를 베타 분포로 가정하여 베타 분포의 파라미터에 따라 어떻게 변화하는지 보여주었다. 일반적으로 prior probability는 적분의 계산이 힘들다. 따라서 대략적인 추론을 해야하며 그 부분은 Variational Inference로 가능하다. 이 추론은 최적화 기반으로 되어있으며 KL Divergence를 최소화 하고 Evidence Lower Bound(ELBO)를 최대화 시켜 구하는 방법이다. 최적화 기반으로는 Coordinate Ascent/Descent 방법을 사용하여 해공간 내에 Optimal를 구해준다. 하지만 Local optimal에 빠지는 경우, Global optimal에 수렴하는 것을 보장해주지 않는다. 이를 해결하기 위해 Convex Relaxation의 이론을 통하여 더 좋은 optimal을 찾아준다. 결론적으로 Coordinate Ascent/Descent 방법보다 더 좋은 optimal을 찾아주며 이에 수렴한다. 이번 세미나는 Bayesian 관점과 최적화 기반으로 설명한 깊이 있는 내용이어서 매우 재미있게 들었다. 또한 machine learning, Deep learning 등에 관련한 수식은 최적화와 밀접한 관련이 있어 다시 한번 공부할 계기가 되었다.

금일 세미나는 Bayesian Inference와 이를 이용해, Non-Convex 문제를 Convex Optimization문제로 변환하는 방법에 관한 내용이었다. 학부 수업시간에 배웠던 내용인 Bayesian Inference에 관해 복습할 수 있는 세미나였다. 저번 주와 연속해서 Prior, Likelihood, Posterior에 대한 내용을 상기하며, Bayesian Regression에 관한 설명이 이어졌다. Bayesian Regression은 Beta값에 대한 분포를 학습한다. 즉, 특정한 회귀 계수 값과 해당 값에 대한 신뢰구간에 대해 같이 예측함으로써 구간 추정과 같은 방법으로 예측을 모델을 만드는 과정이다.
Bayesian관점으로 문제를 해결하기 위해서는 Posterior를 잘 예측하는 것은 필수적이다. 하지만 Prior에 대한 정보도 부족하고, likelihood를 정의하기 힘든 상황이라면 Posterior를 잘 예측하는 것은 매우 어렵다. 그래서 Sampling 방법을 이용해서 Posterior를 생성하거나, Posterior를 잘 근사하는 모델을 만든다. 후자에 해당하는 방법이 Variational Inference이다. Variational Inference는 KL-Divergence를 최소화하는 분포를 만드는 방법이지만, KL-Divergence를 직접 이용하기는 어렵다. 왜냐하면 Posterior를 모르기 때문에 이것 또한 풀기 어려운 문제이다. 그래서 Prior와 근접한 Evidence Lower Bound를 만드는 방법을 이용한다.log(Prior)=KL-Divergence+ELBO 라는 식이 존재하기 때문이다. 이와 관련한 설명을 마무리하고 Non-convex문제를 Convex문제로 바꾸는 과정을 설명해주었다. Non-convex에서는 Local Optimal이 존재하기 때문에, Convex상황에 적합한 알고리즘을 적용한다면, Local Optimal에 빠지기 쉽다. 그래서 Convex Relaxation(Non-convex -> Convex) 하는 일련의 과정을 통해, Non-convex한 부분을 줄여 값을 더 쉽게 찾아가는 것이다.
지난 주와 연속해서, Bayesian관점의 ML알고리즘을 소개해준 두 선배 연구원들에게 감사를 표한다. 기본적인 ML 알고리즘을 복습하는 중, 요즘 LASSO에 관해 많은 관심을 가지고 있다. 그러면서 Bayesian LASSO라는 논문을 보고 공부하려던 찰나에, 형록이형이 소개를 해주어 더 쉽게 논문을 볼 수 있을 거 같다. 석.박통합과정을 진행하면서 연구 방향에 대해 기초를 다질 수 있는 세미나였다.

이번주 세미나는 Convex Relaxation for Variational Inference라는 주제를 가지고 진행되었다. 그래서 먼저 Variational Inference에 관해 찾아 보았다. Variational Inference는 posterior분포를 다루기 쉬운 확률분포 q(z)로 근사하는 걸 말한다. 그 이유는 posterior분포를 계산하는 것이 불가능 할 정도로 어렵기 때문이다. Variational Inference는 모든 파라미터가 사전 분포를 가진다고 가정한다. 그리고 posterior확률에 근사한 q(z)를 만들기 위해서는 KLD이라는 개념을 활용한다. KDL은 두 확률분포의 차이를 계산하는데 사용하는 함수이다. 핵심 아이디어는 posterior 분포와 q(z) 사이의 KLD를 계산하고, KLD가 줄어드는 쪽으로 q(z)를 조금씩 업데이트 하는 과정을 반복한 후 posterior확률을 잘 근사하는 q*(z)를 얻게 된다는 것이다. Variational Inference를 통해 추론 문제를 최적화 문제로 풀 수 있으며, 통계적 수렴과 최적화 기법에 좋은 예라고 할 수 있다.

금번 세미나는 “Convex Relaxation for Variational Inference” 라는 주제로 도형록님께서 진행 해주셨다. 세미나는 학교에서 배웠던 Frequent Inference와 Bayesian Inference의 확률적 접근법의 차이점을 자세히 설명해주었으며, Bayesian Inference의 추정을 방법까지 소개해주어 많은 도움이 되었다. Bayesian Inference에는 Sample Based와 Approximate Inference 2가지의 추정법이 있다. 이 2가지 방식에는 각 장단점이 있는데 Sample Based Inference의 경우 정확성이 높다는 장점이 있는 반면, Sample을 모으고 계산하기가 어렵다는 단점을 가지며, Approximate Inference의 경우 비슷한 함수를 통해 추정하는 방법으로 계산하기가 용이하다는 장점이 있는 반면, 정확성에서는 떨어진다는 단점이 있다. 이번 세미나에서는 Approximate Inference의 정확성을 높이는 방안으로 Convex Relaxation for Variational Inference(이하 CRVI)를 제안하였고, 이는 CAVI(Coordianate Ascent Variational Inference) 보다 더 높은 ELBO(Evidence Lower Bound)를 얻을 수 있으며, 이론적으로 Global Optimal Solution와의 GAP을 측정할 수 있다는 장점이 있다는 것을 배울 수 있었다. 앞으로 연구실 생활을 하며 배워야 할 내용에 대하여 Overall하게 배울 수 있었던 시간으로 자세하게 준비해준 도형록님께 감사의 인사를 전하고 싶다.

금일 세미나는 Convex Relaxation for Variational Inference 를 주제로 진행 되었다. 금일 소개된 논문은 ICML 2018 에서 발표된 논문으로 Variational inference 에서 convex relaxation 을 적용한 초기단계의 연구라고 한다. 기본적인 개념 이해를 돕기 위하여 Bayesian inference 에 대하여 상당히 자세하고 쉽게 설명이 되었다. Bayesian inference 에서 우리는 궁극적으로 posterior 인 P(w|x) 를 알기를 원하는데 이를 위해서 계산하는데 필요한 evidence 인 p(x) 를 계산할 수 있어야 한다. 하지만 p(x) 가 쉽게 풀리는 경우가 거의 없기 떄문에 approximate Bayesian inference 를 이용하며, 금일 세미나에서는 대표적으로 variational inference 를 소개하였다. 이는 목표로 하는 확률 분포(p(x))를 바로 찾는 것이 아니라 알고 있는 확률 분포(q(x))를 기반으로 목표로 하는 확률분포(p(x))와 가장 유사한 분포를 찾는 방법이다. 이 방법으로 evidence 에 가장 근접하는 elbo 를 계산할 수 있다. Bayesian linear regression 의 경우에 최적해를 찾아감에 있어서 목적함수에 non-convex 부분이 있어서 전역최적해를 찾는다는 보장이 없는데, 이 목적함수의 non-convex 부분의 polynomial term을 조절하여 convex 형태로 바꾸게 되면 전체가 convex 형태가 되므로 전역최적해를 찾을 수 있게 된다는 것이 이 논문의 요점이다. 금일 세미나가 사실 나에게는 어려운 내용이라 정확히 이해할 수는 없었지만, 최적해를 찾는 방법에 대한 연구를 통하여 새로운 분야를 접할 수 있어 좋았고, bayesian inference 에 대해 자세히 배울수 있었던 좋은 세미나였다.

오늘 세미나의 메인 주제는 ‘convex relaxation for variational Inference’였으나, 대부분은 Bayesian inference와 variational inference에 관한 설명으로 채워졌다. 최근 들어 Bayesian statistics와 관련된 내용으로 자주 세미나를 가졌는데, 오늘에야 비로소 그 동안 다룬 일련의 내용들이 머릿속에 잘 정리되는 느낌을 받았다. Bayesian statistics에서 결국 관심을 가지는 것은 가정하는 통계 모델 파라미터의 사후 분포(posterior distribution)인데, 우리가 다루는 현실문제에서는 이를 정확하게 계산하는 일이 어렵다. 자연스럽게 이를 근사할 수 있는 다양한 방법들이 연구되어 왔으며, 그 중에선 원(original) 문제를 최적화 문제로 변형하고 신경망 모델과 같은 functional approximator로 사후 분포를 추정하는 variational inference가 요새 대세를 이루고 있다. 쉽게 말해 variational inference는 우리가 비교적 잘 알고 있어 계산이 용이한 함수의 집합을 가정한 이후, 구하고자 하는 사후분포와 가장 유사한 분포를 구하는 것이다. 분포 간 거리에 해당하는 KL divergence를 최소화해야 하는데, 이는 곧 evidence lower bound (ELBO)를 최대화하는 최적화 문제로 대체하여 풀 수 있다. 나아가, 오늘 세미나의 메인 주제인 convex relaxation은 위 목적식에서 nonconvex term을 convex한 함수로 완화시켜주는 하나의 최적화 기법이다. 아직은 gradient ascent 방식이 범용적으로 사용되지만, convex relaxation을 활용한 연구도 앞으로 어떻게 발전할 지 주목할 필요가 있을 것 같다.

금일 세미나에서는 형록이가 Convex Relaxation for Variational Inference를 주제로 ICML 2018에서 발표된 논문을 소개하였다. Variational inference는 Bayesian posterior approximation에 널리 사용되는 기법으로 신경망 모델을 이용한 generative model 학습에 주로 사용되는 기법이다. 모델 학습시 variational inference를 통해 유도된 optimization 문제를 gradient descent나 coordinate ascent를 이용하여 풀 수 있다. 하지만 대부분의 경우 variational inference 문제 역시 nonconvex 문제에 해당하기 때문에 global optimal을 찾는 것이 매우 어렵다. 오늘 세미나에서는 nonconvex한 variational inference optimization 문제를 convex relaxation을 통해 기존의 기법보다 global optimal에 가까운 해를 도출할 수 있는 방법에 대해 다뤘다. 특히 소개한 방법론은 도출한 해가 얼마나 optimal에 가까운지 평가할 수 있는 measure를 도출할 수 있다는데 큰 의의가 있다. 하지만 선형 모델에서 검증한 연구내용이 여러 개의 층으로 구성된 신경망에도 쉽게 확장 가능해 보이지는 않는다. 어떻게 신경망 모델에 적용할지에 대해서는 더 고민이 필요할 것 같다.

금일 세미나는 ‘Convex Relaxation for Variational Inference’라는 주제로 진행되었다. Bayesian Inference는 모집단의 prior와 likelihood에서 가장 근사한 posterior을 추론하는 것을 의미한다. 이를 보다 편리하게 접근하는 추론하는 방식을 Variational Inference라고 하는데, ELBO와 KL-Divergence를 사용하여 가능하다. 다시 말해 KL-Divergence를 minimize 시키는 파라미터를 찾는 것이 목표였다면, 이를 변형하여 ELBO를 minimize 하는 것을 목표로 한다. 이를 위해 통상적으로 coordinate ascent를 활용하는데, 오늘 소개한 내용은 coordinate ascent가 가지는 단점을 convex relaxation으로 보완하는 부분이었다. 이를 통해, convex하지 않는 formulation을 convex하게 approximate한 후에 최적화 문제를 풀 수 있게 한다. Optimizer를 여러가지 방식으로 변형하여 풀 수 있다는 점에 대해 숙지 할 수 있었다.

금일 세미나는 형록오빠가 ‘Convex Relazation for Variational Inference’라는 주제로 진행해 주셨다. 우리는 ‘Inference’라는 용어를 쉽게 접할 수 있다. Statistical Inference는 모집단에서 표본을 추출한 뒤 표본을 대표하는 표본에 대한 함수 통계량을 정의한 후, 해당 통계량을 통해 모집단을 추론하는 과정을 statistical inference라 한다. Bayesian Inference는 Statistical Inference의 한 방법으로, 모집단의 prior와 likelihood로부터 posterior를 추론하는 과정을 의미한다. Variational Inference는 posterior분포를 다루기 쉬운 확률 분포로 근사하는 과정을 의미한다. Posterior를 계산하는 과정에서 marginal probability(evidence), likelihood prior을 복잡하게 모델링한 경우 계산이 어렵기 때문에 이러한 추론 과정을 필요로 한다. 이 때, 계산이 복잡한 evidence는 ELBO와 KL Divergence의 합으로 구할 수 있다. 따라서 minimize KLD, maximize ELBO를 통해 도출할 수 있게 된다. maximize ELBO문제를 해결하기 위해 coordinate ascent를 활용한 Bayesian linear regression문제로 formulation할 수 있다. Coordinate ascent는 nonconvex problem에 대해 optimal값을 보장해주지는 않는다는 한계가 있다. 오늘 소개한 논문 convex relaxation for variational inference는 coordinate ascent보다는 더 나은 local optimal을 제시한다고 주장한다. Non convexity를 제공하는 제약조건을 convex form으로 relaxation함으로써 convex problem으로 변환시키는 일종의 approximation을 하는 개념이라고 할 수 있다. 해당 논문은 우리가 알아야할 통계적 지식을 기반으로 최적화 문제를 해결하고자 했다. Optimizer에 대해 크게 고민해볼 기회가 없었는데, 오늘 전반적으로 다루어진 통계학내용과 더불어 최적화 기법에 대해서도 평소에 충분히 수용하고 있어야겠다는 필요성을 느낄 수 있는 시간이었다.

이번주 세미나는 Convex Relaxation for Variational Inference 를 주제로 진행 되었다. 지난주에 배웠던 Bayesian Inference 와 새롭게 배운 Variational Inference 에 대해 배울 수 있었다. Bayesian Inference 를 배울때 예를 들었던 동전 던지기 방법에서 기존 우리가 아는 방법인 frequent 방법의 Maximum likelihood inference 와 Bayesian 방법의 사후분포(Posterior Inference) 의 차이점에 대해 이해 할 수 있었다. 특히 이번에 Approximate Inference 의 방법의 경우 비슷한 함수를 통해서 추정하는 방법으로 계산이 좀더 편하게 하는 방법에 대해 알 수 있었다. 하지만 정확도가 떨어지는 단점이 있어 이를 좀더 개선하는 방법으로 CRVI(convex Relaxation for Variational Inference) 를 공부하였고 이로 인하여 evidence 에 가장 근접하는 elbo(evidence lower bound)를 얻을 수 있다. 세미나 시간에 non-convex term 으로는 local Optimal 에 빠져 쉽게 계산되지 않는 방법을 convex 함수로 바꾸어 Global Optimal 에 갈수 있게 변환 하는 방법을 알려주었는데 사실 너무 어려워 이해는 잘 못하였지만 이런 내용이 있다 라는 부분을 알고 있다가 좀더 이해가 되면 다시 한번 공부를 했으면 좋을 것 같았다.

오늘은 형록이 형이 “Convex Relaxation for Variational Inference”라는 주제를 가지고 세미나를 진행하였다. 저번 주 민정이가 발표한 “Understanding Uncertainty and Bayesian Convolutional Neural Networks”라는 주제의 연장선상에 있어 이해하기 참 좋았다. 먼저 본 세미나를 들으면서 느낌점은 Bayesian Approach는 아주 유용한 접근법이지만 Hyperparameter가 많다는 점을 느낄수 있었다. Bayesian Approach에서 가장 중요하게 생각하는 문제는 Posterior density function과 가장 유사한 function을 찾아가는 과정이었다. 처음에는 Posterior density function을 모르는데 어떻게 유사도를 측정할 수 있는가 라는 의문이 들었지만, Kullback-Leibler Divergence라는 기법을 통하여 Posterior density function을 모르는데도 불구하고 두 확률 분포의 유사도를 측정할 수 있다는 것을 알게 되었다. 또한, Posterior density function과 가장 유사한 분포를 찾아갈 때 크게 Monte Carlo Sampling과 Approximate Inference 방법론에 대해 설명 들을 수 있었다. Monte Carlo Sampling 기법은 Approximate Inference보다 간단하지만, 복잡한 데이터에 계산량이 크게 증가하는 단점을 가지고 있다. 반면 Approximate Inference는 최적화 기반으로 계산량이 크게 줄지만 정확도를 알 수 없다는 단점을 가지고 있다. 오늘 세미나에서는 Approximate Inference의 단점인 정확도 계산을 하지 못한다는 것을 극복한 논문을 소개해 주었다. Convex Relaxation for Variational Inference에서는 제약 조건의 Nonconvex part를 Relaxation하면서 Posterior density function과 가장 유사한 분포를 찾아간다. 여기서 Relaxation 정도를 바탕으로 정확도를 산출하였다. 오늘 초심자도 이해할 수 있도록 잘 설명해준 형록이 형에게 감사하다는 말을 전하고 싶다.

금일은 Variational Inference를 주제로 한 세미나를 들을 수 있었다. 해당 세미나에서는 먼저 기본적인 Bayesian Rule에 대한 설명으로 시작 되었고, 이후 동전 사례를 통해 Frequentist적인 관점과 Bayesian적인 관점의 차이에 대한 설명이 이어졌다. Bayesian Rule은 우리가 알고 있는 Likelihood(Model)와 Prior(Assumption)를 활용하여 우리가 모르는 Posterior를 추정하는 방법을 의미한다. 여기서 Likelihood란 주어진 Data를 확률 Model을 활용하여, parameter가 얼마나 나올법한가에 대한 가능도 함수라 할 수 있겠다. 동전 던지기 사례를 통해 Frequentist 관점에서는 parameter의 추정값이 MLE(Maximum Likelihood Estimator)에 따라 1로 나오지만, Bayesian 관점에서는 prior와 likelihood의 곱의 계산으로 Posterior를 추정할 수 있게 된다. 그러나 실제로 prior와 likelihood의 곱으로 그냥 문제를 풀 수 있는 경우는 적기 때문에 Posterior를 근사적으로 찾을 수 있는 Approximate Bayesian Inference 방법을 사용하게 된다. Approximate Bayesian Inference 방법을 사용하면, 우리는 Posterior를 정확히는 모르지만 KL-Divergence를 활용해 우리가 찾고자 하는 함수와의 거리가 가장 가까운 Posterior를 찾을 수 있다.
이번 세미나는 지난번에 GAN 관련해서 진행 했던 세미나에서 일부 들을 수 있었던 내용이며, 지난주 Uncertainty를 주제로 진행 했던 세미나에서도 일부 들을 수 있었던 내용이었다. 하지만 세미나를 들을 당시에는 얼핏 들은 것처럼 느껴졌지만 제대로 이해하지는 못하고 있었던 것 같다. 이 부분에 대해서 반성을 하며, 한 달에 한번 정도는 들었던 세미나를 리뷰할 수 있는 시간을 만들어야겠다는 생각을 했다. 새로운 개념에 대해서는 지속적인 리뷰와 반복이 되어야 지식으로 쌓일 수 있다는 것에 대해 다시 한번 고민하게 해 준 형록이에게 감사함을 표한다.

저번 세미나에 이어 베이지안 관점의 이론들을 발표해 주셨다. 베이즈 접근방법은 대상의 사전확률과 우도를 이용하여 대상의 사후확률을 추정한다. 이는 데이터의 양이 충분하지 않을 때 빈도주의적 접근방법에 비해 좋은 성능을 보인다. 하지만 특정 경우를 제외하면 대부분 계산이 쉽지 않기 때문에 이를 근사적으로 추정하는 베이즈 추론 방법론을 사용한다. 베이즈 추론 방법에는 Sampling-based와 Approximate Inference의 두 가지 방법이 존재한다. Sampling-based 방법은 많은 수의 샘플링 결과를 통해 직접 사후확률분포를 구하는 것이다. 이는 매우 많은 데이터를 필요로 하며 계산의 시간적 비용 또한 높다. 반면에 Approximate Inference는 사전 지식을 통해 사후분포를 특정 분포로 가정하고, 그 분포가 실제 사후분포와 가장 비슷해지게하는 파라메터를 찾는다. 이러한 접근법의 대표적인 방법론이 Variational Inference이다. Variational Inference는 사후분포 p 를 근사하는 q의 파라메터를 KLD(q||p)를 최소화 시킴으로써 도출해낸다. 이 때, KLD는 계산이 불가능하므로 계산이 가능한 ELBO를 최대화함으로써 최적화가 수행된다. 이 과정에서 일반적으로 coordinate ascent 방법론을 사용하는데, 이를 이용할 시 쉽게 지역 최적해로 수렴하게 된다. 반면에 특정 제약조건을 무시하고 최적화 문제를 convex하게 바꾸어 푸는 Convex Relaxation 방법론을 적용하면 기존의 방법론보다 더 좋은 해를 도출할 수 있으며 전역 최적해에 얼마나 근접하였는지 알 수 있다고 한다.

금일 세미나는 Variational Inference를 중심으로 진행되었다. Bayesian inference를 직접적으로 계산하기에 많은 어려움이 따르기 때문에 결구 근사(approximation)을 하게 되는데, 대표적으로는 monte carlo sampling과 approximate inference가 있다. Variational inference는 그 중 후자에 속하는 것으로 최근에는 신경망 기반 generative model에 주로 사용되고는 한다. Approximate inference는 최적화 기반 알고리즘이며 문제를 어떻게 구성하느냐에 따라 gradient descent, coordinate ascent 등의 최적화 기법을 사용해서 풀게 된다. 하지만, 두 기법 모두 nonconvex한 상황에서 local optimum에 쉽게 빠지게 되며 이를 해결하기 위한 연구들이 진행되고 있다. 금일 소개한 논문은 convex relation for variational inference인데, 제목에서 알 수 있듯이 convex relaxation을 통해 coordinate ascent보다 global optimum에 가까운 해를 도출하는 기법에 관한 것이다. 예측 성능과는 별개로 모델에서 얻은 solution이 얼마나 최적해에 가까운지를 평가할 수 있다는 것이 의미가 있다고 생각되었다.

이번 세미나의 주제는 convex relaxation for variational inference이다. 베이시안 추론은 실험 결과에 더해서 추정한 분포를 더해 추론한다. 분포의 경우는 여러 가지가 있지만 보통 경험적으로 선택을 한다. KL divergence를 베이즈 룰을 통해 전개하면 결과적으로 KL divergence와 Evidence lower bound(ELBO)의 합이 상수가 된다. 즉 KL divergence를 최소화 시키는 것과 ELBO를 최대화 시키는 것이 동일한 개념이 된다. 최적화에서 local optimal과 KL divergence가 밀접한 관계를 갖기 때문에 ELBO를 대신 이용하여 접근할 수 있다. 학부 때 배웠던 최적화에서는 베이스 이론을 기반으로 접근한 적이 없었기 때문에 새롭게 느껴졌다. 이러한 방법들을 보면 학부 때 배워왔던 것들이 점점 작아지며 배울 것들이 정말 많다는 것을 다시 느끼게 되었다.