- 2023년 4월 7일 오후 3:01
- 조회수: 20143
REFERENCES
INFORMATION
- 2023년 4월 7일
- 오후 12시 ~
- 고려대학교 신공학관 218호
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

본 세미나는 인과추론에 대하여 창현이가 진행하였다. 대부분의 세미나가 특정 방법론의 특정 모델, 아키텍처를 다루는 내용이 많았는데, 본 세미나는 인과관계라는 참신한 주제로 진행되었다.
연구를 진행하면서 사용하는 다양한 인공지능 모델은 입력 데이터와 출력 데이터간의 상관관계를 학습을 목표로 한다. 하지만 여기서의 상관관계는 예측을 주 목적으로 삼는 반면, 본 세미나의 주제인 인과관계는 원인을 설명하는 것을 목표로 한다는 점에서 둘 간의 차이가 있다. 흔히 설명가능한 인공지능으로 많이 사용되는 SHAP, LIME과 같은 경우에도 예측에 중요한 변수, 즉 높은 상관관계를 갖는 변수를 찾을 수는 있지만 인과관계를 명확히 파악하지는 못하는 것을 확인할 수 있었다.
인과관계 분석 방법은 1) 랜덤화 추출, 2) 인과 그래프 모형, 3) 잠재적 결과 3가지로 나뉠 수 있다. 랜덤화 추출에는 원하는 변수만 변경시키는 A/B 테스트와 강화학습 기반으로 탐색 및 활용을 최적화하는 Multi-Armed Bandit 방법이 있다. 인과 그래프 모형의 경우 Directed Acyclice Graphs라는 그래프 형식으로 인과관계를 표현하는 방법으로, 흔히 알려져있는 Bayesian Network라고도 불린다. 잠재적 결과의 경우 관측되지 않은 가상의 결과를 고려하여 처리 효과를 계산하는 방식이었다.
대학원에 진학해서 여러 프로젝트를 통해 인공지능을 통한 예측, 분류, 이상치 탐지 등 다양한 task를 접할 수 있었다. 하지만 본 세미나를 청취한 후 정작 결과에 대한 원인을 밝히는 부분에 대해서는 깊게 생각해보지 못했다는 생각을 했다. 상관관계 뿐 아니라 인과관계에 대해서도 생각해보는 유익한 세미나였고, 세미나 준비를 위해 고생한 창현이에게 고마운 마음을 전하며 세미나 후기를 마친다.

오늘은 인과 추론이라는 개인적으로 생소한 주제가 소개되었습니다. 보통은 예측 모델의 결과 값을 해석할 때 y에 지대한 영향을 주는 x를 찾고 영향도를 파악하면서 마무리합니다. 다만 이러한 해석은 x와 y의 관계가 우연인지 인과 관계가 존재하는지는 알 수 없는 한계가 있습니다. 인과 추론를 활용하면 이러한 문제를 해결할 수 있습니다.
처음 소개된 방식은 무작위 추출 방법입니다. A/B Test로 잘 알려진 방식도 무작위 추출 방법의 일부이며, 웹에서도 사이트 재편 등 효과를 측정할 때 자주 사용하는 방식입니다. 웹 사이트를 예로 들면 웹 재편 전(A)과 후(B)의 두 사이트를 모두 서비스하면서 재편 후 방문객 증가 등의 효과가 통계적으로 유의미하게 나타나는지 확인하는 방식입니다. Greedy, Upper Confidence Bound 같은 강화 학습과 접목한 방식도 소개되었는데 무작위 추출 방식보다 적은 추출 만으로도 유의성을 검증할 수 있겠다는 생각이 들었습니다.
두 번째는 DAG 그래프를 활용하는 방식입니다. 개인적으로 제조 공정의 데이터 간 관계를 그래프로 추론하고 있어서 관심있게 들었고, 공정을 시간 순으로 나열한다면 인과 추론 방법에도 적용할 수 있을 것 같은 생각이 들었습니다. 다만 Edge의 연결은 도메인 지식은 어느 정도 있어야 가능하겠다는 생각이 들었습니다.
마지막으로는 잠재적 결과를 활용하는 방식입니다. 특정 모델을 활용하여 처리하거나 처리하지 않은 개체의 추정 값을 예측하는 방식으로 실제로는 둘 중 한 가지 케이스만이 존재할 수 밖에 없어서 반사실을 활용하여 이를 구합니다. 마지막 방법론은 정확한 이해를 위해 좀 더 공부를 해야 할 것 같습니다.
오늘 세미나 내용 중 몇몇 방법론은 이해하기가 어려웠는데 인과 추론의 실 예가 추가된다면 좀 더 이해하기 쉬울 것 같습니다. 다음 세미나에서 유사 주제를 다룬다면 그 부분의 추가 설명을 부탁하고 싶습니다. 고생 많으셨습니다.

이번 세미나는 인과추론이라는 주제로 진행되었다. 항상 딥러닝 혹은 머신러닝의 최신 방법론 또는 새로운 Task에 대해서 세미나를 통해 공부했었는데 인과추론이라는 주제는 굉장히 생소하게 느껴졌다. 하지만 대부분의 딥러닝 방법론이 가지고 있는 문제로 문제를 잘 풀긴하는데 어떻게 잘푸는지 구체적으로 알 수 없다는 블랙박스의 문제는 굉장히 크고 실제로 업무를 진행할 때도 유사한 사례가 있었는데 제조현장에서 불량을 판정할 수 있는 모델을 열심히 만들었고 적용하고자 하여도 구체적으로 그 이유를 설명하기 힘들기 때문에 실제 현장에 적용하기도 힘들고 보고하기도 힘들고 여러모로 고생했었던 기억이 난다. 이번 세미나는 이러한 상황에서 어떠한 것이 인과관계를 가지고 있고 그러한 관계를 찾기 위하여 추론하는 과정에 대해서 설명하고 있다. 세미나에서 Randomization, DAG그래프, Potential Outcome으로 분류한 인과관계 분석 방법을 설명하였고 주제의 도입부터 차근차근 예를들어 설명하였기에 물흐르는듯이 이해하면서 청취할 수 있었다. 하지만 다듣고 나서 그래서 어떻게 인과관계를 찾는다는거지? 라는 물음이 생기며 다시 머리속이 복잡해지는건 피할수 없었다... 관련하여 더 찾아보고 공부를 해야겠다는 생각이 들었다. 색다른 주제로 모델의 성능 뿐만이 아니라 인과관계 및 추론에 대해서도 생각해볼 수 있는 계기가 되어 의미 있는 시간이었고, 해당 세미나 준비를 위하여 고생한 김창현 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 상관관계와 인과관계의 차이점을 설명한 후에 인과관계를 분석할 수 있는 다양한 방법을 설명하는 방식으로 진행되었다. 상관관계는 데이터 내 여러 변수 사이에 연관성이 있는지 파악하는 것이다. 예측 모델은 데이터 내 여러 변수의 상관 관계를 학습하고 이에 기반하여 다양한 task를 수행하게 된다. 하지만 상관관계는 예측 결과에 대한 궁극적인 원인을 설명해주지는 못한다. 이러한 상황에서 필요한 것이 인과추론이다. 인과관계를 추론하는 방법은 크게 랜덤화 추출, 인과 그래프 모형, 잠재절 결과로 구분할 수 있다. 랜덤화 추출은 실제 결과에 원인으로 예상되는 변수 외에 다른 변수들은 고정한 뒤 해당 변수만을 변경해가며 실험하여 나온 결과를 기반으로 인과관계를 추론하게 된다. 인과 그래프 모형은 그래프 형태로 인과 관계를 그려 랜덤화 추출 대비 더 명확하게 인과관계를 파악하게 해준다. 마지막으로 잠재적 결과는 알 수 없는 "가상의 결과"를 고려해서 인과관계를 추론하는 방식이다. 최근에는 머신러닝, 딥러닝을 기반으로 이러한 추론 방식이 진행되고 있다. 원본 데이터 내에서 특정한 처리를 한 데이터와 그렇지 않은 데이터를 두고, 두 그룹에 대한 예측값의 차이를 기반으로 인과관계를 분석하게 된다.
본 세미나에서는 분석한 결과에 대한 원인을 어떻게 추론하는 다양한 방식을 설명 들을 수 있었다. 실제 현실에서도 이렇게 결과에 대한 원인을 분석하는 일은 매우 중요한 일이다. 데이터 분석가는 좋은 성능을 보여주는 예측 모델을 구축하는 데 초점을 두지만, 실제 분석 결과를 사용하는 현업 전문가 입장에서는 해당 결과가 어떻게 나왔는지, 왜 나왔는지가 더 중요할 수 있기 때문이다. 이번 세미나는 실제 현실에서 중요한 문제를 다룬 좋은 세미나였다고 생각한다. 앞으로는 모델의 성능을 높이고 연구의 성과를 내는 것 뿐만 아니라 그 결과에 대한 원인을 더 고민하고 분석할 수 있는 연구자가 되어야겠다고 생각했다.

다변량 분석을 위한 머신러닝에 대해 ‘상관관계와 인과관계를 구분하는 것은 매우 중요하다’라는 설명을 많이 들었음에도 이들을 정말 어떻게 구분해야 할지에 대해선 아는 바가 많이 없었는데, 이 세미나를 통해 대략적인 방향을 잡을 수 있게 되었다.
세미나는 크게 세 파트로 이루어진다. 첫 번째는 랜덤화 추출(Randomization)이며, 통계와 확률에 기반한 방법론인 무작위 임상 시험, Milti-armed bandit 등이 소개되었다. 두 번째는 인과 그래프 모형(Causal Graphical Models)이다. 이는 순환하지 않는 노드, 즉 부모 노드와 자식 노드의 집합으로 이루어진 그래프 모형으로서, Baysian Network라고도 한다. 마지막은 잠재적 결과(Potential Outcome)이며, 교란 변수를 고려했을 때의 처리 효과인 Conditional Average Treatment Effect(CATE)의 개념과 이에 대한 논문이 소개되었다.
랜덤화 추출 챕터에서 흥미로운 부분들이 많았다. 무작위 임상 시험은 조작변인의 여러 후보에 대한 각 종속변인을 반복적으로 추출해야 하므로 실험이 반복 가능할 때만 유효할 것으로 보인다. Multi-armed Bandit 중 epsilon greedy 방법은 강화학습에서 Q 함수가 최적의 경우로 수렴하지 않는 문제를 방지하기 위해 사용되었다고 한다. 항상 최적의 대안을 선택하지 않고 epsilon만큼의 확률로 대안을 무작위 선택하여 더 많은 가능성을 탐색하겠다는 것이다. 이때 후반부에 안정적인 수렴이 이루어지도록 learning rate decay처럼 epsilon을 점차 줄여나간다. 또한 Multi-armed Bandit 중 Upper Confidence Bound 방법은 현실에서의 통찰을 반영한 방법이라는 생각이 들었다. 이전까진 최상의 값을 내지 못해 많이 선택되지 못했던 대안에 대해 가중치를 높임으로써 전역해를 찾을 수 있는 가능성을 높이는 방법이기 때문이다.
세미나를 통해 머신러닝에서 중요한 개념인 인과관계와 인과 추론에 대해 정리할 수 있었다. 전보다 조금 더 넓은 시야를 갖도록 도와준 김창현 연구원님께 감사의 말씀을 전한다.

이번 세미나는 인과추론에 대해 진행되었다. 기존에 XAI라고 함은 딥러닝 모델의 해석 가능성 중상관관계를 위주로 설명한다. 물론, 상관관계도 그 자체로 의미가 있지만 이들은 인과관계에 대해서는 깊게 다루지 않는다. 우리가 흔히 들어본 SHAP도 상관관계에 기초한 XAI 방법론이다. 본 세미나는 내가 알던 상관관계가 아닌, 인과관계에 대해서 다룬다. 인과관계는 한 문장으로 요약하면, 한 변수가 다른 변수의 원인이 된다는 것을 설명하는 것이 목적이다.
여러 인과추론 방법론 중 본 세미나에서는 크게 3가지를 소개한다. 먼저 Randomization은 실험기반의 방법론으로, 측정하고자 하는 변수만 바꿔가며 실험한다. 우리가 흔히 아는 Greedy 알고리즘도 여기에 속한다. 두 번째는, 그래프를 기반으로 인과관계를 설명할 수 있다. 예를 들어, Directed Acyclic Graph가 이에 해당한다. 각 변수의 관계를 그래프로 표현한 후, 이전 노드가 이후 노드의 원인이 되는 것으로 해석 가능하다. 세번째는 잠재적결과이다. 이는, 가상의 결과를 고려하여 효과를 계산한다. 이때는 교란변수를 고려하는 것이 중요하며, 머신러닝 뿐만 아니라 딥러닝을 활용해서 접근하는 것 또한 가능하다.
본 세미나를 통해 인과추론에 대해 접할 수 있었다. 인과추론은 현실에서는 매우 중요한 분야이지만, 인공지능 측면에서는 처음 접해보았다. 그만큼 아직까지 완벽하게 와닿지는 않지만, 프로젝트나 연구를 할 때, 한번쯤은 활용해 볼 만한 접근방법이라고 생각들었다. 나중에 기회가 되면, 상관관계뿐만 아니라 인과관계까지 고려하는 초강력 XAI를 만들어보고 싶다. 좋은 세미나를 준비해주신 김창현 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Causal Inference를 주제로 진행되었다. 인과추론이란 어떤 사건이 다른 사건의 원인이 되었다고 추론하는 것이다. 현상의 원인을 파악하기 위해서는 인과관계가 중요하다. 현재 머신러닝과 딥러닝 알고리즘은 데이터의 상관관계 패턴을 학습한다. 마찬가지로 XAI로는 인과관계에 대한 해석 불가한 단점이 있다.
첫 번째 소개된 인과관계 분석 방법에는 AB Test와 MAB가 소개되었다. 두 번째 소개된 방법은 DAG라는 그래프를 통한 방식으로 변수들의 결합 분포를 그래프로 나타낸 모형이다. 세 번째 소개된 방법은 Potential Outcome(잠재적 결과)로 관측되지 않은 가상의 결과를 고려해서 처리 효과를 계산하는 방식이다. 이 때 가상의 결과에 AI를 활용하여 예측한다. ML을 활용하는 방법에는 Metal Learners와 DL을 활용하는 방법에는 CRFNet이 소개되었다.
인과 추론 분야는 해당 세미나를 통해 처음 접하게 되었는데, 범용적으로 사용되는 파이썬 패키지가 있다는 것이 현업에서 많이 사용되고 있는 반증이라는 생각이 들었다. 상관 관계가 아닌 인과관계에 대한 정의에 대해서 고민할 수 있는 좋은 세미나였고, 앞으로 연구될 여지가 많이 남은 분야라는 생각이 들었다 생소한 분야임에도 좋은 세미나 준비하느라 고생했다고 김창현 연구원에게 얘기를 전하며 세미나 후기를 마친다.

데이터를 이용한 인과관계 추론 방법 세미나를 청취하였다. 세미나 시작에 앞서 상관관계 및 인과관계 차이점을 먼저 이해하고, 기존 XAI 기법들은 인과관계 추론에 적합하지 않다는 흥미로운 사실들을 접하게 되었다. 오늘 세미나에서는 XAI 기법이 아닌 3 가지 종류의 인과관계 추론 방법에 대해 배울 수 있었고, 개인적으로 2번째 방법인 DAG가 가장 인과관계 추론 목적에 알맞은 방법이라고 생각해보고 있다. 오늘 본인이 이해하기론 1번째와 3번째 방법의 핵심은 원인 요소가 있었을 때와 없었을 때의 결과 차이를 바탕하고 있는데, XAI에서 사용하고 있는 있었을 때와 없었을 때의 결과 차이 기반 분석 방법과 비슷해보여 과연 상관관계가 아닌 인과관계 추론을 수행하고 있는건지 의구심이 들었다. 넓게 보면 상관관계가 인과관계를 포함하고 있는 개념이기에 헷갈리는 것 같지만, 조금 더 고민해보면 좋을 것 같다. 개인적으로, 이전에 접해보지 못했던 세미나 주제여서 반가웠고, 좋은 세미나를 준비하느라 고생한 창현이에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.