- 2018년 11월 12일 오후 2:30
- 조회수: 718
김영훈
[발표후기]
제목: Graph-free Label Propagation with Collaborative Dual Evolving Network for Big Data
본 연구에서는 기존에 그래프에 기반한 Label Propagation 방법론의 한계점을 극복하기 위해 Deep Learning에 기반한 새로운 방법론을 제안하였다. 기존 방법론의 경우 그래프가 관측치가 늘어날 경우 메모리나 알고리즘 계산량이 관측치의 제곱에 비례해서 늘어난다는 한계점이 있다. 데이터의 양이 많지 않은 일반적인 데이터에는 효과적으로 적용될 수 있으나 데이터 수가 굉장히 많은 빅데이터들을 분석할 때에는 큰 한계점이 될 수 있다. 이러한 한계점을 극복하기 위해서 그래프 없이 Label 정보를 확산시킬 수 있는 방법이 요구된다. 본 연구에서는 Deep Learning 방법론의 계산상의 효율성, 일반화 오류 관련된 이점, 차원을 효과적으로 축소할 수 있는 이점 등을 토대로 새로운 Label Propagation 방법론을 제안했다. 제안 방법에서는 두 개의 Neural Netwrok를 이용하게 된다. 하나의 Network는 이진 분류를 통해 Label이 달린 데이터 주변에 있는 데이터들을 Candidate으로 찾는 역할을 한다. Candidate이 찾아지면 Propagate Label Network를 통해서 Candidate에 대해 Label을 부여한다. 이를 반복하면서 Label이 모두 부여될 때까지 학습을 진행시키면 모든 과정이 완료되게 된다. 실험을 통해서 제안 방법론이 기존의 방법론들보다 효과적임을 확인했다. 그리고 재미있는 사실은 Label이 Propage 해가는 과정에서 20% 정도의 데이터에 Label이 부여될 경우 분류기가 낼 수 있는 최기치 결과의 95% 이상의 성능을 보인다는 점이었다. 다른 데이터에도 실험을 해봐야 겠지만 모든 데이터가 학습에서 중요한 것은 아니라는 생각이 들었고, 관련해서 좀 더 이론적인 연구를 진행해 보고 싶어졌다.
질문 1. 해당 방법론에서 확률적으로 Candidate을 선택하는 것은 어떻게 하는 것인가?
답변. Propagate Path Net의 분류 확률을 기준으로 일정 수준 이상이 되는 관측치들을 선택해서 Candidate으로 설정한다.
질문 2. 해당 방법론을 이미지나 영상과 같은 고차원 데이터가 아닌 정형 데이터에도 적용 가능한 것인가?
답변. 해당 방법론의 아이디어는 꼭 고차원 데이터에만 적용할 수 있는 것은 아니고, Neural Network를 이용해서 분류가 가능한 데이터들에 모두 적용 가능하다.
질문 3. 초기 레이블이 달린 데이터들이 어떻게 선택되느냐에 따라서 결과가 달라질 것 같다. 이 부분은 어떻게 처리했나.
답변. 다른 준지도학습 방법론들처럼 초기에 어떤 데이터에 레이블이 있는지에 따라 결과가 달라지는 것이 맞다. 이를 고려하기 위해 실험에서 다양한 초기 관측치들을 랜덤으로 선택하고 실험을 하고 결과를 얻은 후에 결과들을 평균내었다.
[청취후기]
제목: 빅데이터 이노베이션
서울대학교 조성준 교수님께서 발표하신 기조 강연이었다. 빅데이터 시대에 맞춰서 데이터를 분석해서 유의미한 의미들을 추출해나가는 것은 무엇인가? 그리고 데이터를 이용해서 새로운 가치를 창출하는 것은 무엇인가에 대해서 말씀을 해주신 유익한 시간이었다. 많은 기업들이 데이터 과학에 관심을 가지면서 다양한 데이터들을 분석하고 결과를 도출하고 있다. 하지만 대부분의 경우는 우리가 데이터를 많이 가지고 있는데 여기서 어떠한 유용한 정보가 있을지 모르니 한 번 분석해보자는 접근이 많다. 하지만 이러한 경우 실제로 유용한 정보가 없는 경우가 많이 있다. 이는 마치 넓은 운동장에서 바늘을 찾는 것과 마찬가지이다. 그리고 어쩌다 유용한 정보가 찾아졌더라도 이를 가치 창출에 이용하기는 쉽지 않다. 이러한 한계를 극복하기 위해 우리는 최종적인 목표를 설정하고 이를 달성하기 위해 필요한 데이터와 방법론들을 체계적으로 설정할 수 있어야 한다. 특히 기업이나 정부와 같은 기관에서 빅데이터를 이용해서 새로운 가치를 창출하고자 한다면 상위 관리자들이 이를 잘 이해하고 체계적으로 기획할 수 있어야 한다. 확실히 데이터 과학을 연구하고 이를 다양한 산업과 정부 기관에 활용하고자 노력하고 계신 경험과 통찰이 녹아있는 발표내용이었다고 생각한다. 현재 많은 사람들은 인공진능과 데이터과학에 관심을 가지고 있다. 우리 인간이 가진 인식과 문제해결 능력을 뛰어넘는 인공지능 시스템을 통해 다양한 현실 문제들을 해결할 수 있다는 희망이 널리 퍼져있다. 하지만 많은 사람들이 희망을 오래토록 유지하기는 쉽지 않다. 우리가 생각하는 대로 새로운 가치들이 이러한 최신기술들을 통해 창출이 되어야 이 분야가 지속적으로 발전할 수 있을 것이다. 발표를 들으면서 어떻게 하면 데이터과학, 인공지능 기술을 통해서 새로운 가치를 창출할 수 있을지 고민하게 되어 의미있는 시간이었다고 생각한다.
제목: 선형정수계획을 이용한 양자 컴퓨팅 이진 논리 오라클 회로 최적화
양자컴퓨터는 지금의 컴퓨터의 계산 성능을 기하급수적으로 향상시킬 수 있는 핵심 미래 기술이다. 기존의 비트 단위의 연산이 아닌 양자 단위의 연산을 함으로서 계산 속도를 크게 향상시킨다. 이 양자 컴퓨터가 동작하게 하기 위해서는 회로의 설계가 중요하다. 우리가 기존의 컴퓨터에서 하던 방식으로 연산을 할 수 없기 때문에 우리가 원하는 결과를 얻는 회로는 새롭게 디자인해야 한다. 최근에는 이러한 회로 설계 관련해서 최적화 모델링 기법이 사용되고 있다. 이 문제는 일반적인 Mixed Integer Programming을 통해서 Formulation이 가능하다. 해당 논문이 제안한 Formulation은 회로의 논리적인 결과물은 유지하면서 양자 비용이라고 하는 목적식을 최소화하는 방법이었다. 사실 이 양자 컴퓨팅에 대한 기본 지식이 없었기 때문에 해당 회로가 어떻게 동작하는지 이해하기는 어려웠다. 관련 내용을 함께 연구하고 있는 연구원에게 질문을 했을 때 양자의 개념을 이해하는 데에만 6개월 이상의 기간이 소요되었다고 한다. 구체적인 내용을 이해하기 어려웠지만 흥미로웠던 점은 기존의 NP-Hard 문제를 해결하기 위해 고안된 양자컴퓨터의 회로를 NP-Hard 문제로 Formulation해서 풀 수 있다는 점이었다. 처음에는 복잡한 회로를 만들기 어렵겠지만 향상된 계산 성능으로 좀 더 어려운 회로를 만들고, 다시 문제를 Formulation 하는 선순환 구조 연구를 반복함으로서 궁그적으로는 굉장히 빠른 컴퓨터를 만들 수 있다는 생각이 들어 재미있었다. 양자컴퓨터가 나온다면 컴퓨터의 계산에 근거한 인공지능 학습 방법론들도 많은 발전을 이룰 것으로 예상되어 관련 학문에 지속적인 관심이 필요하겠다고 생각되었다.
제목: Markov Decision Process를 적용한 환자의 질병 예측 및 의료 행위 추천 모델: 의료 빅데이터를 중심으로
해당 연구는 환자의 시간에 따른 최적의 의료 행위를 추천해주는 방법론이다. 예를 들면 당뇨병 진단을 받은 환자의 과거 병력을 조사해서 해당 환자를 치료하기 위해 사용해야 하는 약물, 운동 요법, 식이 요법 등을 순서대로 추천해줘서 환자가 좀 더 빨리 병을 회복할 수 있게끔 도와주는 시스템이다. 일반적으로 인간 의사들도 환자의 과거 병력, 현재 상태, 검사 결과 등을 종합해서 해당 환자에 대한 처방을 내리게 된다. 모두가 다 데이터화될 수 있는 내용들로서 이것들을 잘 활용한다면 인간 의사의 진단보다 더 정확한 치료 방법을 제안할 수 있을 것이다. 인간 의사의 경우 고도의 지적 수련을 받은 전문가로서 많은 사람들이 신뢰하고 처방을 받는다. 하지만 인간의 한계점으로 인해 해당 환자의 다양한 데이터를 모두 고려하기는 힘들다. 그래서 인간 의사들의 경우 자신의 전문 질병과 관련한 핵심 정보만 추출해서 진단을 내리게 된다. 하지만 인공지능 시스템을 이용할 경우 한 전문의의 관점 뿐만 아니라 모든 전문의의 관점을 모아서 종합적으로 진단과 치료를 진행할 수 있게 된다. 그렇게 된다면 지금보다 훨씬 더 효과적이고 효율적인 의료시스템 체계를 갖출 것으로 생각된다. 발표 연구가 아직 초기 단계였기 때문에 간단한 실험 내용에 머물렀던 점이 조금 아쉽긴 했지만 지속적인 연구를 통해서 많은 사람들에게 도움을 줄 수 있는 시스템 까지 발전할 수 있을 것 같아 흥미롭게 보았다. 그리고 우리가 이러한 시스템을 통해 어떤 일을 해야 하고 이 시스템을 어떻게 관리, 운영 해나가야 할 지 고민해보는 계기가 되어 좋았다.