- 2018년 6월 4일 오후 1:00
- 조회수: 4859
INFORMATION
- 2018년 6월 4일
- 오후 1시 ~
- 고려대학교 신공학관 218호

TOPIC
OVERVIEW
청취자 후기

오늘 세미나에서는 Semi-supervised Learning에서 Label 정보를 Propagate 시켜가면서 Labeling을 하는 방법에 대해서 소개를 했다. Label
Propagation은 우리가 확실히 알고 있는 레이블 정보를 유사도가 높은 관측치들에게 한단계씩 전이해가는 방법이다. 대표적으로 Local Global Consistency 방법론이
있다. 이 방법은 Similarity matrix를 Classifying function matrix에 Iteratively하게
곱하면서 Label을 확장시켜간다. 이 방법은 Optimization 문제로 Formulation이 가능한데 이 Formulation에서 Inductive Learning을 위해 Optimization의 Regularization term을 유도할
수 있다. Manifold Regularization은 이
Regularization term을 활용하는 방법으로 다양한 분류기에 응용되서 사용된다. 이
방법은 관측치들 간의 유사도 개념을 효과적으로 활용하는 좋은 방법이지만 두 가지 한계점이 있다. 첫번째는
유사도가 거리에 기반하고 있기 때문에 고차원 데이터에는 적합하지 않다는 점이다. 두번째는 유사도 그래프
행렬이 관측치 수가 증가함에 따라 제곱에 비례해서 커지기 때문에 메모리와 계산 효율성 관점에서 한계를 보인다. 이를
극복하기 위해 Label Propagation path를 Deep
Learning 모델을 이용하는 방법을 소개했다. 연구를 진행하면서 Semi-supervised learning이 잘 되는 것도 흥미롭지만 분류기의 성능을 최대화하는 데 있어서
모든 데이터가 동일하게 영향을 주지 않는다는 Clue들을 찾을 수 있는 점이 더 흥미로웠다. 연구를 진행하면서 좀 더 들여다보고 공부를 해야겠다.

금일 세미나는 Label Propagation for
Semi-supervised Learning 이라는 주제로 진행 되었다.
Semi-supervised Learning 은 label 이 된 일부 data 를 기준으로 label 이 되지 않은 나머지 data 를 labeling 하는 것을 뜻한다. 오늘 소개된 논문에서는 Graph-Based Semi-supervised
Learning 을 제안 하였다. 가까운 data 나
같은 cluster 에 있는 data 는 비슷한 label 을 가져야 한다는 전제로 Similarity Graph matrix
를 기반으로 Label 이 Propagation 되는
방식이다. 이를 간단한 Toy Example 로 설명을 해주어
이해하기에 좋았다. Iteration 으로 계산 되는 부분이 결국
Optimization 관점으로 정리가 될 수 있어 최적의 해를 편하게 찾을 수 있다. 이런
장점이 있지만 Data 가 아주 클 경우 Similarity
Graph matrix 를 계산할 때 Computational complexity 문제가
있을 수 있기 때문에 발표자는 Similarity Graph matrix 없이 labeling 을 할 수 있는 새로운 모델까지 제안 하였다. 두개의 Networks 를 이용하여 하나는 labeling 가능여부를 판단하고
다른 하나는 가능여부를 기준으로 실제 labeling 을 진행 하는 방식으로 진행 된다. 이를 Collaborative Dual Evolving Networks 라고
하고 평가 결과 기존의 CNN, TSVM 같은 Model 대비
좋은 성능을 보임을 확인 하였다. 오늘 진행한 세미나를 통하여
Semi-supervised Learning 의 개념을 이해하고 기존 방식의 한계점부터 극복방안에 대한 새로운 연구방향까지 알 수
있어 좋았다.

금일 세미나 발표 잘들었습니다. 강화학습은 에이전트를 위한 환경을
만드는게 가장 큰 일이고 지도학습은 라벨링을 붙이는게 가장 큰 일입니다. 실제로 대부분이 hand craft식으로 사람 손이 많이 가는 작업이기도 합니다. 저
자신도 원래 현업에서도 반복적인 일은 정말 다 자동화를 해버리는 스타일이라 더 흥미로운 주제였습니다. 설명도
쉽게 해주셔서 잘 이해를 했습니다. 유사도 만드는 것의 과정과 그리고 교수님이 말씀하셨던 어떤 데이터를
가지고 하냐에 달리질 것이라 적용시 여러 가지로 실험을 해보아야겠다는 생각이 들었습니다. 그리고 label이 붙을 것에 대한 확률을 주는 모델과 클래스 구분을 하는 모델을 구분 지은것은 제가 연구하고 있는
주식 강화학습 쪽에 에이전트를 매수/매도하는 agent를
별도로 두어서 네트워크 구성하고 학습할려고 하는 부분인데 유사한 컨셉인 것 같습니다. 각 모델이 각자의
손실이 정의되어 최소화하는데 의의를 것도 비슷합니다. 하지만 실제로 오차 역전파를 통해서 같이 학습이
되게 가는것도 학습이 더 잘 될 것 같다는 생각이 들긴 했는데 말입니다. 혹시 그런 부분에 대해선 차후에
물어보도록 하겠습니다. 발표 잘들었습니다.

“물에 잉크를 떨어뜨리면 잉크가 물 속에서 퍼져나간다.” 직관적인
설명으로 세미나가 시작되었다. 본 세미나의 궁극적인 목표는 일반화가 잘 된 분류모델을 만들 수 있다는
것이었다. 서두의 그래프 기반 Co-training 등의
설명부터 차근차근 영훈 선배가 짚어주었다. Label Propagation은 가까운 쪽으로 확산된다는
직관적이며 단순함이 베스트라는 점을 강조해 주었다. 2004년
NIPS에서 처음 소개 된 LGC 방법을 선배의 발표를 통해 알게 되었고, Label을 붙이는 함수에 대해서도 ‘Sufficiently smooth’
, ‘Local consistency’ 핵심을 명쾌하게 설명해 주었다. 가까운 관측치들은 Label이 비슷할 것이다 라는 가정이 처음 들었을 때는 과연 그럴까? 라는
생각이 들었었다. 이에 영훈 선배가 궁금증을 해소해 주었다. Yij는 One-hot Vector와 유사하게 연산되고, Label이 없는
것은 모두 ‘0’ 으로 Zero-padding 처리해 input 공간의 사이즈를 조절한다고 한다. 영준 선배의 날카로운
질문이 이어졌다. 알파가 1이면 포뮬러가 Cluster 된다는 것이고 이럴 경우 F(0) 을 쓰면 안될 것이라는
점이다.
추후 활용 부분은 Outlier Detection에도 적용할 수 있다는
영훈 선배의 말에 더욱 집중을 하게 되었다. 이어서 영훈 선배가 제안한 알고리즘 ‘새로운 데이터가 input 됐을 때 Label을 붙이고 싶다.” 에 대해 LGC연구에서 더 나아간 Label이 있을 확률로 Candidate을 정해 원하고자 하는 모델을 만든 것을 상세히 설명해 주었다.
준지도 학습의 최근 연구동향과 최적화의 관점에서 풀어가는 일련의 과정들을 배울 수 있는 소중한 시간이었다.

금일 세미나 제목은 "Label Propagation for
Semi-Supervised Learning"이었다. 반교사 학습에서 그래프 구조를
기반으로 unlabeld data에 대한 labeling을
진행하는 방법에 관한 세미나였다. 관측치 노드들에 대한 그래프 구조가 주어졌을 때, unlabeled node는 근처에 있는 혹은 유사한 구조를 가지는 집단의
labeled node와 같은 label을 가질 것이라는 가정을 기반으로 알고리즘을 구성할
수 있다. 이를 Learning with Local and
Global Consistency라고 한다. 데이터셋에 대하여 label propagation 알고리즘을 반복적으로 적용하여 모든
unlabeled data를 labeling하게 된다. 이러한 transductive learning에서 일어나는 일을
optimization 형식으로 바꿔 manifold regularization을 사용한 inductive learning도 소개되었다. Inductive
learning은 단순한 labeling 작업에 그치지 않고 클래스를 잘 구분할 수 있는
경계선을 찾는 작업까지 포함한다. 하지만 data의 수가
많아지면 알고리즘의 정확도가 떨어지며 계산 속도에도 안좋은 영향을 많이 미치는 것으로 알려져 있다. 발표자는
이러한 한계점을 해결하기 위해서 2개의 CNN을 사용한 label propagation algorithm을 제안하였다. 첫
번째 CNN은 labeled-unlabeled를 구분하는 binary classification CNN이며, 두 번째 CNN은 어떠한 label을 할당할지 분류하는 multiclass classification CNN이다. 첫 번째
모델을 통해서 'label을 붙일만한 candidate'를
예측하고, 두 번째 모델을 통해서 '어떠한 label을 붙일 것인지'에 대한 결정을 내리는 과정을 반복하여 사용하게
된다. Training Error가 0이 될때까지 모델을
학습하지 않더라도 좋은 성능을 낼 수 있다면, 다양한
semi-supervised learning 상황에 사용할 수 있을 것으로 생각된다. 배경설명부터
발표자의 개인연구에 대한 내용까지 들을 수 있어 유익한 세미나였다고 느꼈다.

금일 세미나는 Semi-supervised learning을 위한 label propagation에 대한 개념과 propagation을
하는 일반적인 방식, 그리고 발표자가 제안하는 새로운 방식을 소개하는 자리였다. Label Propagation은 실제 label의 가까운 unlabeled 관측치에 label을 부여한다는 개념이다. 기존에는 관측치 간의 거리에 대한 가중치를 similarity graph
matrix로 구성하고, 이 matrix를 사용하여
어떤 unlabeled 관측치가 어떤 클래스에 분류되는 지 알 수 있는 LGC(Learning with Local and Global Consistency) 알고리즘이 성행했다. 이 알고리즘은 iterative 또는 최적화 방법으로 적용될 수
있는데, 두 방법 모두 결과적으로 같은 formulation으로
귀결되며, 어떤 unlabeled data가 어떤 label로 분류되어야 적합할 지에 대한 정보를 제공한다. 발표자는
앞서 소개한 similarity graph matrix가 ‘차원의 저주’와 ‘비효율성’과 같은 한계를
유발한다고 판단했고, CODEN(Collaborative Dual Evolving Networks)를
제안한다. 이는 기존 방법과 달리 similarity graph
matrix과 같은 prior information이 필요하지 않고, 두 개의 convolutional neural networks를
사용하여 label propagation을 진행한다. 첫
번째로는 unlabeled data에 대한 label 유무를
결정하고 두번째로 이 labeled 관측치들에 대한
classification을 수행하여 실제 label과의
accuracy를 비교하여 검증한다. 반복적으로 이 두 가지 단계를 수행하며, classification accuracy가 100%일 때 labeling을 중단한다. 이 방법론은 딥러닝 알고리즘을 사용하기
때문에 보통 우려되는 ‘일반화의 오류’가 적용되지 않는다. 금일 세미나는 semi-supervised learning에 대한 이해를 높이고 딥러닝 알고리즘의 위력에 대해 생각해 볼 수
있는 시간이었다. 또한, 발표자가 다소 간단한 방법으로 문제
상황을 풀어가는 과정을 보며 본질적인 문제 해결에 대한 접근이 연구의 핵심이라는 것을 되새길 수 있었다.

금주 세미나는
Unlabeled Data 문제를 해결하기 위한 대표적인 Label
Propagation 방법의 구조 및 한계점을 설명하였다.
다양한
Label Propagation 방법 중 Manifold
Regularization를 기반으로 한 방법을 소개하였다. Manifold
Regularization 방법은 기본적으로 Graph-based Similarity Matrix를
활용하기 때문에 정확한 Similarity
Matrix를 추정하는 것이 가장 중요한 부분이다. 하지만 고차원 문제에서 Similarity Matrix를 정확히 추정하는 것은 매우 어려운 문제이기
때문에 Cotraining 개념을 활용한 연구를 소개하였다.
Unlabeled Dataset 중 Label Propagation를 진행 할 후보군을 추려내는 모델과, 후부군에 대해 정확한 Label를 추정하는 모델, 즉 두 개의 모델을 반복적으로 학습시키는 방법이다. Deep learning 장점을 살려,
Cotraining 방법의 한계점을 극복해나가는 모습을 보여주었다. 향후 연구에 대해 기대가
된다.

오늘 세미나는 준지도학습 시 레이블 전파를 하는 방법인 LGC에 대한
간단한 Toy example 부터 시작하여 기존 방법들에 대한 설명 그리고 그것의 문제점, 그 동안 연구가 진행되어온 방향 그리고 이를 해결해가는 방법까지 총괄적으로 아우르는 시간이었다. 그리고 연구를 어떻게 발전시켜야하는가 그리고 어떤 부분에서 아이디어를 생각해보고 낼 수 있는가에 대한 것까지
배울수 있는 유익한 시간이었다. 준지도 학습은 데이터에 레이블을 예측하는 모델을 사용할 때 레이블이
존재하는 데이터만을 학습데이터로 사용하는 것이 아니라 레이블이 없는 데이터를 사용해 데이터의 manifold를
반영하여 레이블 예측의 정확도를 높이게 된다. 준지도 학습의 방법론에는 co-training, self-training 등 여러가지가 존재하지만 오늘 다뤄지 것은 Graph-Based 준지도 학습이었다. Graph-Based이기에
관측치 간의 그래프를 그려야하며 그 엣지가 거리의 역수로 보통 계산되기에, 고차원일때, 그리고 데이터 관측치의 수가 많을 때 계산 비용이 크다는 단점이 수반될 수 밖에 없다. 따라서 요즘의 데이터(이미지, 텍스트, 소리 등)에 적용될 때 한계가 존재한다. 이를 연구자는 복잡도가 큰 딥러닝모델로 해결하였다. 그래프를 그리지
않은채 레이블이 있는지 아닌지 구별하는 모델로 레이블이 없는 데이터 가운데 레이블이 있을 확률의 결과를 그래프의 유사도를 대체하였고 이 모델의
결과로 나온 후보군부터 기존에 있는 레이블을 활용해 학습된 모델로 레이블을 전파시킨다. 발표자는 연구
초반과정이라고 하였지만 흐름이 매우 논리적었다. 또한 연구의 흐름의 논리를 설명하는데 많은 근거자료를
제시함으로써 얼마나 연구가 탄탄하게 흘러가고있는지 짐작케했다.

오늘 세미나는 2004년 NIPS에서
발표된 이후 현재까지도 많이 언급되는 Learning with Local and Global
Consistency 논문을 중심으로 그래프 기반의 준지도학습(Graph-based
Semi-supervised learning, GSSL)에 대한 개괄적인 이해를 돕고, GSSL이
갖는 단점을 극복하는 영훈이 형의 SSL 연구에 대한 토의가 이루어졌다. 위 논문을 필두로 현재까지도 GSSL 연구는 활발히 진행되고 있지만, 크게 보았을 때 A) 기저가 되는 유사도 그래프의 품질에 따라 알고리즘의
성능이 크게 좌우되고 B) 관측치의 수가 많은 데이터의 경우 유사도 그래프를 구성하는 행위 자체가 비효율적이라는
점이 치명적인 단점으로 꼽히곤 한다. LGC 모델의 경우 유사도 그래프를 구성하고 이웃하는 관측치들의
정보를 활용하여 클래스 레이블이 없는 관측치들에 레이블을 붙여주는 구조이다. 영훈이 형의 연구에서 제시하는 Collaborative Dual Evolving Networks(CODEN)은 유사도 그래프 없이 레이블을 propagation하기 위해 2개의 인공신경망 모델(1:Propagate Path Net, 2:Propagate Class Net)을 갖고 있다. 절차는 다음과 같다. 1) Propagate Path Net은 labeled instance와 unlabeled instance를
분류하도록 학습이 되며, 확률 값으로 분류하는 인공신경망의 특성을 활용하여 unlabeled instance들 중 높은 확률로 labeled data로
예측되는 instance에 label을 붙여준다. 2) Propagate Class Net은 Propagate Path Net이
만들어주는 데이터를 원래 class label을 제대로 예측할 수 있도록 학습한다. 위 1과 2를 반복하다보면
모든 데이터에 label을 부여함과 동시에 추후에 새롭게 제공될
test data에 대해서도 분류를 할 수 있다는 장점을 가진다.
비슷한 연구를 진행하고 있는 입장에서 문제상황에 대한 접근 방식이 나와는 조금 다르지만, 아이디어 자체가 굉장히 신선하게 다가왔다. 개인적으로 핵심은 'Understanding deep learning requires rethinking generalization' 논문에
등장하듯 파라미터가 충분히 많은 인공신경망은 random한 class
label에 대해서도 충분히 학습할 수 있다는 점을 착안하여 Propagate Path Net을
구성한 점이라고 생각한다. 추후에는 MNIST 이외의 데이터에
대해서도 적용해보고, labeled data가 극단적으로 적은 상황에 대해서도 실험을 진행하여 성능을
비교해보면 좋을 것 같다. 얻어가는 것이 많은 세미나였다.

오늘 세미나는 Learning with Local and Global
Consistency(LGC) 논문을 중심으로 graph-based semi-supervised
learning(GSSL)에 대해 다루었다. 준지도학습에서 GSSL 연구가 매우 활발히 진행되고 있지만 여전히 초기에 그래프를 어떻게 그리는지에 따라 성능이 매우 좌우되며, 관측치가 많을 때 그래프를 그리기 위한 연산이 매우 비효율적이라는 단점이 존재한다. LGC 역시 GSSL 방식으로 이웃하는 관측치의 레이블을 이용하여
레이블이 전파되듯 점점 모든 관측치의 레이블을 붙여주는데, 최적화 식으로 문제를 풀 수 있다는 부분이
인상 깊었다. 영훈이가 제안한 Collaborative Dual
Evolving Networks(CODEN)는 기존 그래프를 완전히 고려하지 않고, 동일한
역할 을 할 수 있는 인공신경망 모델을 제안하였다. 하나는 레이블의 유무에 대한 확률을, 다른 하나는 레이블이 무엇인지를 결정한다. 이 둘을 반복하다 보면
모든 데이터에 레이블이 부과되며, 새로운 데이터에 대해서도 분류가 가능하다는 장점이 있다. 기존 연구에서 아이디어는 얻었지만 모델링 과정은 완전히 관점을 바꿔 진행한 부분이 매우 인상 깊었으며, 발표 장표나 설명이 매우 훌륭했다.

이번 세미나는 Label propagation for
semi-supervised learning을 주제로 진행되었다. Label propagation은
소수의 Labeled data와 다수의 Unlabeled data가
있는 상황에 적용할 수 있는 Semi-supervised learning 방법론 중 하나로 다수의 Unlabeled data에 가장 합리적으로 Label을 추정해주어
이용할 수 있도록 하는 데에 그 목적이 있다. 세미나에서 소개한 한 가지 방법론은 Learning with local and global consistency로 두 가지 가정을 따른다. 첫번째 가정은 Local consistency로 가까이 있는 관측치는
같은 Label을 가진다는 것이다. 두번째 가정은 Global consistency로 같은 클러스터 혹은 같은
sub-manifold에 속한 관측치는 같은 Label을 가진다는 것이다. 두 가정 아래 정의된 classification function F에
따라 Label이 있는 관측치로부터 Label이 없는 관측치로 Label 정보가 전파된다. t번째
F와 (t+1)번째 F의 관계는 가중치가 있는
간단한 점화식으로 표현되며 이 식을 통해 F의 수렴 값을 쉽게 찾을 수 있다. 여기서 발표자가 해당 수식을 먼저 설명하고 이에 따른 토이 예제를 만들어 예시를 통해 다시 한번 설명한 점이
좋았다. 그러나 이 방법론을 사용하기 위해서는 관측치들간의 관계 정보가 반영된 그래프가 필요하다. 때문에 다루는 데이터의 사이즈가 크면 클수록 Computing cost가
지수적으로 늘어나게 된다. 발표자는 이러한 한계점에 착안하여, 그래프
없이 Label을 propagation하는 방법에 대해서
제안하였다. 이번 세미나에서는 선배 연구원이 어떤 연구를 하고 있고,
그 연구의 Motivation은 어떤 것인지, 문제를
풀기 위한 선배 연구원의 접근 방식은 어떤 것인지 상세히 알 수 있어 흥미로우면서도 유익한 자리였다.

금주 참석한 세미나는 ‘Label Propagation for
Semi-supervised Learning’이라는 주제로 주어진 일부 Labeled data를
확산시켜 Unlabeled data의 Label을 찾는(Label Propagation) 직관적인 방법론에 대해 설명해주셨다. 먼저 Semi-supervised Learning은 Labeled data를
통해 학습하면서 Local data distribution도 반영하여 Generalized Classification Model을 구축해주는
것을 의미하며, 대표적으로 ‘Graph-based
Semi-supervised Learning’이 활발히 연구가 되어오고 있다. 이는 Similarity(distance)를 계산하고 이를 기반으로 Graph를
구축하게 되는데, 이때 ‘Local consistency’와 ‘Global consistency’를 만족한다는 가정을 만족한다면 Label
Propagation의 개념을 적용할 수 있다. Label Propagation을 적용시킨 대표적으로 알고리즘으로 LGC가 있다. LGC의 경우
Iterative Model로의 공식화뿐만 아니라 최적식으로 Label Propagation 과정을
공식화할 수 있다. 즉 최적의 Classification이
구현 가능하지만 LGC과정에서 Similarity(distance)를
계산해야하는 과정을 필요로 하고, 이는 상당히 많은 계산량을 요구하기 때문에 고차원 데이터에는 적용
시키는데 어려움이 있다. 이에 영훈 선배는 Label
Propagation의 경우 Labeled data에서 가까이 있는 data에게 Label을 붙여준다는 개념에서 Similarity graph를 연산하지 않고, 가까이 있는 data를 찾는 방법론을 제안하였다. 과정은 다음과 같다. 먼저 두 개의 CNN 구조를 구축하는데, 첫 번째 네트워크는 Label의 유무를 확인하는 역할, 두 번째 네트워크는 Label을 부여하는 즉, Classification을 하는 역할을 하게 된다. 따라서 각각 Similarity가 아닌 네트워크를 통해 Data별 Label을 부여받을 확률값을 통해 Classification을 하게된다. 이러한 과정에서 CNN구조를 택한 이유는 고차원의 복잡한 데이터에
대해 연산이 가능하며, 충분한 Capacity를 지니기 때문이다. 지난 연구실 세미나를 통해 Co-training 기반의 Semi-supervised leaning에 대해 접해볼 수 있었는데, 또
다른 접근법인 Label propagation에 대해 알아볼 수 있어 흥미로웠으며 추가적으로 초기 Labeled Data가 무엇인가에 따라 어느정도 성능 차이를 보이는지, 더욱
복잡한 Classification문제 상황에서는 어떻게 처리가 되어지는지 또한 Deep learning관점에서 어느 정도의 데이터가 주어지게 될 때 괜찮은
Accuracy를 보이는지에 대해 관심을 갖을 수 있는 계기가 되었고, 내용을 전달하는
과정과 연구를 임하는 태도에 대해서도 스스로 많은 생각을 하게 되고, 자극을 받을 수 있는 유익한 시간이었다.

금일 세미나는 준지도학습(semisupervised learning)을
위한 label propagation 기법에 대한 연구를 소개하였다.
준지도학습의 기본 설명부터 label propagation을 위한 local and global consistency (LGC) algorithm의 개념, 그리고 알고리즘의 학습과정을 쉽게 설명해주어 초심자에게도 좋은 발표였다고 본다. label propagation 시에는 관측치 간의 거리 등의 네트워크 정보를 기본정보로 활용하게 된다. 금일 발표한 영훈이는 알고리즘의 scalablility를 떨어뜨리는
기존연구의 한계점을 극복하고자 뉴럴넷 기반의 새 알고리즘을 제안하였다. 제안하는 알고리즘에는 label를 갖을 확률이 높은 후보군을 선정하는 네트워크과 label을
판별하는 네트워크 두 가지 모델을 독립적으로 학습하게 되는 구조인 것 같다. mnist data를 기준으로
여타 준지도학습 대비 좋은 효과를 보였고, active learning 대비해도 준수한 결과를 보였다. 두 가지 학습모델의 구축과정에서의 협력 포인트를 보다 명확히 한다면 제안하는 접근방법의 성능에 대한 설명을
보다 뚜렷하게 할 수 있을 것 같다. 좋은 주제로 발표해준 영훈이에게 감사하게 생각하며, 개인연구에 큰 진전이 있기를 바란다.