- 2021년 3월 16일 오후 5:44
- 조회수: 3702
REFERENCES
INFORMATION
- 2021년 3월 19일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
데이터를 구축함에 있어 레이블링 작업은 많은 비용과 시간이 소요된다는 한계점을 지닌다. 이를 극복하기 위해 레이블링 데이터가 한정적인 경우에도 보다 나은 모델을 구축하기 위한 시도가 활발히 이루어지고 있으며, 대표적으로
semi-supervised learning은 레이블링 되지 않은 데이터(unlabeled
data)와 레이블링이 된 데이터(labeled data)를 함께 활용하여 데이터가 갖는 고유의 구조를 반영하는 것을 목표로 한다. 이번 세미나에서는
graph data의 형태부터 graph data에서의
semi-supervised learning이 어떠한 흐름으로 연구가 되어왔는지 개괄적으로 설명하고, 더 나아가 최신 연구 동향에 대해 소개하고자 한다.
참고문헌
:
1. Zhou, D., Bousquet, O., Lal, T. N., Weston, J., &
Schölkopf, B. (2004). Learning with local and global consistency. Advances in
neural information processing systems, 16(16), 321-328.
2. Kipf, T. N., & Welling, M. (2016). Semi-supervised
classification with graph convolutional networks. arXiv preprint
arXiv:1609.02907.
3. Chong, Y., Ding, Y., Yan, Q., & Pan, S. (2020). Graph-based
semi-supervised learning: A review. Neurocomputing, 408, 216-230.
청취자 후기
이번 세미나는 "Graph-Based Semi-Supervised Learning"이라는 주제로 진행되었다. Graph는 node와 edge로 이루어진 데이터로 노드는 객체에 대한 정보를 가지고 있으며 edge를 통해 객체 사이의 연관성을 표현할 수 있다. Graph 데이터에서 semi-supervised learning을 수행할 때는 레이블이 없는 데이터의 레이블링을 목적으로 하는 transductive learning과 새로운 데이터에 대한 예측을 잘하는 것을 목적으로 하는 inductive learning이 있다. 이번 세미나에서는 transductive learning과 관련된 연구들이 소개되었다. 먼저 min-cut 알고리즘은 레이블이 주어진 데이터는 실제 레이블과 동일하도록 레이블이 없는 데이터는 인접 노드와 동일한 클래스에 속하도록 학습을 진행한다. 하지만 결정변수가 0, 1값을 가져야 하는 integer programming이기 때문에 풀기 어렵다는 단점을 가지고 있다. 이를 해결하기 위해 harmonic function을 도입해 결정변수가 discrete 하다는 단점을 해결한 harmonic solution에서는 직접적인 해를 구할 수 있게 된다. 앞선 방법론들은 주어진 레이블이 항상 맞다는 가정하에 해를 찾게 된다. 하지만 주어진 레이블이 틀린 경우도 있을 수 있기 때문에 local and global consistency에서는 목적함수에서 레이블이 있는 데이터와 없는 데이터의 가중치를 하이퍼파라미터로 조절하게 된다. 지금까지의 방법론들은 서로 가까운 데이터가 유사한 레이블이라는 가정을 가지고 해를 도출하기 때문에 유사도 정보 이외의 정보를 담을 수 없다는 단점을 가지고 있다. GCN에서는 이를 극복하기 위해 graph laplacian regularization term을 제거하고 GNN구조와 convolution연산을 활용해 다양한 task들을 수행하게 된다. 이번 세미나에서 수식과 알고리즘에 대한 자세한 설명을 통해 소개된 내용에 대해 자세하게 이해할 수 있어서 좋았다. 세미나를 위해 고생해준 지윤누나에게 감사의 뜻을 전한다.
SNS, 화학 분자, DNA, 3D mesh 등 Graph Data 에 어떻게 Neural Net 을 적용할 수 있을까?? 이러한 데이터들을 분석, 예측 하기 위해 GNN 계열의 모델이 등장하였다. 그 중 GCN은 Graph Data 에 Convolution 을 적용함으로써 많은 각광을 받았다. Deep Learning 알고리즘의 성능이 보장되기 위해서는 대량의 labeled data가 필요하지만, 이러한 데이터를 구축하기 위해서는 labeling 작업에 상당한 시간이 소모된다. unlabeled data를 활용한 방법론이 Semi-Supervised Learning이다. 이번 세미나는 Graph Data에 Semi-Supervised Learning 을 적용한 방법론이 소개되었다.
GCN 이전에 사용 되었던 방법론으로 Label Propagation이 소개되었다. 학부시절 Min-Cut 알고리즘에 대해 배운 적이 있어 익숙했으나, Semi-Supervised 가정의 Min-Cut 알고리즘은 Notation 이 익숙하지 않아 곱씹으면서 시청하였다. 이번 세미나 덕분에 차후에 논문을 볼 때 좀 더 쉽게 다가갈 수 있을 것 같다.
Graph Data는 너무나 방대하기에, 학습을 위한 Labeling 이 쉽지 않다. 이러한 제약을 고려한 Graph-Based Semi-Supervised Learning은 가장 현실을 잘 반영한 방법론이라고 생각한다. 세미나를 준비하느라 고생하신 지윤누나에게 감사의 말씀을 드린다.
이번 세미나는 "Graph-Based Semi-Supervised Learning"에 관하여 진행되었다.
Graph Data는 데이터 Vertex와 데이터 사이의 관계인 Edge를 모아 놓은 자료이다. 이제 여기서 Graph는 Vertices와 Edge의 집합을 일컫는다. 또, Vertex는 하나의 샘플을 의미하고, Edge는 이 샘플들의 연결 관계를 의미한다. 이들을 Adjacency, Degree, Laplacian matrix 등으로 나타낼 수 있고, 이를 베이스로 하여 레이블링이 되지 않은 데이터의 레이블을 추정하는 Semi-Supervised Learning에 접목된 것이 Graph-Based Semi-Supervised Learning이다. 특히, 해당 방법론 중 하나인 Transductive learning의 주요 개념인 Label Propagation에 대해 소개한다. 크게 3가지로 Min-cut, Harmonic Solution, Local and Global Consistency에 대해 살펴본다. notation의 수식적인 이해를 통해, 앞서 소개한 Graph-based matrix에 관한 내용들이 어떻게 접목이 되고 있는지를 살펴볼 수 있다.
마지막으로 GCN, Graph Convolutional Neural Networks에 대한 내용까지 다룬다. CNN의 인접 픽셀간의 높은 상관관계를 지닌다는 특성과 Weight 공유한다는 이 두가지 특성을 graph내에서 적용한다. Graph 내 인접한 노드간의 관계를 Sparse connection으로 보고, 이에 Weight sharing하여 학습이 되고, label 값을 출력하게 된다.
GCN, Semi-Supervised Learning에 관한 사전 지식이 전무함에도 불구하고, 해당 세미나 첫번째 청취를 통해 개괄적 이해를 그리고 두번째 청취를 통해 notation에 대한 이해 및 주요 개념들 간의 연결점을 파악할 수 있었다. 그만큼 딥러닝 걸음마 단계의 청취자까지 배려하여 세미나를 짜임새있게 준비해주신 지윤누나에게 감사함을 전한다.
이번 세미나는 Graph 기반 semi-supervised learning에 대한 주제로 진행되었다. graph라는 것은 주어진 data간의 관계를 나타내는 것으로 vertex(node) 와 edge(relation) 의 집단으로 볼 수 있고, 이 관계에 대해 분석을 할 때에는, 각 노드별 연관성에 대해 adjacency/degree matrix 또는 이둘의 차이인 Laplacian matrix로 feature matrix로 변환하여 분석할 수 있도록 만들었다.
이러한 graph data를 이용한 task 중에서 세미나는 각 vertex가 무엇인지를 classify하는 Node prediction에 속하는 semi-supervised를 좀더 깊게 알려주었다. 일부만 labeling 되어있는 상황에서 이를 통해 각각의 node가 어떻게 분류를 할지 예측하는 과정으로, Label propagation의 3가지 history가 각각 소개되었다. label을 가지고 있는 data는 무조건 맞도록, unlabeled data는 weight를 고려한 방식은 굉장히 합리적이라고 느껴졌고, 여기에 label 정보가 틀렸을 경우도 포함하는 것에 대해 Local/Global consistency를 고려하는 부분도 흥미로웠다.
마지막으로 Graph Convolutional networks(GCN) 에 대한 부분을 다룬다. GCN은 CNN에서 인접한 픽셀끼리 높은 상관관계를 지니고, 이를 동일한 filter를 통해 weight sharing하는 특성을 동일하게 graph에서 이용한다. 앞서 설명한 node와 edge의 정보가 담긴 feature matrix를 filter를 통해 conv 연산을 진행하여 이를 통해 좀더 효율적으로 node의 class를 예측하는 방법이다. image와 graph에서 feature matrix를 동일한 컨셉으로 해결해 나가는 부분이 재미있었다.
각 개체간의 관계성을 어떻게 data로 가공하고, 이를 유의미한 예측 분석으로 만들어가는 과정이 상당히 재미있고 흥미로웠다. 이해하기 쉽게 설명해주신 이지윤 연구원님께 감사를 전한다.
이번 세미나는 Graph-based semi-supervised learning을 주제로 진행되었다. 먼저 그래프 데이터에 대한 기초적인 개념 소개가 있었다. 그래프 데이터는 데이터와 데이터 사이의 관계를 모아 놓은 자료로 Vertex(Node)와 Edge를 사용하여 표현한다. 이 때 Vertex는 하나의 샘플을 의미하고 샘플의 특징을 나타내는 Node-feature matrix와 샘플의 Label을 나타내는 Node-class matrix로 표현할 수 있다. Edge는 샘플들의 연결관계를 의미하는데, 샘플간의 Edge 정보를 담은 Adjacency matrix, Degree matrix, Laplacian matrix로 표현된다. 이러한 그래프 데이터를 바탕으로 하는 Semi-supervised learning 연구는 Transductive learning과 Inductive learning이 있으며 이번 세미나는 Unlabeled data에 Label을 전파하는 방법론인 Transductive learning에 대해 집중적으로 소개되었다. Label propagation 알고리즘으로 Min-cut, Harmonic solution, Local and global consistency가 있는데, 이 알고리즘들이 단계적으로 어떻게 단점과 한계점을 보완해가며 발전되었는지를 잘 설명해주었다. Min-cut의 경우는 Unlabeled 데이터의 Label을 예측할 때 0 또는 1의 값만 가질 수 있는 discrete한 제약이 있는데, Harmonic solution은 이 0 또는 1이라는 제약을 완화하여 실수값으로 예측할 수 있도록 해준다. Local and global consistency는 앞의 두 알고리즘과 달리 Labeled 데이터가 틀린 경우도 있음을 반영하여, 주변 point들과 동일한 label을 갖도록 학습하는 Local consistency와 동일한 구조를 가진다면 동일한 label을 갖도록 학습하는 Global consistency를 정의하고 이를 penalty parameter로 조절할 수 있도록 하였다. 이어서 그래프 데이터에 CNN을 적용하고자 개발된 Graph Convolutional Neural Networks(GCN)이 소개되었는데, GCN은 그래프의 Vertex에 대한 정보인 Node-feature matrix을 대상으로 Feature extraction을 하여 Vertex가 어떤 Class에 속하는지를 예측하게 된다. 이 때 GCN은 CNN과 유사하게 Sparse connection과 Weight sharing이라는 특징을 갖는다. 아직 그래프 데이터를 직접 다뤄보지 못해서 이번 세미나 내용이 어렵겠다고 생각하고 시청을 했는데, 발표자의 세세한 설명과 예시로 잘 따라갈 수 있었고 그래프 데이터에 대한 개념 이해에 많은 도움이 되었다. 특히 Label propagation 알고리즘의 수식 부분과 GCN의 메커니즘을 이해시켜 주기 위해 정말 많은 준비를 해준 것을 느낄 수 있었다. 준비하느라 수고가 많았을 이지윤 연구원에게 감사의 말을 전한다.
이번 세미나는 ‘Graph-based semi-supervised learning’을 주제로 진행되었다. 우선 Graph Data란 데이터에 해당하는 vertex와 데이터들 간의 관계에 해당하는 edge를 함께 모아 보는 자료에 해당한다. Adjacency Matrix, Degree Matrix, Laplacian Matrix 등을 통하여 그래프 내의 다양한 데이터를 표현한다. 이러한 graph data를 기반으로 semi-supervised learning을 진행할 때에는 레이블이 없는 데이터에 대한 레이블을 생성하는 Transductive Learning, 또는 새로 들어온 데이터에 대한 레이블을 예측하는 Inductive Learning의 크게 두 가지 가정 상황에 대한 연구가 진행된다. 금일 세미나에서는 label propagation의 더욱 구체적인 여러 알고리즘들에 대하여 알아볼 수 있었다. Min-cut 알고리즘은 서로 다른 set들을 연결하는 edge들의 가중치를 최소화하는 방법으로 진행되며, 이는 IP라는 단점을 갖고 있기 때문에 실수 공간 상에서 예측 가능하도록 Harmonic solution이 등장하였다. 또한, 레이블 데이터에 대한 학습 과정에서 틀릴 수 있음을 반영하기 위하여 Local and Global consistency 알고리즘도 등장하게 되었다.
마지막으로 살펴본 내용은 Graph Convolutional Network(GCN)에 대한 내용이다. 이는 서로 가까운 데이터는 같은 레이블일 확률이 높기 때문에, graph laplacian regularization term을 없애자는 방향으로 label propagation을 개선한 방법론이다. GCN은 자기 자신과 이웃들 간의 관계를 모두 반영하고, 가중치를 공유하면서 그래프를 활용하여 CNN의 구조들을 graph에 적용시켰다.
이번 세미나를 통하여 그래프에 대한 기본적인 개념부터 Semi-supervised Learning, Graph Convolutional Network까지 많은 내용들을 접하게 되었다. 직관적인 자료를 통하여 어려운 내용 없이 잘 이해할 수 있었던 의미있는 시간이었다.
이번 세미나는 Graph-Based Semi-Supervised Learining을 주제로 진행되었다. 데이터 분석 시 Graph 구조를 나타낼 수 있는 matrix로는 Adjacency matrix와 Degree matrix, Laplacian matrix 등이 있다. Graph와 관련된 task로는 Graph 자체를 예측하는 Graph prediction, 각 node간의 관계를 예측하는 Edge prediction, sample의 정보를 예측하는 Node prediction이 있다. 정보가 주어진 Node와 그렇지 않은 Node가 섞여 있는 Graph의 경우 Semi-Supervised Learning을 수행할 수 있으며 현재 주어진 data들에 대한 예측만 가능한 Transductive learning과 새로운 data도 예측 가능한 Inductive learning이 있다. 이번 세미나에서는 Label propagation이라고도 불리는 Transductive learning에 대한 내용을 자세하게 다루어주셨다. 대표적인 Label propagation 방법론 3가지(Min-cut, Harmonic Solution, Local and Global Consistency)의 변천사를 수식을 통해 확인할 수 있었는데 수식에 변형을 줘서 이전 방법론의 단점이 점차 개선되었다. CNN과 Graph를 접목시킨 방법론인 GCN은 CNN의 특성인 Sparse connection과 Weight sharing을 공통점으로 유지한다. GCN에 input으로 들어가는 Node-feature matrix가 layer를 거쳐 output으로 출력되는 과정을 자세하게 설명해 주셔서 각 단계에서 어떤 형태의 matrix가 필요한지 파악할 수 있었다. Graph에 대해서는 굉장히 단순한 구조만 생각해왔었는데 이번 세미나를 통해 더 복잡하고 다양한 응용이 가능하다는 것을 알 수 있었다. Graph 데이터에 CNN을 적용하여 task를 해결하는 과정에서 CNN의 특성이 유지된다는 점이 흥미로웠고, 데이터 분석 시 현재 가지고 있는 데이터에 맞게 기존 방법론을 변형하는 아이디어가 중요하다는 생각이 드는 세미나였다.
이번 세미나는 "Graph-Based Semi-Supervised Learning"을 주제로 진행되었다. Graph Data는 데이터에 해당하는 Vertex(Node)간의 관계를 Edge로 표현하여 모아둔 자료를 의미한다. 이러한 Graph Data의 구조는 각 Vertex들의 연결관계로 표현하게 되는데, 표현하는 방식으로는 Adjacency matrix, Degree matrix, Laplacian matrix 등이 있다. 주어진 Graph Data를 활용한 Task에는 Graph 자체를 예측하는 Graph prediction, 관계인 Edge를 예측하는 Edge prediction, 각 Vertex들의 정보를 예측하는 Node prediction이 존재한다. 이중에서 Node prediction에서는 label이 존재하지 않는 unlabeled data 혹은 새로운 데이터들이 예측의 대상이 되기에 Graph-Based Semi-Supervised Learning은 일종의 Node predicition 문제로 생각할 수 있다. 여기서 Semi-Supervised Learning은 Labeling이 이루어진 Data set과 Unlabeling된 Data set을 활용하여 Labeling을 진행하는 Lerning 방식을 의미한다. Semi-Supervised Learning은 크게 주어진 Node들에 대해서만 예측이 가능한 Transductive Learning 과 Decision boundary를 예측하는 Inductive learning이 존재한다. 세미나에서는 이중에서 대표적인 Transductive Learning의 3가지 방법론인 Min-cut, Harmonic Solution , Local and Global Consistency에 대해서 다루었다. 각각의 방법론을 수식적으로 풀어서 설명이 되어있으며 그 세부적인 사항들을 상세하게 설명되었고, 이전 방법론의 단점을 어떠한 방향성을 가지고 발전하고자 하였는지 이해할 수 있었다. 마지막으로 CNN구조가 가진 특징을 Graph에 적용시키는 GCN에 대해서 다루게 되었는데, 이는 기존의 Label propagation에서는 유사도에 해당하는 정보만을 통해서 결과를 이끌어 내기에 유사도 이외에 정보를 담을 수 없다는 단점을 보완하는 방법론이다. GCN은 인접한 Fixel에서의 높은 상관관계를 가진다는 점과 가중치를 공유하는 특징을 적용시켰다. 이번 세미나에서는 Graph, Semi-supervised learning, CNN 들의 기본적인 개념들을 정리하며 연결되는 부분을 이해할 수 있었다. 유익한 세미나를 준비해준 지윤누나에게 감사의 말씀을 전한다.
이번 세미나는 지윤이가 ‘Graph-Based Semi-Supervised Learning’이라는 주제를 가지고 진행하였다. 먼저 graph data는 직선, 곡선, 도형 등 그래픽의 요소에 시각화된 차트를 의미하며 각 데이터들관의 관계를 모아둔 것을 graph data라고 한다. 데이터는 node(vertex)로 표현할 수 있고 이런 node들의 관계를 edge라고 한다. Vertex는 데이터 관측치의 하나의 샘플을 의미하며 edge는 이러한 샘플들의 연결관계를 의미한다. Graph Data를 가지고 Graph prediction, Edge prediction, Node prediction등이 존재한다. 이러한 graph task와 Semi-supervised learning을 결합한 것이 semi supervised learning이다. Semi-supervised learning은 레이블이 되지 않은 데이터까지 활용하여 더 나은 data distribution이 가능하도록 하는 연구 분야이다. Semi-supervised learning에는 크게 Transductive learning, lnductive learning 두개가 존재한다. 그 중 transductive learning은 기존에 있는 데이터안에서 data distribution이 가능하며 반대로 inductive learning은 새로 들어온 데이터에 대해서도 예측이 가능하다. Transductive learning은 크게 Min-cut, Harmonic Solution, Local and Global Consistency, Pairwise Constraints의 과정을 통해 진행된다. Graph Data부터 CNN 그리고 graph data를 이용한 CNN까지 넓은 분야에 걸쳐 자세하게 설명해준 지윤이에게 감사하다는 말을 전하고 싶다.
이번 세미나는 'Graph-based semi-supervised learning'이라는 주제로 진행되었다. Graph는 데이터 분석 분야에서 데이터와 데이터 사이의 관계를 모아 놓은 자료를 일컫는다. 이때 Graph를 구성하는 vertex는 각각 하나의 샘플을 의미하며, edge는 샘플들의 연결관계를 의미한다. 이러한 데이터 및 관계는 Adjacency matrix, Degree matrix, Laplacian matrix 등으로 표현이 가능하다. 이와 함께, Graph data를 사용한 task로는 graph prediction, edge prediction, node prediction 등이 있다. 본 세미나에서는 여러 task 가운데, node prediction에 해당하는 semi-supervised learning에서 레이블이 없는 데이터에 레이블을 부여하는 방법론인 Transductive learning에 대해 집중적으로 다루었다. Label propagation으로도 표현되는 해당 방법론의 대표적 알고리즘에는 Min-cut, Harmonic Solution, Local and Global Consistency이 있으며 각각의 수식은 이전 방법론의 한계점들을 개선하며 발전해왔다. 끝으로는 Graph data를 CNN에 적용하고자 개발된 Graph Convolutional Network의 구조에 대해 이해하기 쉬운 시각적 자료를 통해 다루었다.
몇 주 전 연구미팅에서 지윤언니가 관련 내용을 말씀하시는 것을 처음 들었을 때에는 사전지식이 부족해 어떠한 방법으로 해당 알고리즘이 작동되는지 이해하기 어려웠다. 하지만 이번 세미나를 통해 기본 개념부터 구체적인 수식까지 접하고, 또 공부할 수 있어 너무나도 좋은 기회였다고 생각된다. 다양한 시각적 자료로 친절한 세미나를 준비해주신 지윤언니에게 감사의 말씀을 전하고 싶다.
이번 세미나는 그래프 데이터를 위한 semi supervised learning 알고리즘을 다루었다. 그래프 데이터에 대해 전반적인 설명과 Semi-supervised learning와의 연관성을 세미나 초반에 흐름있고 멋지게 설명해주셨다. 그리고 Unlabeled 데이터에 대한 pseudo label을 정확하게 부여하는데 초점 둔 transductive learning(SSL)을 데이터간 유사성 관점에서 풀어가는 흐름들을 야무지게 알 수 있었다. 마지막으로 Graph 데이터에 적합한 CNN 모델에 대한 설명(입력에서 출력까지에 대한 정갈한 설명이 좋았다)을 들을 수 있었다. 딥러닝 입문자가 듣더라도 쉽게 이해할 수 있도록 설명이 친절했으며, 디테일적인 요소도 놓치지 않고 다루어주셔서 웅장하고 멋진 세미나였다. 감사합니다~
이번 세미나는 지윤이가 Graph-based semi-supervised learning에 대해 설명해 주었다. 그래프가 X,Y 평면에 점, 선 으로 이루어진 데이터라 생각했는데 그래프 데이터에 대한 기초적인 개념 소개를 듣고 데이터에 해당하는 Vertex(Node)와 데이터 간 관계에 해당하는 Edge로 이루어진 데이터를 말하는 것을 알 수 있었다. 그래프 관련해 그래프를 예측하는 Graph prediction, Vertex 간의 관계를 예측하는 Edge prediction, 데이터의 정보를 예측하는 Node prediction Task가 있음을 알게되었다. 세부적으로 그래프의 Semi-Supervised Learning 중 Node에 대해 예측하는 Transductive Learning에 대해서 중점적으로 설명해 주었다. Transductive Learning의 3가지 방법론 Min-cut, Harmonic Solution, Local and Global Consistency의 장단점, 그리고 단점을 극복한 방법에 대해 수식을 활용하여 설명해 주었다. 그래프 데이터를 CNN 구조에 적용한 GCN 에 대한 방법론에 대해서도 알 수 있었다. 개인적으로는 새로운 내용을 공부하는 것에 대해 막연한 두려움이 조금씩 재미로 변해가고 있음에 기쁘다. 바쁜 일상 속에서도 시간을 내 어려운 내용을 잘 설명해준 지윤이에게 감사의 말을 전한다.
금일은 Graph-Based Semi-Supervised Learning을 주제로 세미나가 진행되었다. 이번 세미나에서는 먼저 Graph data와 Semi-supervised learning에 대한 기본 개념을 들을 수 있었고 마지막으로 Graph Convolutional Neural Networks (GCN)에 대한 설명을 들을 수 있었다. Graph data는 데이터와 데이터 사이의 관계를 모아 놓은 정보를 의미한다. Graph data로 예측할 수 있는 Task는 Graph prediction, Edge prediction, Node prediction이 존재한다. Graph prediction은 Graph를 이루고 있는 집단이 무엇인지 예측하는 것이고 Edge prediction는 각 데이터 간의 관계가 무엇인지 예측하는 것이며 Node prediction 각 데이터의 Label이 무엇인지 예측하는 것이다. Semi-supervised learning 부분에서는 큰 연구 방향인 Transductive learning과 Inductive learning에 대한 내용을 들을 수 있었다. Transductive learning은 현재 주어진 데이터에 대해서만 예측하는 것으로 Label propagation이라고도 부른다. Inductive learning은 Decision Boundary를 만드는 것이 중요한 Task로 새로운 데이터에 대해서도 Label을 예측할 수 있다. 본 세미나에서는 Transductive learning, 즉 Label propagation을 중심으로 설명이 진행되었다. y값이 0과 1로 Discrete한 경우에 사용하는 Min-cut algorithm에 대한 설명을 들은 이후, y에 대한 공간을 실수로 완화하는 Harmonic Solution, Labeled term과 Unlabeled term에 대한 페널티를 주어서 학습에 영향력을 조절하는 Local and Global Consistency에 대한 내용까지 흐름을 이어 설명 들을 수 있었다. 마지막으로 GCN에 대한 설명이 진행되었다. GCN 이전 방법론은 서로 가까운 데이터는 같은 레이블일 확률이 높다는 Smoothness assumption을 두고 있어, 유사도 외에 정보를 담을 수 없다는 한계가 존재하기 때문에 GCN에서는 Graph Laplacian regularization term을 없애는 것을 기본 개념으로 한다. 이후, GCN을 구조에 대해 하나, 하나 차례로 설명을 들으며 세미나를 마무리할 수 있었다. 이번 세미나에서는 Graph data, Semi-supervised learning, GCN에 대한 기본 개념에 대해 하나씩 차례대로 흐름에 따라 설명을 들을 수 있어서 좋았다. 개인적으로 Transductive learning, Inductive Learning, 그리고 GCN의 기본 구조들에 대해 머릿속에서 헷갈리는 부분들이 많았는데, 이러한 부분들에 대해 명확하게 정리할 수 있었던 것 같다. 좋은 자료를 준비해 준 지윤이에게 감사함을 표한다.
이번 세미나는 "Graph-Based Semi-supervised Learning"을 주제로 진행되었다.
Graph Data의 경우 시각화된 차트 또는 주어진 함수가 나타내는 직선이나 곡선의 개념을 가지고 있지만 데이터 분석에서는 데이터와 데이터 사이의 관계를 모아 놓은 자료로 많이 쓰인다. 이러한 Graph Data는 Vertex(Node)와 Edge로 구성되어있는데, Vertex는 하나의 샘플을 의미하고, Edge의 경우 샘플들의 연결 관계를 의미하게 된다. 이를 표현하는 방법으로 Undirected, Directed, Weighted, Degree, Laplacian 등의 다양한 컨셉이 존재한다.
Semi-Supervised Learning은 Labeled Data와 Unlabeled Data를 함께 활용하여 Graph Data의 개념인 관계를 구하여 학습하는 방식이다. 이러한 학습 방식은 크게 Transductive Learning과 Inductive Learning으로 두 가지 관점에서 진행된다. 세미나는 Transductive Learning 관점으로 진행되었는데, Label Propagation 중 Min-cut Algorithm은 최솟값으로 나누기 위한 알고리즘으로 Labeled Data는 실제 레이블과 대응되도록 학습을 진행하고, Unlabeled Data는 feature에 따라 계산이 된다. 하지만 NP hard problem이 발생하게 되고, 이를 해결하기 위하여 Harmonic Solution이 나왔는데, Harmonic Solution에서 Unlabeled Data는 값들의 평균 label로 치환을 하여 최종 예측을 하게 되며, Laplacian 컨셉을 활용하게 된다. 그렇다고 해서 모든 경우에서 맞는 것이 아니기 때문에 Local and Global Consistency라는 개념이 나오게 되었고 이는 Local consistency와 Global consistency를 정의하여 페널티를 부과하고 이를 통해서 해결해 나간다.
이후 발전된 개념으로 GCN(Graph Convolutional Neural Networks)이 나오게 되는데 GNN은 CNN에서 Graph 특성의 반영을 추가한 것으로 서로 가까운 데이터는 같은 레이블일 확률이 높기 때문에 페널티를 준다고 모든 것이 해결되지 않으니 아예 Graph Laplacian regularization term을 없애는 것에서 시작되었다. GCN은 CNN의 개념을 기반으로 발전했기 때문에 Feature extraction을 Vertex matrix에 대해 적용하게 된다.
세미나를 통해 Graph Data와 Semi-Supervised Learning에 대해 구체적으로 알 수 있는 시간이 되어서 좋았으며, 향후 활용하게 될 때 공부할 수 있는 기반이 될 수 있을 것 같았습니다.
좋은 내용을 꼼꼼히 전달해주신 지윤이누나에게 감사의 말씀을 전합니다.
이번 세미나는 "Graph-based semi-supervised learning"를 주제로 지윤이가 진행했다. 그래프(graph) 데이터는 데이터 간 관계를 나타낸 자료를 말한다. 주로 대상을 나타내는 node(or vertex)와 관계 여부를 나타내는 edge로 그래프를 구성한다. 그래프를 데이터로 표현하는 방식은 adjacency matrix (node간 연결여부, 크기: node개수Xnode개수), degree matrix(해당노드에 연결된 node 개수, diagonal matrix, 크기: node개수Xnode개수), laplacian matrix(degree matrix - adjacency matrix)로 표현할 수 있다. 이렇게 표현된 그래프 데이터를 사용하여, Graph prediction, node prediction, edge prediction 문제에 적용할 수 있다. 오늘 세미나에선 node prediction문제에서 unlabeled node가 존재할 때 semi-supervised learning 적용 방법론에 대해 소개해 주었다. Semi-supervised learning은 레이블링 되지 않은 데이터를 활용하여 레이블 된 데이터만 사용했을 때보다 더 나은 모델을 구축하는 것을 목표한다. 이런 상황에서 transductive learning (label propagation)와 inductive learning (decision boundary 구축) 이 두 갈래로 방법론이 나뉘며 오늘 label propagation을 위한 대표 방법론 세가지, (1) min-cut algorithm (discrete label 대상으로 서로 다른 set들을 연결하는 edge의 weight 선형결합), (2) harmonic solution (continuous label 대상), (3) local and global consistency (local consistency: 주변과 동일한 레이블을 갖도록 학습, global consistency: 동일한 구조를 가진다면 동일한 레이블을 갖도록 학습)에 대해 소개해 주었다. Graph convolutional neural networks(GCN)은 node-feature matrix가 input이고 node-class matrix를 output으로 node-feature extraction을 여러 층의 convolution 연산으로 수행한다. 여기서 smoothness assumption, 즉 서로 가까운 데이터(points)는 같은 레이블일 확률이 높고, 유사도(similarity) 이외에 다른 정보를 담을 수 없다는 걸 가정하며, convolutional filter 특징인 sparse connection, weight sharing을 따른다. 오늘 그동안 그래프 데이터 기반 신경망 학습과정에 대해 궁금했는데 그에 관한 개념과 연산과정을 면밀히 살펴볼 수 있어 좋았고, 그 뿐 아니라 semi-supervised learning에 관한 개념과 방법론까지 공부할 수 있던 유익한 세미나였다. 수고했다 지윤!
그래프 구조를 갖는 데이터의 semi-supervised learning (SSL)에 대한 세미나를 청취했다. '관계'라는 개념을 포함하고 있는 데이터는 그래프로 표현이 가능하기 때문에 사실상 우리 주변에 있는 데이터의 상당 부분을 그래프로 표현할 수 있다 (다만 그 관계를 어떻게 정의하느냐에 따라 데이터의 질과 분석의 목적이 많이 달라진다). 이번 세미나 내용을 이해하기 위해서는 크게 3가지 개념을 알아야 했다: 그래프 데이터, 준지도 학습, CNN. 많은 연구원들이 그래프 데이터에 대해서는 생소했을 것이라고 생각이 되었는데 자세하면서도 쉽게 설명이 되어 있었다고 느꼈다. 그래프에 대한 공부를 한지 시간이 좀 오래 지났는데, 인접 행렬, 라플라시안 행렬 등이 갖고 있는 의미 등을 다시 한번 상기시킬 수 있는 좋은 기회였다. Graph SSL 분야의 기저가 되는 가정은 '그래프 구조에서 이웃해 있는 노드(관측치)들은 같은 성질을 갖는다'라는 것이다. 이를 기반으로 labeled 데이터는 실제 레이블과 같도록 학습하며 unlabeled data는 이웃 노드들의 label과 유사하도록 학습을 한다. 오늘 소개해준 min-cut, harmonic function, local and global consistency 모두 비슷한 개념에서 출발하며, 그래프 구조를 갖는 데이터를 군집화하는 spectral clustering에서도 같은 개념이 적용된다. 마지막으로 GCN에 대해서도 간단하게 설명을 해주어서 Graph SSL 분야에 대한 전반적인 내용을 하나하나 되짚어 볼 수 있었다. 매우 유익한 세미나였다.
예전에 한 유튜브 영상에서 facebook이 한 사람이 '좋아요'를 누른 게시물을 50개정도 분석하면 친구보다 더 그 사용자를 잘 알게 되고 150개면 가족보다도 더 300개면 배우자보다도 더 그 사용자를 잘 알게 된다는 내용을 보았다. 그 당시에 어떻게 거미줄처럼 얽힌 데이터들을 분석하는지 그리고 이를 인공지능에 적용하는지 궁금했다.
그래프는 Node와 Edge로 구성된다. 그래프 데이터에서는 각 Node가 하나의 sample로 Edge는 샘플들의 연결관계를 의미한다. 여기서 기계학습을 통해 해결할 수 있는 Task는 크게 그래프 전체를 예측하는 것, Node를 예측하는 것, Edge를 예측하는 것 3개로 나눌 수 있다.
이번 세미나에서는 소셜 데이터와 같은 그래프 데이터를 이용한 semi-supervised learning에 대해 지윤누나가 발표를 해 주었고 위 Task 중 Unlabeled Node를 예측하는 Node prediction를 중심으로 그 중에서도 transductive learning을 설명해 주었다.
Node를 구분하는데 가장 쉽게 생각해볼 방법은 주변의 Node를 보는 것이다. 가장 익숙한 방법으로는 Max-cut 방법이 있다. 하지만 Max-cut 문제는 정수 프로그래밍으로 Np-hard에 속한다. 그렇기에 이 문제는 제약을 완화하는 방향으로 발전해왔다.
이 문제에서 주변을 보기 위해 CNN처럼 합성곱을 사용하면 어떨까? 이러한 아이디어에서 Graph Convolutional Neural Networks가 등장했다. 합성곱은 이동에 동변하고, 병렬 분산 구조라는 점에서 그래프 데이터에 강점을 가진다.
이번 세미나를 통해 생소한 분야였던 그래프 데이터와 그래프 데이터를 활용한 예측 방법론, 그리고 Graph Convolutional Neural Networks를 알 수 있었다. 설명을 쉽게 해주셔서 생소한 분야지만 이해하는데 큰 어려움이 없었던 것 같다. 좋은 세미나를 준비해준 지윤 누나에게 감사를 전하며 세미나 후기를 마친다.
이번 세미나는 'Graph-Based Semi-Supervised Learning'을 주제로 진행되었다. 그래프와 Semi-supervised Learning의 개념, Gabe Propagation의 종류, Graph Convolutional Networks를 순차적으로 설명해주셔서 하나하나 차근차근 알아갈 수 있었던 유익한 세미나 시간이었다.
먼저 데이터 분석에서의 그래프에 대한 추상적인 정의만 가지고 있었는데 앞으로는 '데이터와 데이터 사이의 관계를 모아 놓은 자료'라고 자신있게 말할 수 있게 되었다. 앞으로 추상적으로만 알고 있는 것들을 누군가에게 설명할 수 있게 정확히 알아가려고 노력 해야겠다는 생각이 들었다. 또 Vertex, Node-feature matrix, Node-class matrix, Edge, adjacency matrix, Laplacian matrix, degree matrix 등 그래프와 관련된 용어들에 대해 체계적으로 정리할 수 있는 시간이었다. Graph data를 통해 Graph prediction, Edge prediction, Node prediction을 할 수 있다는 것과 그 예시들을 들으며 다양한 분야에 적용이 가능할 것이라는 생각이 들어 좀 더 공부해보고 싶은 생각도 들었다.
이후에는 Label Propagation의 세가지 방법으로 discrete한 결과값을 도출해보고자 할때 사용하는 Min-cut Algorithm, 실수의 결과값을 가지는 것까지 확장한 Harmonic Solution, local consistency와 Global consistency를 고려해 penalty를 준 수식들을 설명해 주셨다. 뿐만 아니라 GCN에서 Node-Feature Matrix에서 feature extraction을 하고 Node-Class Matrix를 얻는 과정, 이과정에서 CNN과 비슷하게 주변 node과의 관계를 반영하고, 모든 node들에 대해 weight를 sharing하고 있다는 것을 알 수 있었다.
어렵게 느껴질 수도 있었던 내용을 반복적으로 여러번 설명해주셔서 쉽게 이해할 수 있었던것 같다. 소중한 시간을 쏟아 의미있고 유익한 세미나를 제공해주신 연구원님께 감사의 마음을 전하고 싶다.
금일 세미나는 graph-based semi-supervised learning에 대하여 진행되었다. 그래프 데이터는 데이터와 데이터 사이의 관계를 모아 놓은 자료로, vertex와 이를 잇는 edge의 집합이다. 그래프 데이터는 vertex의 관점에서 node-feature matrix, node-class matrix로 표현할 수 있다. 일반적으로 node-feature matrix와 node-class matrix만 주어지는 경우가 많기 때문에 이를 기반으로 사전에 edge를 정의하는 과정이 필요하다. Edge를 정의하는 방법에는 ε-nearest Neighbor, K- nearest Neighbor, Gaussian kernel similarity function이 있다. 그래프의 종류에는 vertex간의 연결 관계를 표현하는 adjacency matrix, vertex 별 연결된 edge의 수를 표현하는 Degree matrix, 중심 vertex와 이웃 vertex 간의 관계 정보를 한번에 표현하는 Laplacian matrix가 있다. Graph task는 vertex 간의 정보가 주어졌을 때, 해당 집단을 예측하는 graph prediction, vertex 간의 관계를 예측하는 edge prediction, vertex의 label을 예측하는 node prediction으로 나눌 수 있다. 이 중 node prediction은 일종의 semi-supervised learning이다. 레이블링이 된 데이터가 적은 상황에서도 학습을 하고자 하는 semi-supervised learning은 주어진 노드들에 대해서 예측하는 transductive learning (label propagation)과 decision boundary를 예측하고자 하는 inductive learning 상황을 가정하여 연구가 진행된다. label propagation 연구 흐름은 min-cut, harmonic solution, local and global consistency로 이어진다. min-cut은 y값이 0과 1로 discrete한 형태이고, harmonic solution은 실수의 y값을 갖는다. 이후 local and global consistency는 labeled와 unlabeled term에 대해 penalty term을 추가하여 학습조절을 가능하게 한다. GCN은 CNN구조가 가진 특징을 반영하여 graph에 적용 가능한 구조를 제안한다. CNN과 GCN 모두 weight sharing을 하고, sparse connection이라는 점에서 공통적이다.
Graph data를 다루는 것은 요즘 접하게 된 분야인데 친숙한 예시와 자세한 그림으로 설명해 주셔서 세미나의 흐름을 잘 따라갈 수 있었다. 유익한 세미나를 준비해주신 지윤언니에게 감사의 말씀을 전한다.
오늘 세미나는 지윤이가 graph-based semi-supervised learning 관련해서 진행해주었다. 특히 재미있게 들었던 부분은 label propagation의 연구 발전 흐름이었다. Min-cut, harmonic solution, local and global consistency에 대해 연구의 흐름을 들으니, 내가 기존 연구를 발전시켜 연구를 진행할 때 어떤 가정을 추가 해보거나, 어떻게 기존 연구의 단점을 짚을지 헤매게 될 때 큰 도움이 될 것 같다고 생각이 들었다. 전통적으로는 smoothness assumption을 정규식에 반영하여 node의 값을 예측하는 연구가 주로 진행되었다면, node의 값을 예측하는 함수를 딥러닝으로 대체하여 어떠한 가정을 정규식에 녹는 것이 아닌 graph 데이터 자체를 그대로 요약할 수 있는 graph convolution network 그리고 이를 뒤따르는 다양한 연구들이 진행되고 있다. 이렇게 큰 연구의 방향을 트는 아이디어를 내려면 어떠한 노력을 해야하는 것일까 생각이 들었고 스스로를 반성하게 되었다. 다채로운 내용을 응축하여 세미나를 구성해준 지윤이에게 고맙다고 전하며 세미나 후기를 마친다.
Graph-based semi-supervised learning은 크게 Transductive learning과 Inductive learning으로 나누어 연구가 수행된다. 전자는 주어진 노드에 대해서만 예측이 가능하여 label propagation이라고 불리고, 후자는 decision boundary 형성을 목표로 하여 예측을 수행하기 때문에 새로운 노드가 추가되었을 때 예측이 가능하다. 세미나에서는 Transductive learning방법을 중심으로 설명이 진행되었고 기본이 되는 Min-cut, Harmonic solution, Local and Global Consistency 알고리즘 순으로 알 수 있었다. 우선 Min-cut 알고리즘은 서로 다른 set을 연결하는 edge의 weight 합을 최소로 하는 방향으로 학습되어 y가 discrete한 클래스로 예측한다. 여기에서 y를 연속적인 값으로 예측 가능하도록 보완한 알고리즘이 Harmonic solution 알고리즘이다. 더 나아가 기존의 레이블이 틀렸을 가능성을 두고 Local consistency(주변 점들과 동일한 레이블을 가지도록 학습)과 Global consistency(동일한 구조를 가지면 동일한 레이블을 가지도록 학습)성질을 반영한 Local and Global Consistency 알고리즘이 있다. 앞서 설명된 3개의 알고리즘은 모두 Smoothness assumption 가정을 기반으로 진행되어 유사도 이외의 정보를 반영하기 어렵다. 이러한 한계를 보완하여 GCN을 적용한 방법이 등장하였다. 이어서 GCN의 자세한 계산 과정과 원리에 대하여 차근차근 설명해주어 추상적이었던 개념이 확실히 잡히는 느낌이었다. 이번 세미나를 통해 그래프 기반의 semi-supervised learning의 전반적인 부분을 알 수 있도록 정성껏 준비해준 지윤언니께 감사하고 언니의 향후 연구를 응원하고 싶다.
이번 세미나는 "Graph-Based Semi-Supervised Learning"이라는 주제로 진행되었다. 요즘 Graph Convolution Network(GCN) 기반 모델이 워낙 핫해서 개인적으로 GCN쪽만 봤는데, 이번 세미나에서 기존 Transductive Graph Learning 모델들을 개선 단계별로 한눈에 소개해주어 도움이 많이 되었다. 나아가 ICRL2021에서 "Combining Label Propagation and Simple Models out-performs Graph Neural Networks (Huang et al. 2021)" 논문에서 homophily가 강한 그래프 데이터에서는 파라미터 수가 0인 label propagation 방법이 파라미터가 수백만개인 복잡한 GCN 모델보다 최소 동등 혹은 그 이상의 성능을 냈다는 결과가 나왔는데, 최근 기류에 묻혀서 따라가기 보다는 기존의 연구들도 'Re'-search해야함을 시사하는 듯하다. 개인적으로 Laplacian Matrix를 처음 접했을 때, 이걸 도대체 왜 D-A로 계산하고 이게 각 노드값의 div(grad)이 라는게 선뜻 이해가 안되었었는데, 가볍게 예시(pg.21)를 들어준 점이 인상적이었다. 마지막으로 Transductive Learning뿐만 아니라, Inductive Learning을 고려하는 지윤이의 SSL 관련 연구가 앞으로 잘 되었으면 하는 바램이다.