고려대학교 DMQA 연구실

How to Transfer Knowledge Across Domains by Deep Neural Network?

2022년 10월 28일 오후 6:47
조회수: 12682

REFERENCES

[221028]DMQA_Openseminar_How to transfer knowledge across domains by deep neural network_김지현.pdf

INFORMATION

2022년 10월 28일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

김지현

TOPIC

How to Transfer Knowledge Across Domains by Deep Neural Network?

On-Line Video

OVERVIEW

많은 기계학습 알고리즘은 학습 데이터와 테스트 데이터가 같은 특징 공간(Feature Space) 상에 있으며 독립 항등 분포(i.i.d)를 따른다는 가정에 기반한다. 그러나 실제 상황에서는 이러한 가정이 성립되지 않는 경우가 있으며, 이때 테스트 하고자 하는 대상 도메인(Target Domain)의 양과 레이블이 불충분하다면 독립적인 모델을 구축하기 어렵다는 문제가 있다. 하지만 대상 도메인(Target Domain)과 분포는 다르지만 유사한 양상의 소스 도메인(Source Domain)의 데이터가 충분히 확보되었다면, 이로부터 얻은 모델의 지식을 전이(Transfer)하여 활용할 수 있을 것이다. 전이 학습(Transfer Learning)은 이러한 문제 의식으로부터 고안된 방법론이며 대상 도메인(Target Domain)의 데이터 및 레이블을 추가적으로 확보하기 위한 비용을 최소화 할 수 있다는 점에서 활발히 연구되고 있다. 본 세미나에서는 전이 학습의 여러 갈래 중 딥러닝을 이용해 소스 도메인(Source Domain)의 지식을 대상 도메인(Target Domain)에 전이하는 Deep Transfer Learning의 개요와 함께 여러 종류의 방법론들을 구분하여 소개하고자 한다.

참고문헌 :

[1] A perspective survey on deep transfer learning for fault diagnosis in industrial scenarios: Theories, applications and challenges

[2] Yosinski, J., Clune, J., Bengio, Y., & Lipson, H. (2014). How transferable are features in deep neural networks?. Advances in neural information processing systems, 27.

[3] Tan, C., Sun, F., Kong, T., Zhang, W., Yang, C., & Liu, C. (2018, October). A survey on deep transfer learning. In International conference on artificial neural networks (pp. 270-279). Springer, Cham.

[4] Zhuang, F., Qi, Z., Duan, K., Xi, D., Zhu, Y., Zhu, H., ... & He, Q. (2020). A comprehensive survey on transfer learning. Proceedings of the IEEE, 109(1), 43-76.

[5] Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., & Darrell, T. (2014). Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474.

[6] Tzeng, E., Hoffman, J., Saenko, K., & Darrell, T. (2017). Adversarial discriminative domain adaptation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7167-7176).

청취자 후기

김정인

이번 세미나는 Deep transfer learning을 주제로 진행되었다. 기계학습 알고리즘은 학습 데이터(Source domain)와 테스트 데이터(Target domain)가 같은 특징 공간 내에서 동일한 분포를 둬야 한다는 가정을 전제로 하고 있다. 하지만 실제로는 Source domain과 Target domain 간의 domain 차이가 존재하거나 target domain의 관측치 수가 부족하고 레이블이 없거나 한정적으로 있는 상황이 존재한다. 따라서 source domain만을 사용해 학습된 모델을 target domain에 적용하게 된다면 성능이 굉장히 저하될 것이고 target domain을 활용해 독립적인 모델을 구상하는 것은 어렵다는 문제가 발생한다. 이에 따라 나온 방법이 바로 Transfer learning이고 해당 방법은 Source domain(Target domain과 유사한 domain)으로 학습된 Source model의 지식을 일부 전이(Transfer)하여 활용한다면 Target model의 성능을 향상할 수 있을 것이라는 가정을 전제로 시작되었다. 본 세미나에서는 Deep neural network 기반 Deep transfer learning의 2가지 전략인 Model-based strategy와 Feature-based strategy에 관해 설명하고 있다.

Model-based strategy는 network를 활용한 전이 학습 방법으로 기존의 대량의 Labeled dataset(source domain)을 활용해 source model을 학습하게 되면 해당 모델 내에 파라미터가 source domain으로부터의 지식의 갖고 있다는 가정을 전제로 한다. 해당 전략에는 우리가 흔히 알고 있는 sequential training approach가 해당하며 사전 학습된 source model에 일부 레이어의 앞부분(Low-level layers, 입력 데이터에 대한 보편적인 특징을 잘 추출하는 레이어들)의 파라미터는 고정하고 뒷부분(Higher-level layers, 입력 데이터의 테스크와 밀접하게 관련된 특징을 더 잘 추출하는 레이어들)은 미세 조정을 진행한다.

Feature-based strategy는 두 도메인(source & target)의 차이를 직접적으로 조정하는 적절한 mapping function network를 찾아내 풀고자 하는 task에 대한 성능은 높이면서 도메인 간의 차이를 줄이는 것을 목표로 하는 전략이다. 도메인 간의 차이를 줄이기 위한 방법으로는 discrepancy-based와 adversarial-based가 존재하고 전자의 경우 두 도메인간의 분포 차이를 직접적으로 계산해서 차이(거리)를 최소화해주는 방법론이고 후자의 경우 mapping function(feature extractor)을 통해 추출된 표현 벡터의 도메인을 구분하는 역할을 담당하는 domain discriminator를 두어 도메인간의 차이가 없게 하는 feature extractor와 도메인을 구분해주는 domain discriminator 간에 적대적인 학습을 기반으로 하는 방법론이다.

transfer learning 하면 sequential training approach를 주로 떠올렸는데 이번 세미나를 통해 Deep transfer learning이 크게 3가지 범주로 이뤄진 것을 알 수 있었고 그중 두 가지 범주에 대한 자세한 설명과 관련 논문에 대한 소개로 새로운 지식을 습득할 수 있어 굉장히 재밌게 세미나를 시청할 수 있었다. 유익한 세미나를 준비해준 김지현 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

배진수

학습 데이터셋이 갖는 도메인에 오버피팅 되기 쉬운 딥러닝 고유 문제점 때문에, 도메인 A 데이터셋에서 학습한 모델을 도메인 B 데이터셋에 단순히 적용하는 경우는 효과적이지 않다. 그러나, 도메인은 다르더라도 데이터 고유의 특징은 공통되기 때문에, 도메인이 달라도 잘만 이용하면 효과적으로 이용할 수 있다. 오늘 세미나에서는 데이터 도메인이 다르더라도 해결하고자 하는 Main Task에 Domain이 다른 데이터셋을 유의미하게 사용할 수 있는 방법을 자세히 다루었다. 인공신경망 모델 내에서 Front Layer일수록 Domain-Agnoistic한 데이터 특징을 학습하고 있다는 재밌는 연구 결과 이를 입증할 수 있는 연구 프로토콜이 흥미로웠다. 또한, 도메인 차이로 인해 발생한 서로 다른 두 Feature Space를 하나의 공통된 Feature Space에 Mapping 되도록 유도하여, 도메인 차이에 강건한 데이터 특징 학습 방법론이 소개되어 있다. 핵심은 Feature Space의 중심점들이 멀어지는 것에 제약을 걸거나, Adversarial Layer를 통해 도메인간 구분이 어려워지도록 하는 방법을 사용하고 있다. 좋은 세미나를 준비해준 지현이에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

고병은

이번 세미나는 Deep Transfer Learning 이라는 주제로 진행되었고 우선 기본적인 개념부터 출발하여 상세히 설명이 진행되었다. 배우사진을 활용한 introduction을 통해 앞선 세미나를 통해 대략적으로 이해하고 있던 개념을 더욱 확실하게 이해할 수 있었다. 기존의 방법론은 학습 데이터와 테스트 데이터가 같은 feature 공간내에서 동일한 분포를 가져야하는 가정을 전제로 하고 있기 때문에 이러한 가정이 틀어지는 순간 정확도가 낮아지게 되고 이를 도메인간의 간격을 좁혀 정확도를 높이고자 하는 연구가 Transfer Learning 이라고 한다. 본 세미나에서는 model-based와 feature-based 2가지에 대해 집중적으로 진행되었다. 첫번째인 model-based strategy는 우선 source 도메인 데이터로 network를 학습시킨 뒤 network의 앞단과 뒷단을 분리하여 앞단은 고정하고 뒷단을 target network로 미세조정하는 방법을 사용한다. 관련된 논문을 소개해주었는데 해당 논문에서는 총 7개의 layer 중 앞의 3개를 source 도메인을 학습하고 뒤에 4개를 target 도메인을 학습하는데 사용할 경우 가장 높은 성능을 냈다고 한다. 그런데 데이터의 양이나 레이블된 데이터가 부족한 target 도메인을 학습하는데 많은 layer(4개)가 필요로 하다면 여러 제약 상황속에서 제대로 학습이 될까?라는 의문이 들어 해당 논문을 찾아봐야겠다는 생각이 들었다. 두번째로 feature-based strategy를 소개하였고 해당 전략은 다시 discrepancy와 adversarial 기반 방법론으로 나누어진다. Discrepancy 기반 방법론은 source network와 target network에서 특징을 추출하는 feature extractor를 서로 공유하며 각 도메인에서 나온 representation vector간의 거리를 줄이는 방법으로 feature extractor를 학습시켜 도메인간의 차이를 줄인다. 특히 vector간의 거리를 계산하는데 MMD라는 measure를 사용하는 논문이였고 KL divergence만 알고 있었기에 새로운 개념을 접할 수 있어서 좋았다. 다음으로 adversarial 기반은 GAN을 생각하면 쉽게 이해할 수 있었다. 특이사항으로 추론 단계에서 pre-training에서 학습했던 classifier와 adversarial adaptation에서 학습했던 target network를 합쳐서 추론하게 되는데 전혀 다른 곳에서 다른 데이터로 학습된 network가 하나로 합쳐져서 높은 성능을 낸다는 것이 굉장히 인상 깊었다. 최근에 많이 연구되고 있는 Transfer Learning이라는 주제에 대해서 이해하기 쉽게 좋은 세미나를 준비해준 김지현 연구원님께 감사의 말씀을 전하며 이상으로 세미나 후기를 마친다.

이종현

이번 세미나는 deep transfer learning 에 대하여 진행되었다. 딥러닝의 발전에 따라 성능이 좋은 large model 들이 많이 공개되었지만, 해당 모델들은 방대한 양의 데이터로 특정 task 를 풀기 위해 학습되었기 때문에 다른 task 에 적용할 수 없다는 단점이 있다. 일반적으로 deep learning 에서 특정 task 를 수행하기 위한 모델을 학습시킬 때 학습 데이터와 테스트 데이터가 같은 domain 에 있어야 한다는 strict 한 가정을 전제로 하기 때문이다. 이번 세미나는 이러한 문제를 해결하기 위해 등장한 방법론인 transfer learning 에 대하여 소개한다. Transfer learning 이란 충분한 양의 레이블 된 source domain 과 source task 를 풀기 위해 학습된 모델만 있는 상황에서, 유사하지만 다른 domain 으로 상이한 task 를 풀기 위해 기존 모델이 학습한 지식을 전이하는 방법론들을 의미한다. Transfer learning 을 적절히 활용하여 기존에 이미 학습이 완료된 모델의 지식을 새로운 task 를 풀기 위한 모델에 전이한다면, 새로운 task 의 target domain 의 관측치 수가 부족하고 label 이 없는 상황에서도 좋은 성능을 낼 수 있다. 본 세미나는 이러한 transfer learning 의 두가지 approach 를 소개한다.

처음으로 소개한 방법론은 Model based strategy 로, 사전 학습된 source model 의 파라미터 및 모델 구조를 적절히 활용하여 target model 의 학습을 돕는 방법론이다. 해당 방법론 중 본 세미나는 대표적인 전이학습 방법론인 sequential training approach 를 소개한다. Sequential training approach 에서 source model 의 앞 layer 들의 구조와 파라미터를 target model 에 그대로 이어 freeze 한 뒤 나머지 layer 을 target model 의 task 에 맞게 fine tuning 하는 방식을 사용한다. 앞 layer, 즉 lower-level layer 들은 데이터의 보편적인 특징을 잘 추출한다는 특징이 있기 때문에 그대로 freeze 한 뒤, higher-level layer 들을 task-specific representation 에 맞게 새로 구축한다.

두번째로 소개한 방법론은 Feature based strategy 로, 데이터 domain 간의 차이를 직접적으로 조정하는 방법론들이다. 이는 domain 간의 분포차를 직접 조절하는 discrepancy based approach 과 mapping function이 domain discriminator 상대로 적대적인 학습을 진행하는 adversarial based approach 로 나뉜다. Discrepancy based approach 는 source task 과 target task 를 위해 두 모델을 학습 시킬 때 각 domain 의 데이터를 추출하는 feature extractor 의 아웃풋의 간극을 최소화 시키는 방식으로 학습된다. 이때 두 모델의 feature extractor 은 weight 를 공유한다는 특징이 있다. 반면 Adversarial based approach 는 feature extractor 의 아웃풋을 다시 인풋으로 받아 해당 feature 가 어느 domain 에서 왔는지 분류하는 domain discriminator 를 추가함으로써, 해당 분류기가 feature extractor 와 서로 적대적으로 학습하도록 한 뒤 결과적으로 domain 차이를 구분하지 못하더라도 target task 에 대한 성능을 높히는 방법론이다.

Large model 들의 weight 들이 오픈소스로 공개되며, fast.ai 와 같이 해당 pretrained model 을 간편하게 사용 할 수 있는 high level 패키지들 또한 많이 공개되고 있는 추세이다. 이처럼 간단하게 전이학습을 할 수 있도록 많은 api 들이 공개되었지만,본인은 sequential approach 를 통해 fine tuning 만 사용해 보았기 때문에 transfer learning 의 다양하고 새로운 방법론들을 접할 수 있어 해당 세미나를 굉장히 유익하게 시청할 수 있었다. 유익한 발표를 준비해준 김지현 연구원에게 감사의 말씀을 드리며, 세미나 후기를 마친다.

김성수

이번 세미나는 딥러닝을 활용한 Domain Adaptation에 대해 진행되었다. 학습 데이터와 학습 데이터의 분포가 크게 다를 경우, 학습 데이터에는 좋은 성능을 보였던 모델이 정작 평가 상황에서는 잘 작동하지 않는 경우가 있다. 이러한 상황에서 모델이 강건해지도록 적용하는 것이 바로 Domain Adaptation이다. 이러한 문제가 있다면 평가 데이터와 유사한 데이터로 학습하면 되지 않을까? 라는 의문을 갖게된다. 하지만 현실에서는 주어진 과제에 정확하게 일치하는 데이터는 부족하기에, 이러한 상황에서 Domain Adaptation은 유용하게 활용될 수 있다.

본 세미나에서는 크게 2가지 Domain Adaptation 방법론을 소개한다. 먼저 Model-based Approach는 사전학습된 Source 모델의 Encoder를 떼어와서 주어진 Task에 맞게 Classifier만 다시 학습하는 방법론이다. 이러한 방법이 효과가 있는 이유는 딥러닝에서는 낮은 층에서는 일반적인(General)한 특징들을 추출하고, 높은 층에서는 정교한(Task-specific)한 특징을 추출하기에, 효과가 있었다고 본 세미나에서는 주장한다. 두 번째 방법론은 Feature-based Approach이다. 여기서도 2가지 세부 방법론으로 나뉜다. 먼저 Discrepancy-based Approach는 Representation 벡터의 거리를 최소화하는 방식으로 이루어진다. 이때, Representation 벡터의 거리를 측정할 수 있는 척도로는 MMD, KLD 등이 존재한다. 두 번째 방법론은 Adversarial-based Approach이다. 이는 GAN이 학습하는 것처럼 서로 적대적으로 학습한다. 본 연구에서는 ADDA라는 방법론을 소개하는데, 해당 방법론에서는 사전학습한 Source Encoder를 활용하여 Target Encoder와 서로 적대적으로 학습한다는 특징을 갖는다.

이번 세미나를 통해 Domain Adaptation의 여러 방법론들을 접할 수 있었다. 최근 연구실에서 Domain Adaptation 관련 세미나가 많이 수행되고 있는데, 관련 논문을 한 번도 읽어본 적이 없었음에도 해당 분야에 지식이 차곡차곡 쌓이는 것 같아 정신적으로 즐거움을 느낀다. 개인적으로는 본 세미나에서는 앞선 3가지 방법론 중 2가지 방법론이 2-stage로 학습한다는 것이 눈에 들어왔다. 2-stage로 학습하는 것은 아무래도 학습하는 시간이 오래 걸리기에, End-to-End로 학습할 수 있는 방법론이 있는지 개인적으로 궁금증이 생겼다. 유익한 세미나를 준비해주신 김지현 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이영재

이번 세미나는 How to Transfer Knowledge Across Domains by Deep Neural Network? 주제로 지현이가 발표하였다. 다양한 산업에 인공지능을 적용할 때, 대부분 학습 데이터와 테스트 데이터 간의 분포 차이가 존재한다. 특히 도메인 관점에서 비슷하면서도 세부적인 특징이 다른 학습, 테스트 데이터로 이루어져있다. 이번 세미나는 Transfer Learning으로 서로 다른 분포를 이루는 학습과 테스트 데이터를 다루는 전략 Model-Based와 Feature-Based를 소개하였다. 최근 개인 연구로 Mismatch 문제 해결, 강화학습에서 새로운 환경에 대한 일반화 등 비슷한 결의 연구를 진행하고 있다. 개인 연구들은 Self/Semi-Supervised Learning을 활용하여 해결하고 있는데 이번 세미나에서 소개한 전략을 토대로 향후 연구에 새로운 방법론을 제시할 수 있는 좋은 아이디어가 나오는 계기가 되었으면 한다.

심세진

이번 세미나는 Deep Transfer Learning을 주제로 진행되었다. 기존의 머신러닝은 학습 데이터와 테스트 데이터가 동일 분포를 가져야 한다는 가정을 갖고 있다. 그래서 학습 데이터와 테스트 데이터가 다를 경우 성능이 좋지 않다는 문제 사항이 발생된다. 해당 연구 분야는 데이터를 모델 학습 시 활용하고 양질의 레이블 데이터를 가진 Source Domain, 모델 평가 시 활용하고 Source Domain보다 적거나 희박하고 다른 분포를 가진 데이터를 Target Domain 라고 정의한다. 여성의 표정을 Source Domain, 남성의 표정을 Target Domain이라고 예시 든다면, 여성의 표정에서 남성의 표정을 예측하는 것은 다르지만 유사하기에 더 잘 예측할 수 있게 모델을 만드는 것이다.

Deep Transfer Learning의 방법론은 Instance Weighting, Model-Based, Feature Transformation 총 3가지 카테고리로 구분 가능하며, Instance Weighting은 단순 가중치를 통해 활용하는 방법론으로 고차원 데이터에 맞지 않기 때문에 나머지 2개 방법론에 대해 소개되었다. Model-based 방법론은 Source Domain에서 학습한 모델 파라미터를 Target Domain에 가져와서 앞 레이어로 고정한 후, 뒤 레이어는 Fine tuning하는 방식이다. Feature-based은 새로운 Representation Data를 만들기 위한 방법론으로 세부적으로는 적정한 Mapping Function을 찾는 게 목적으로 도메인간 거리를 계산하는 Discrepancy-Based와 어느 도메인으로부터의 데이터 인지를 판별하는 Discriminator를 활용하는 Adversarial-Based로 구분된다.

해당 세미나를 통해 Deep Transfer Learning이 필요한 문제 사항 정의에 대해 잘 이해할 수 있었다. 현실적으로 양질의 레이블링 된 데이터를 찾는 것은 많은 비용이 소요되기 때문에 현업의 문제를 해결하기 위해 앞으로 많이 연구될 분야라는 생각이 들었다. 좋은 세미나를 준비하느라 고생했다는 감사의 말을 김지현 연구원님께 전하며 세미나 후기를 마친다.

정재윤

이번 세미나는 Deep transfer learning이라는 주제로 진행됐다. 딥러닝에서는 학습 데이터와 검증 데이터가 같은 domain에 있어야 한다는 제약이 존재한다. 이러한 제약은 딥러닝 모델이 데이터에 Overfitting하는 문제 때문에 생긴 것이다. 최근 연구에는 자기지도학습, 준지도학습 등올 이러한 제약을 극복하고자 하며, Deep transfer learning 역시 같은 아이디어에서 출발한다. Deep transfer learning에는 크게 3가지로 나뉘며, 이번 세미나에서는 Model-based strategy와 Feature-based strategy에 대해 설명했다. 이 중 특히 인상 깊었던 점은 Feature based strategy로, 데이터 분포 차이를 바탕으로 이를 줄여나가는 학습 방법이다. Adaptation layer를 활용하여 분포를 줄이거나, Adversarial loss를 통해 분포를 줄이는 방법들이 신선했다. Transfer Learning에 대해서 자주 언급하고 개념적으로는 알았으나, 깊게 알지는 못했는데 이번 세미나를 통해 제대로 공부할 수 있었다. 좋은 세미나를 준비해준 지현이에게 감사의 말씀을 전하며, 세미나 후기를 마친다

김창현

이번 세미나는 deep transfer learning을 주제로 진행되었다. 기존 머신러닝 방법론은 학습 데이터와 테스트 데이터가 같은 feature space 내에서 동일한 분포를 갖는다는 가정을 전제로 한다. 하지만 실제로 풀고 싶은 target domain은 모델이 학습된 source domain 보다 관측치 수가 부족하고, 레이블이 없거나 한정적으로 존재하는 문제가 있다. 이를 해결하기 위해 source model의 지식을 일부 이전(transfer)하여 활용한다면 target model의 성능을 향상 시킬 수 있을 것이라는 가설을 통해 등장한 방법론이 transfer learning 이다.

본 세미나에서는 transfer learning의 방법으로 model-based strategy와 feature transformation strategy를 소개한다. 우선 model based 전략은 사전 학습된 source deep model의 파라미터와 모델 구조를 활용하여 해결하고 싶은 target model 학습에 도움을 받는 구조이다. 이 중 Seuquential training approach 방법은 대량의 레이블 정보가 있는 source domain을 이용하여 source model을 사전학습하고, 이후 source model의 앞 부분 layer의 파라미터는 freeze하고 나머지 layer는 targer domain을 이용해 미세 조정(fine tuning)하는 방법이다. 여기서 general한 feature를 추출하는 앞 부분이 어디까지고, specific한 feature를 학습하는 뒷 부분이 어디인지 의문이 들었다. 소개된 논문에선 ablation study를 통해 선정했다고 하는데, 효과적인 방법인지 의문이다.

Feature transformation 전략은 새로운 데이터 공간에서 도메인 간 분포를 최소화하거나 도메인 차이에 강건한 표현을 생성하는 방법이다. 도메인 간 분포를 최소화하는 방법은 discrepancy approach로 MMD와 같은 '거리' 측정 지표를 최소화하는 방법이다. 도메인 차이에 강건한 표현을 생성하는 방법은 adversarial based approach로 domain의 차이를 구분하는 것을 포기하면서 target task 해결 성능에 집중하는 방법이다. GAN과 유사한 구조로 학습되는 것이 특징이다.

지금까지 전이학습을 구현할때는 fully connnected layer 이전의 파라미터는 고정시키고 분류기만 fine tuning하여 사용하였다. 그러면서 속으론 '왜 fully connected layer 이전까지만 고정할까?'라는 의문이 있었는데 귀찮음으로 넘어가곤 했었다. 이번 세미나를 통해 transfer learning에 대한 심도 있는 이해를 얻을 수 있었다. 양질의 세미나를 준비해준 지현에게 감사의 말을 전하며 후기를 마무리한다.

Seminar