- 2023년 7월 10일 오전 11:38
- 조회수: 13946
INFORMATION
- 2023년 7월 14일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Image Augmentation and Adversarial Learning-based Methods 관련하여 진행하였다. 이미지 분류 분야에서 딥러닝은 우수한 성능을 보여주고 있다. 하지만 데이터 수집 비용, 불균형 문제, 일반화의 필요 등 다양한 원인이 딥러닝 학습을 어렵게 한다. 이를 해결하기 위해서 데이터 증강 기법이 활용되고 있다. 하지만 해당 문제에 따라서 적합한 증강 기법이 존재하기 때문에 데이터 셋에 따른 증강 기법을 선정하는 과정이 필요하다. 이에 따라 이번 세미나에서는 데이터셋에 최적화된 이미지 증강 기법을 선정하는 방법에 대해서 살펴본다. 우선 survey 논문에서 증강 알고리즘은 3개의 큰 카테고리(Model-free, Model-based, Optimizing policy-based)로 분류된다고 하며 이에 대하여 예시로 이해하기 쉽게 설명한다. 해당 3가지의 카테고리 중 Optimizing policy-based에 중점을 두고 있는데, 이유는 Domain Knowledge가 필요없다는 장점을 가지고 있기 때문이다. Optimizing policy-based에는 Reinforcement learning-based와 Adeversarial learning-based로 나눌 수 있다. Reinforcement learning-based의 큰 특징은 이미지를 생성하는 방법을 학습한다는 것이다. 대표적인 방법론은 AutoAugment가 존재한다. AutoAugment는 Controller가 사전에 정의된 증강기법들을 이용하여 데이터를 증강하고 child model을 통해 validation의 정확도를 살펴보면서 현 데이터셋에 최적이 되는 증강기법을 찾는 방법론이다. Adeversaral learning-based는 기존의 이미지를 Hard Sample로 증강하는 것을 말한다. 이유는 Hard Sample은 Large Training loss를 만들고 이는 일반화 하는데 유용하기 때문이다. Adeversaral learning-based의 첫번째 소개한 방법론은 AA이다. Target Network(이미지 분류)와 Policy Network(증강 최적)를 동시에 학습을 하며 REINFORCE알고리즘이 사용된 방법론이다. 해당 방법론에서 흥미로웠던 점은 batch마다 Policy를 변경하면서 실험 결과에서 어떤 Policy가 epoch마다 달라지는지를 시각적으로 확인할 수 있었다는 점이다. 두번째 소개한 방법론은 IF-DA이다. GAN의 프레임워크를 기반으로 하고 Influence Function(instance의 가중치의 변화를 통해 특정 Sample을 제거하는 Function)을 사용하여 Computation Cost를 줄이고 미분 가능한 Augmentation 구조를 도입한 방법론이다. 이를 통해서 기존 AA보다 속도 측면에서 600배 빠르다고 한다. 세번째 소개한 방법론은 SPA이다. Train dataset 전부를 증강 하지 않고 증강에 적합한 이미지만을 증강 하는 방법론이다. 이미지의 loss가 Threshold를 넘으면 증강을 하여 loss를 낮출 수 있도록 하고, 이미 loss가 Threshold보다 낮다면 증강을 하지 않는 방법을 도입하여 선택적으로 데이터를 증강하는 방법론이다. 마지막 방법론의 적용을 고민해보았을 때 회사에서 적용한다면 매우 유용할 것으로 생각이 들었다. 반도체의 불량 이미지는 자주 나타나는 것도 있지만 자주 나타나지 않는 것들이 많기 때문에 해당 방법으로 선택적으로 증강을 하는 방법을 도입한다면 불량 분류에 도움이 될 것으로 생각하였다. 이번 세미나를 통해서 데이터 셋에 따라 적합한 증강 기법이 있다는 것과 그에 맞는 증강 기법을 자동으로 선정하는 방법에 대하여 자세하게 알 수 있었다. 기존에는 증강이라고 하면 어떻게 잘 생성할까만 고민 했지만 어떻게 적합한 방법론을 자동으로 선정 할 수 있을까 하는 새로운 시각을 배울 수 있었다. 유익한 세미나를 준비해주신 고병은 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 데이터 증강에 관련하여 진행되었다. 흔히 자기지도학습이나 준지도학습에는 단순한 변형 수준의 데이터 증강을 활용하지만, 이번 세미나에서는 학습 기반의 데이터 증강 기법을 소개한다. 이때, 단순한 인공신경망 뿐만 아니라 GAN이나 강화학습을 활용한 연구들을 다룬다.
첫번째 방법론은 이미지 분류를 위한 Target Network와 최적 증강을 위한 Policy Network를 동시에 학습한다. 이때 Gradient가 단절되는 문제를 갖지만, 강화학습의 성질로 이를 보완하였다. 두 번째 방법론은 Influential Instance를 식별하여 데이터 증강의 적합성을 판단한다. 어느 Sample이 제거되었을 때 변화되는 성능을 측정할 수 있다면, 데이터 증강의 적합성을 판단할 수 있다고 가정한다. 하지만 이 경우 모델을 계속 재학습 해야하는 Cost가 발생할 수 있는데, 이를 Training Loss 및 가중치를 활용하여 근사추정함으로써 극복하였다. 마지막 방법론은 모든 이미지를 증강하는 것이 아닌, 특정 Sample만 증강하자는 것이 취지이다. 이때 특정 Threshold를 넘는 Sample들만 증강하며, 이러한 Sample을 산정하기 위해 Curriculum Learning 및 Loss Function Instability를 활용한다.
이번 세미나를 계기로 데이터 증강의 다양한 접근방법에 대해 알 수 있었다. 특히 서론에서 데이터 증강의 Taxonomy를 보며 데이터 증강 연구의 깊이를 다시 한 번 실감할 수 있었다. 또한 2주전 데이터 증강 세미나에서 생긴 학습 기반의 데이터 증강의 효용성에 대한 의문을 해소할 수 있었다. 개인적으로 내용이 꽤나 흥미로운 것 같은데 아직 완벽하게 이해하지 못한 점이 아쉽다. 발표자분께서 논문을 이해하고, 자료를 만드는 과정에서 많은 노력이 느껴지는 세미나였다. 유익한 세미나를 준비해주신 고병은 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 이미지 증강 기법에 대해 고병은 연구원이 공유해주었고, 개인적으로는 Adversarial Learning을 기반으로 하는 방법론이 인상 깊었다. 관심 연구 분야인 Domain Adaptation, Domain Generalization 분야에서 adversarial gradient를 통해 input image를 증강하는 기법이 이미 널리 쓰이고 있어서 비교하며 들을 수 있었다.
고병은 연구원님이 소개해준 방법론들은 loss를 키우는 방향의 Hard Sample을 찾아서 증강하는 것을 골자로 하는데, 모델 학습을 어렵게 만들어 worst case를 방지하고자 한다는 점에서 일반화 성능을 높이고자 할 때 잘 활용할 수 있을 것이란 생각이 들었다. Learning augmentation net via influence functions의 경우, 샘플을 제거해가며 loss의 변화를 살피면 hard sample을 찾아나갈 수 있다는 아이디어가 흥미로웠다. '샘플'을 제거해나간다는 관점에서 computational cost가 클 것 같았는데, 실험 결과를 보면 기존 방법론보다 600배는 빠른 속도를 자랑한다고 하여 Influence function 알고리즘을 더 깊게 공부해보고 싶어졌다. 더불어 마지막에 공유해주신 Self-paced data augmentation for training neural networks에서는 loss의 threshold를 넘는 sample에만 augmentation을 적용하는 방법론을 제안했는데, timeseries 및 signal과 같이 증강 기법을 세심하게 적용해야 하는 데이터에서 유용하게 사용될 수 있지 않을까 하는 생각이 들었다.
Adversarial Learning은 학습 불안정성 등의 한계를 가지고 있지만, 그럼에도 불구하고 데이터 증강 및 생성, 도메인 적응 및 일반화 등 다양한 분야에서 범용적으로 활용되고 있다는 것을 다시금 느꼈다. 논문에 나온 수식을 꼼꼼하게 잘 설명해주신 고병은 연구원님 덕에 논문을 읽지 않았는 데도 읽어본 것만 같아서 감사하다는 말씀을 드리고 싶다. (IF-DA와 SPA는 직접 읽어보고 싶어졌다.)

적대적 학습 기반의 데이터 증강 기법에 관한 세미나를 청취하였다. 데이터 증강은 데이터 수집 비용이 높거나 불균형한 분야에서 유용한 솔루션으로 사용될 수 있으며, 점점 커지고 복잡해지는 딥러닝 모델을 위한 대규모 데이터셋 구축에도 효과적인 방법이다. 또한, 준/자가지도 학습과 같이 다양한 분야에서 데이터 증강 기법들을 필수적으로 사용하고 있기 때문에, 본 세미나가 여러 연구원들에게 큰 도움이 될 것 같다.
좋은 증강 기법을 찾기 위해서는 여러 가지 시행착오가 필요하며, 이 세미나에서는 강화학습을 활용하여 좋은 증강 기법을 효율적으로 파악할 수 있는 방법과, 손실 함수 값을 증가시키는 증강 기법이 모델의 일반화 성능 향상에 큰 도움이 될 것이라는 가정을 둔 적대적 학습 기반 증강 기법 등을 소개하고 있다. 또한, Influence Function과 같은 흥미로운 개념을 소개하며 좋은 증강 기법 전략이 무엇인지 생각해 볼 수 있는 점들을 소개하고 있고, 모든 데이터에 대해 증강을 하는 것보다는 특정 데이터에만 증강을 적용하는 것이 좋다는 아이디어를 커리큘럼 알고리즘과 연관 지어 언급하고 있다. 많은 연구원들이 준/자가지도 학습을 연구하고 있는 것으로 알고 있는데, 본 세미나가 해당 연구원들에게 큰 도움이 될 것 같다. 좋은 세미나를 준비해주신 병은이 형께 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 Image Augmentation and Adversarial Learning-based Methods을 주제로 진행되었다. 이미지 증강 기법은 데이터 수집 한계 점을 극복하기 위해 제안 되었다. 증강 기법은 데이터에 매우 민감하고 방법론 별 증강 기법이 상이하기 때문에 결정 과정이 매우 힘들다는 특징이 있다. 본 세미나에서는 모델이 알아서 최적의 증강기법을 선택하거나 새로운 이미지를 생성해내는 방법론에 대해 소개하고자 한다.
첫 번째 소개된 논문은 서베이 논문으로 이미지 증강을 위해 특별한 모델 학습이 필요하지 않은 model-free, 이미지 증강을 위해 모델의 학습이 필요한 model-based, reinforcement와 adversarial을 기반으로 하는 optimizing policy-based 방법론이 소개되었다. 두 번째 논문은 Autoaugment로 증강 기법 사용 시 강화 학습을 사용하여 controller를 통해 증강 기법을 수정한다. 세 번째 논문인 Adversarial Autoaugment Target 네트워크와 Policy 네트워크가 적대적인 학습을 하는 특징을 갖고 있다. 네 번째 논문인 IF-DA는 Influence function을 사용하여 GAN을 기반으로 증강을 도입하였다. autoaugment보다 성능은 약간 낮지만 속도가 600배 빠르다는 장점을 가지고 있다. 마지막 논문인 Self-paced data augmentation for training neural networks은 loss가 높은 증강에 적합한 sample들 만 증강 하는 학습을 진행하였다.
딥러닝 성능을 향상시키기 위해 증강 기법은 무척 중요하며, 나 또한 X 입력 값으로 어떤 데이터 형식을 사용하는지에 따라 상이한 증강 기법을 선택하고 있다. 강화 학습을 통해 증강 기법을 선택하거나 적대적으로 생성해내는 것은 본 세미나를 통해 알게 된 부분이라 무척 흥미로웠다. 특히, 마지막 논문의 경우 증강을 무조건적으로 전부 적용 하는 게 아니라 큰 loss가 계산되는진 샘플에 한해서 실행하는 것도 학습 자원을 위해 중요할 것 같다는 생각이 들었다. 유익한 내용의 세미나를 해준 고병은 연구원에게 수고했다는 얘기를 전하며 세미나 후기를 마친다.