- 2022년 7월 8일 오전 3:30
- 조회수: 5726
REFERENCES
INFORMATION
- 2022년 7월 8일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
참고 문헌 :
[1] Cubuk, E. D., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). Autoaugment: Learning augmentation strategies from data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 113-123).
[2] Müller, S. G., & Hutter, F. (2021). Trivialaugment: Tuning-free yet state-of-the-art data augmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 774-782).
[3] Zheng, Y., Zhang, Z., Yan, S., & Zhang, M. (2022). Deep autoaugment. arXiv preprint arXiv:2203.06172.
발표자 후기

Augmentation은 원본 데이터를 '일부'만 변형시키는 것으로, 그 정도를 주관적인 판단에 따라 최적화 하기는 매우 어렵다. 최적화를 모델에 맡기는 것이 얼마나 효과적일지, 또한 최적화된 결과는 어떻게 어떤 Augmentation 방법들을 선택했을지, 개인적인 궁금함에서 이번 세미나를 준비하게 되었다.
결론적으로, 어떤 데이터 도메인이라도 이러한 Auto Augmentation 방법론을 사용해보는 것은 생각보다 더 좋은 가이드라인을 제시해 줄 것이라는 생각이 든다. 엔지니어는 그다지 효과가 없을 것이라고 예상한 Augmentation이라도, 실제 모델의 선택을 보면 어느정도 사용되었을 때 가장 좋은 성능을 보이기도 한다는 것이다. 즉, 어느 정도의 사전지식과, 실험적인 요소들을 적절히 배합하기 위해서는 이러한 분야를 미리 사용해보는 것이 좋은 과정이라는 것이다.
이번 세미나를 통해서 최신 머신러닝, 딥러닝에서 굉장히 빈번히 사용되는 Augmentation들에 대한 이해를 좀더 넓힐 수 있었고, 실질적으로도 굉장히 유용하게 사용가능한 모델들이라는 점에서 개인적으로도 매우 흥미로웠다. 다만 논문의 컨셉만을 얕게 다뤘기 때문에 듣는 분들께 조금 아쉬웠을 수 있겠다는 생각이 든다. 그래도 많은 분들이 먼저 아이디어만이라도 먼저 이해해 주시고, 실제로 코드를 사용해보시면 좋을 것 같다는 바램이 있다. 들어주신 분들께 감사드린다.
청취자 후기

이번 세미나는 최적의 Data Augmentation을 찾는 방법에 대하여 진행되었다. Data Augmentation의 중요성은 알고 있었지만, 이들 중에서도 최적의 Data Augmentation에 대해서는 생각해본 적이 없었기에 흥미롭게 들을 수 있었다. 적절한 Data Augmentation을 결정하기 위해서는 도메인 지식이 필요하며, 여러 실험을 통해 적절한 것을 찾아낼 수 있다. 하지만, 모든 도메인에 대해서 지식을 알기란 불가능하고, 매번 실험을 통해 오랜 시간이 걸려 최적의 기법을 찾는 것은 비효율적일수 있다. 본 세미나에서는 이를 극복하기 위하여 모델을 기반으로 최적의 Data Augmentation 기법을 찾는 방법론들을 소개하였다.
모든 방법론들은 AutoAugment에서 시작되었다. 적절한 Augmentation을 찾긴 하지만, Augmentation의 종류/강도/확률 3가지를 모두 고려하기에, Search Space가 매우 크다는 한계가 존재한다. 후속 연구들은 대다수 AutoAugment의 성능을 크게 앞서지는 않지만, 이러한 큰 Search Space를 극복하여 연산량을 줄이는 방향으로 연구가 이루어졌다. 예를 들어 Population-based Training이나, Train data와 Valid data의 분포를 맞춰주는 방법, 3가지 하이퍼 파라미터를 통합하는 등 각자 다양한 컨셉에서 연구가 이루어졌다.
본 세미나는 스스로에게 Augmentation의 중요성을 다시 한 번 상기시키는 계기가 되었다. 사실 어제도 개인적으로 연구하는 글자인식연구에서 어떤 Augmentation이 적절할 지 고민했었는데, 오늘 시기적절한 세미나를 듣게 되어 매우 반가웠다. 어제의 나는 Rotation과 같은 회전변환은 글자 인식에서 다소 위험할 수 있겠다는 수준에서 그쳤지만, 이러한 도메인적 접근을 넘어서 Augmentation을 새로운 관점에서 생각해보게 되었다. 유익한 세미나를 준비해주신 황성진 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 최적 Augmentation에 대해서 진행되었다. 데이터셋의 class간 균형이 안맞을 때나, 과적합을 피하고 싶을때 등 다양하게 데이터 증강 기법이 적용될 수 있고 실제로 아주 좋은 효과를 내고 있어서 데이터 augmentation은 굉장히 중요하다고 할 수 있다. 평소 세미나 혹은 논문을 읽으면서 데이터 augmentation을 접할 때 왜 굳이 이 방식의 augmentation을? 이라는 생각이 드는 적이 종종 있었는데 데이터 augmentation은 높은 수준의 도메인 지식이 필요하기에 어쩔수 없는 것인가... 라는 생각을 한적이 있었다. 이러한 문제를 해결하고자 Auto Augmentation이 제안되었고 Optimal augmentation을 모델을 통해서 찾는 분야가 활발히 연구되고 있다는 것을 본 세미나를 통해서 알 수 있었다. Auto Augmentation은 augmentation을 타입/확률/강도 3가지로 고려하여 가능한 모든 search space를 설정하고 강화학습을 통해서 최적화하는 형태로 진행되는 방법론이다. 해당 방법론을 사용하면 데이터셋 별로 최적 augmentation 기법을 결정할 수 있어서 실제 현장에서 데이터 분석 정확도를 높이려는 상황이라면 굉장히 유용할 것이라는 생각이 들었다. 후속 연구들은 앞서 언급한 search space가 지나치게 크기에 이를 축소하는 것에 초점이 맞춰져 있는데 굉장히 드라마틱한 차이로 성능은 유지하면서 연산량을 줄이는 아이디어들을 확인할 수 있었다. 그런데 후속 연구들은 가면 갈수록 augmentation을 적게 적용 하는 듯한 느낌을 받아 기존 데이터를 최대한 활용하는 것 같은 느낌을 받았다. 또한 해당 연구들은 주로 이미지에 대하여 적용된 방법론들이기 때문에 tabular 데이터를 관심가지고 연구하는 입장에서 완전히 일치하지는 않지만, 데이터를 augmentation하는 아이디어는 tabular에서도 동일하게 적용될 수 있기에 아주 유익 하였으며 모델의 구성 자체가 hyperparameter로 들어가는 것이 현재는 익숙치 않고 강화학습에 대해서는 깊은 공부가 이루어지지 않아서 본 세미나를 기점으로 해당 분야도 공부해야겠다는 생각이 들었다. 흥미로운 주제로 세미나를 준비해주신 황성진 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

데이터 증강 기법 적용 이유와 강화학습 기반의 여러 데이터 증강 기법에 관한 세미나를 청취하였다. 강화학습 기반의 데이터 증강 기법은, 데이터 도메인에 대한 사전 지식이 충분하지 않아 어떤 증강 기법을 적용해야 할 지 모를 때 효과적이다. 모델 스스로 Validation Accuracy 성능을 높이기 위한 최적 정책(Augmentation)을 탐색해 별도의 도메인 사전 지식이 필요하지 않기 때문이다. 최적 정책(augmentation)을 탐색하기 위해서는 꽤나 방대한 양의 Augmentation 조합을 탐색해야 하는데, 오늘 소개된 연구들이 이러한 한계점들을 잘 돌파해가고 있는 것을 세미나로 알게 되었다. 세미나에서는 각 연구 별 흐름도(개선과정)가 잘 정리되어 있어, 향후 프로젝트에 알맞은 기법을 선택 사용하면 좋을 것 같다. 이 분야가 활발하게 연구되고 있는 것을 보아하니, 오픈 소스 코드도 잘 정리되어 있을 것 같다. 꼭 찾아서 프로젝트 및 개인연구에 적극 활용하는 자세를 갖춰야겠다. 흥미로운 분야를 잘 정리하여 발표해주신 성진이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

금일 세미나는 최적의 data augmentation 찾기를 주제로 진행되었다. Data augmentation은 데이터의 label 정보는 일부 보존하면서, 원본 데이터에 인위적인 변화를 주어 새로운 데이터를 생성함으로써 데이터의 수를 늘리는 방법이다. Augmentation이 적용된 데이터는 주로 모델의 성능 향상이나 데이터의 근본적인 특징 추출을 돕는 목적으로 활용된다.
Data augmentation은 도메인마다 효과적인 방법이 존재한다. 이때 도메인에 적합한 augmentation을 선정하기 위해서는 전문적인 사전 지식이 필요하고 주관적인 선택만으로는 최적의 augmentation 방법을 찾아내기 어렵다는 한계가 있다. 또, 최적의 augmentation 방법을 찾기 위해서는 적용할 방법 및 적용 강도 등을 모두 선정해야 한다. 따라서 이를 모델을 통해 결정하는 auto augmentation이 등장하였다. Auto augmentation 방법에는 AutoAugment, Population-based Augmentation(PBA), Fast AutoAugment(FastAA), RandAugment 등 다양한 방법이 있다.
Data augmentation은 다양한 도메인과 방법론에서 활발히 사용되는 기법이다. 연구와 프로젝트를 수행할 때도 augmentation을 다양히 활용하고 있어서 더욱 흥미롭게 세미나를 청취할 수 있었다. 본 세미나는 auto augmentation의 등장 배경 및 필요성과 여러 augmentation 방법의 특징을 전반적으로 설명해주셔서 유익한 세미나였다.