Flat Minima Optimizer for generalization performance
- 2024년 12월 20일 오전 11:32
- 조회수: 4532
INFORMATION
- 2024년 12월 20일
- 오전 12시 ~
- 온라인 비디오 시청 (YouTube)
발표자:
정용태
TOPIC
Flat Minima Optimizer for generalization performance
On-Line Video
OVERVIEW
인공 신경망 모델 최적화를 위해 Stochastic 및 Adaptive Gradient-based Optimizer (SGD, Adam 등)가 널리 활용되고 있다. 최근에는 모델의 일반화 성능을 향상시키기 위한 Flat-Minima Optimizer 기법들이 주목받고 있다. 이 기법들은 손실 함수값이 낮으면서도 넓은 영역에서 비슷한 값을 갖는 Flat Minima를 찾음으로써, 학습 데이터와 테스트 데이터 간 loss landscape 차이에도 성능 저하를 최소화하고자 한다. 이를 통해 다양한 분포의 테스트 데이터에 대해서도 강건한 성능을 보이는 것을 목표로 한다. 본 세미나에서는 대표적인 Flat-Minima Optimizer인 Stochastic Weight Averaging (SWA)와 Sharpness-Aware Minimization (SAM)을 소개하고자 한다. 또한, 해당 방법론들을 Computer Vision, Natural Language Processing 등 다양한 벤치마크에 적용한 결과를 통한 인사이트를 공유하고자 한다.
참고문헌:
[1] Izmailov, P., Wilson, A. G., Podoprikhin, D., Vetrov, D., & Garipov, T. (2018). Averaging weights leads to wider optima and better generalization. In 34th Conference on Uncertainty in Artificial Intelligence 2018, UAI 2018 (pp. 876-885).
[2] Foret, P., Kleiner, A., Mobahi, H., & Neyshabur, B. Sharpness-aware Minimization for Efficiently Improving Generalization. In International Conference on Learning Representations.
[3] Kaddour, J., Liu, L., Silva, R., & Kusner, M. J. (2022). When do flat minima optimizers work?. Advances in Neural Information Processing Systems, 35, 16577-16595.
청취자 후기
배진수
금일 세미나는 generalization gap을 줄이기 위한 optimization for finding a flat minima에 관한 세미나를 청취하였다. Underfitting 이슈를 고려해보았을 때 flat minimia가 늘 좋을 것이라는 생각은 하지 않았지만, 실험 결과 섹션을 보면 딥러닝의 특성 때문에 그런지 대부분 성능 향상 효과가 있다. 종종 loss landscape를 시각화한 결과들이 있었는데, 해당 결과들은 어떻게 획득하였는지 방법이 복잡하지 않다면 나도 배우고 싶다는 생각이 들었다. Logging 관점에서 여러모로 좋은 tool이 될 것 같다는 생각이었다. SWA 방법의 경우 implementation detail이 적은 편이기 때문에, 프로젝트 단위에서도 사용하면 좋을 것 같다는 생각이 들었고, SAM 방법의 경우 adversarial training의 motivation과 유사하다는 생각이 들었다. SWA 방법과 SAM 방법에 대한 자세한 EDA를 진행한 성격의 논문도 맨 마지막에 소개되었는데, 해당 성격의 연구도 참 중요하다는 생각이 들었다.