- 2024년 12월 20일 오전 11:32
- 조회수: 4672
INFORMATION
- 2024년 12월 20일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

금일 세미나는 generalization gap을 줄이기 위한 optimization for finding a flat minima에 관한 세미나를 청취하였다. Underfitting 이슈를 고려해보았을 때 flat minimia가 늘 좋을 것이라는 생각은 하지 않았지만, 실험 결과 섹션을 보면 딥러닝의 특성 때문에 그런지 대부분 성능 향상 효과가 있다. 종종 loss landscape를 시각화한 결과들이 있었는데, 해당 결과들은 어떻게 획득하였는지 방법이 복잡하지 않다면 나도 배우고 싶다는 생각이 들었다. Logging 관점에서 여러모로 좋은 tool이 될 것 같다는 생각이었다. SWA 방법의 경우 implementation detail이 적은 편이기 때문에, 프로젝트 단위에서도 사용하면 좋을 것 같다는 생각이 들었고, SAM 방법의 경우 adversarial training의 motivation과 유사하다는 생각이 들었다. SWA 방법과 SAM 방법에 대한 자세한 EDA를 진행한 성격의 논문도 맨 마지막에 소개되었는데, 해당 성격의 연구도 참 중요하다는 생각이 들었다.

강화학습에서 input과 target의 shift로 발생하는 plasticity loss에 대한 논문을 찾던 중 2023년도 NeurIPS에 게재된 PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning을 읽게 되었다. 해당 논문에서는 강화학습 에이전트가 학습이 진행되면서 input distribution shift와 input-target relationship이 바뀌게 되고, 이에 따라 새로운 분포 변화에 에이전트가 변하지 않고 정체되는 plasticity loss를 해결하기 위해 기존에 제안된 4가지 테크닉을 결합한 PLASTIC이라는 방법론을 제안하였다. PLASTIC은 전자를 해결하기 위해 layer normalization (LN)과 sharpness aware minimization (SAM)을, 후자를 해결하기 위해 concatenated relu (CReLU)와 reset 기법을 사용하였다. 이때, input data의 plasticity loss를 해결하기 위한 방법론 중 하나인 SAM을 보고, 예전에 용태가 진행했던 세미나에서 봤던것 같은데 싶어서 이번에 다시한번 유심히 정독하였다.
본 세미나에서 소개한 논문은 3개지만, 거의 방법론 2개와 해당 방법론 2개에 대한 비교와 고찰로 이루어져있다. 해당 논문들을 소개하기 앞서, 이번에 용태의 세미나 덕에 어떠한 딥러닝 방법이 높은 일반화 성능을 얻기 위해서는 local minima의 landscape가 flat해야 한다는 사실 하나는 제대로 알게 되었다 (고맙다 용태야).
1. [2018 UAI] Averaging weights leads to wider optima and better generalization (SWA)
여러 local minima가 서로 이어져 있다(mode connectivity)는 것을 통해, 변동하는 learning rate에서 수렴한 local minima들에 대한 ensemble을 모델로 활용한다. 학습은 단일 학습으로 이루어지지만, 여기서 발생한 여러 모델의 inference를 aggregate해야하기 때문에 computational cost가 크다는 것이 단점이다.
2. [2021 ICLR] Sharpness-aware minimization for efficiently improving generalization (SAM)
empricial loss(training loss) 뿐만 아니라 loss 자체의 sharpness를 최소화하기 위한 gradient update 방식을 제안한다. PAC Bayesian generalization bound를 통해 sharpness가 일반화에 영향을 미치는 것을 보이고, max operation으로 인한 미분 불가를 first order tailor expansion으로 추정한다. 이후, dual norm problem을 통해 adversarial noise가 주어졌을 때의 SAM loss를 추정한다.
3. [2022 NIPS] When do flat minima optimzier works?
SWA와 SAM이 서로 어떨 때 잘되는지에 대해 고찰하고, 두 개를 결합한 WASAM을 제안한다. 통찰점 중 하나로써, NLP task나 Transformer 기반 모델에서는 SWA가 성능 저하를 일으킨다고까지만 실험적으로 얘기한다. 어림짐작 해보았을 때, 보통 해당 태스크에서 쓰이는 모델들은 보통 layner normalization (LN)을 주로 쓰는데, LN과 SWA의 어떤 인과관계가 있지 않을까라고 생각해보았다.
좋은 세미나를 준비하느라 고생한 용태에게 감사의 말을 전한다.