- 2024년 4월 26일 오후 2:03
- 조회수: 27881
REFERENCES
INFORMATION
- 2024년 4월 26일
- 오전 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나에서는 학습과 평가 데이터 간의 도메인 분포 차이(domain shift)를 줄이기 위해 최적의 모델 파라미터 선택에 초점을 맞춘 도메인 일반화 방법이 소개되었습니다. 여러 방법이 존재하지만, 그 중 3개의 논문에 대한 소개가 주된 내용을 이루고 있다.
1. In Search of Lost Domain Generalization (ICLR, 2020)
: 해당 논문에서는 학습, 검증 그리고 평가 데이터를 분할하는 접근 방식 세 가지를 활용하여 최적의 모델 파라미터를 선택하는 방법을 소개해주었다. 본 세미나에서 세 가지 접근 방식에 대한 평가를 위하여 동일한 백본 모델(Large model)과 데이터 증강 기법을 적용한 domainBed framework를 제안하였다고 말한다. 첫 번째 접근 방식은 (1)Training-domain validation set으로, 여러 도메인의 학습 데이터에서 학습과 검증 데이터를 분할하고 보지 못했던 새로운 도메인의 데이터를 평가로 사용한다. (2) Leave-one-domain-out cross validation은 여러 도메인 중 특정 도메인은 학습, 또 다른 데이터는 검증 그리고 보지 못했던 새로운 도메인을 평가 데이터로 활용한다. (3) Test-domain validation set은 여러 도메인의 데이터를 학습 데이터로 그리고 보지 못했던 데이터를 검증과 평가로 분할하여 사용한다. 실험 결과에서는 마지막 접근 방식의 성능이 가장 좋음을 보이고 있으며, 특정 도메인 일반화 기법이 아닌 본 논문의 ERM이 가장 좋은 성능을 보이고 있다고 소개되었다.
2. SWAD: Domain Generalization by Seeking Flat Minima (NeurIPS, 2021)
: 해당 논문에서는 robust risk를 정의하고 이를 최소화하는 것을 목표로 모델을 학습한다. 기존에는 global minimum에 해당하는 모델의 파라미터를 선정하여 보지 못했던 도메인에 대한 평가를 진행하였다. 이는 검증과 평가 데이터 간 성능 차이가 발생할 수 있다. 본 연구에서는 robust risk가 최소가 되는 지점을 찾게 되면 모델의 flat minimum을 찾을 수 있게 되며, risk가 최소인 모델의 파라미터를 사용하면 검증과 평가 데이터 간 성능 차이를 최소화하는 안정적인 성능을 확보할 수 있다고 한다. (실험으로 결과를 보여주고 있으며, 이론적인 부분은 세미나에서 upper bound에 대한 식에서 설명되고 있다.)
3. Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization (NeurIPS, 2022)
: 마지막 논문은 도메인 이동 평균법을 사용하여 도메인 분포 차이에도 강건한 모델의 파라미터를 선택하는 방법에 관해 소개한다. 앞서 소개된 두 논문과 비교하였을 때, 가장 간단한 구조를 띄고 있다고 생각한다. 사용자가 설정한 iteration전까지는 일반적인 파라미터 업데이트를 사용하고 이후에는 moving average를 사용하여 모델의 파라미터를 업데이트 한다. 이를 통해, 학습 데이터 내 검증 데이터와 평가 데이터에 대한 정확도 모두 안정적임을 실험을 통해 보여주고 있다. (이러한 결과를 원했다.) 특히, iteration과 moving average를 사용하는 업데이트 주기에 변화를 주며 실험을 돌린 결과, 평가 데이터의 정확도에 차이가 없음을 보여주었다. 이는 사용자 정의 매개변수를 사용하지 않아도 된다라는 말을 입증해주었다. 마지막으로, 서로 다른 seed와 사용자 정의 매개변수를 사용한 모델(moving average update 사용)에 대한 ensemble 모델이 더욱 안정적인 성능을 보여준다고 한다.
기존의 도메인 일반화 기법 세미나들과 달리, 이번 세미나는 최적의 모델 파라미터를 선정하여 도메인 분포 차이를 최소화하는 일반화 방법을 소개함으로써 매우 유익했다. 세미나를 준비하느라 고생한 용태에게 고마운 마음을 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 도메인 일반화 관점에서 학습 간 최적 모델을 효과적으로 선정하는 방법론들에 대하여 진행되었다. 본 세미나의 제목에 있는 Model Selection이란, “모델 학습 과정에서 어떻게 효과적으로 최적 모델을 얻을 수 있을까?”를 의미한다. 일반적인 딥러닝 모형들은 학습 과정에서 검증 데이터를 활용하여 최적 모델을 선정하나, 현실 상황에서는 검증 데이터와 평가 데이터의 분포 또한 다르기에, 이러한 방식은 적절하지 않을 수 있다. 따라서 본 세미나는 도메인 일반화 관점에서 어떻게 모델을 잘 선정할 수 있을지에 대하여 2가지 방법론을 소개한다.
1) SWAD: SWAD는 Flat Minima가 바로 도메인 일반화에서 최적 모델 포인트라고 설명한다. 이를 Robust Risk라고 정의하며, 이는 검증 데이터셋 성능이 일정한 구간을 의미한다. 즉, 해당 구간의 Weight는 데이터 분포가 변하더라도 강건한 구간이라고 정의한다. 따라서 해당 방법론은 Robust Risk 및 Domain Divergence를 줄이는 방향으로 학습하여 좋은 성능을 달성하였다.
2) EoA: 이는 Moving Average를 활용한다. 검증 데이터셋을 활용하기 보다는, 학습된 이전 Iteration 모델과 현재 Iteration 모델의 파라미터를 가중합(Moving Average)을 하여 안정적인 성능을 얻을 수 있었다. 이는 여러 모델들이 앙상블 된 효과를 얻을 수 있어 효과적이라고 설명한다.
본 세미나를 통해 Model Selection 관점에서 Domain Generalization을 바라볼 수 있었다. 학습 데이터와 다른 형태의 검증 데이터를 적용하여 최적 모델을 선정하는 것이 일반적인 접근이나, 해당 데이터가 평가 데이터와 상이하면 이는 의미 없는 과정일 수 있다. 이번 세미나는 이처럼 기존에 “당연하다고” 생각했던 요소들을 다시 한 번 생각해볼 수 있는 기회가 되었다. 유익한 세미나를 준비해준 정용태 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 domain generalization 문제 상황에서 model selection 관련 방법론들에 대해 소개하였다. 일반적으로 domain generalization은 학습 데이터와 시험 데이터 간의 분포를 최소화하는 것이 중요하지만, 이번 세미나에서 소개하는 방법론들은 어떻게 하면 학습 과정에서 어떻게 하면 테스트 데이터에도 좋은 성능을 보이는 모델을 선정하는 방법에 대한 내용을 다룬다.
[1] In Search of Lost Domain Generalization: 일반적으로 딥러닝에서는 iid가정을 바탕으로 학습 데이터를 통해 모델을 학습하고 검증 데이터를 통해 모델을 선택하게 된다. 그러나 해당 논문에서는 검증 데이터를 통해 선택한 모델이 최적이 아닐 수 있다는 점을 지적하며, 학습, 검증, 시험 데이터를 효과적으로 분리하는 3가지 model selection 방식을 활용한 DomainBed Framework를 제안하였다.
[2] SWAD: 본 논문에서는 robust risk에 대해 소개하고, 이를 최소화하는 flat minimum을 찾는 방식으로 모델을 학습한다면 domain generalization에 강건한 모델 선택이 가능하다고 제안하였다. Sharp minimum에서는 오히려 robust risk가 커지게 되지만, flat minimum에서는 robust risk가 큰 차이가 없다는 것을 설명하며, flat minima를 사용한다면 domain shift에도 강건한 성능을 보인다고 주장하였다. 더하여 이를 입증하기 위해 Robust risk의 수식 그리고 실험을 통해 보여주었다.
[3] Ensemble of Averages: 모델의 파라미터를 매 iteration의 moving average로 결정하는 방법이다. 이러한 moving average 방식으로 모델을 선택 시, 여러 모델의 앙상블 효과로 안정적인 성능을 얻을 수 있었다.
이번 세미나는 기존 domain generalization 방법론들과는 달리 domain shift를 직접적으로 해결하기 보다는 모델 선택에 집중하는 방법론들에 대해 소개하였다. 본 세미나를 시청하면서 문제를 해결하기 위해 때로 보다 넓은 관점에서 문제를 바라보는 것이 중요하다는 것을 다시한번 깨닫게 되었다. 유익한 세미나를 준비해준 용태에게 고맙다는 말을 전하며 세미나 후기를 마친다.

Model checkpoint를 잘 선택하여 Unseen domain에 대해서도 우수한 성능을 보이는 방법에 관한 세미나를 청취하였다.
Best model checkpoint를 선택할 때 검증용 데이터를 보통 많이 활용하는데, 해당 검증용 데이셋의 분포가 평가용 데이터셋의 분포와 다를수록 "Best checkpoint"의 의미가 떨어지게 된다. 해당 내용이 Domain generalization 상황에서도 중요한 문제임을 이해할 수 있는 논문을 본 세미나를 통해 접할 수 있게 되었고, DG 상황에서 Best checkpoint를 찾는 방법에 대한 2편의 논문을 청취할 수 있었다. Stochastic weight averaging(SWA)이나 Moving average는 SSL에서도 많이 활용하는 테크닉들이였는데, 조금의 변형을 통해 DG 상황에서도 적용될 수 있구나 생각해 볼 수 있는 좋은 시간이었다. Selection된 모델 체크 포인트가 DG 상황에서 왜 좋은지를 같이 입증해줘야 좋은 학회에 accept 될 가능성이 높을 것 같은데, 꾸준히 수학 공부를 같이 해두면 좋겠다는 생각이 들었다.
좋은 세미나를 준비하느라 고생한 용태에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.