- 2024년 9월 13일 오후 8:18
- 조회수: 33400
INFORMATION
- 2024년 9월 13일
- 오전 12시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
청취자 후기
이번 세미나는 Distribution Shift 중 Group Shift에 대해 진행되었다. Group Shift는 상위 그룹 데이터 기준으로 데이터 분포가 동일할 수는 있지만, 하위 그룹 기준으로는 상이할 수 있다는 것을 의미한다. 10p 장표를 보면 쉽게 이해할 수 있다. 이를 해결하기 위한 방법(DRO)은 ERM처럼 평균을 최적화하는 것이 아닌, Worst-Case를 줄여가는 방식으로 학습한다. 실험적으로 보면, 평균 성능은 ERM이 DRO보다 높지만, Worst-Case에 대해서는 DRO가 훨씬 월등했다. 향후 인공지능 관점에서 완벽한 모델이 되려면, ERM처럼 대체로 모든 샘플을 잘 맞추는 것도 중요하지만, 극히 어려운 Sample들을 잘 맞추는 것 또한 중요할 것이다. 이처럼 DRO는 향후 인공지능이 매우 포화된 상태에서 중요한 Key 역할을 할 것 같다는 느낌을 받았다. 유익한 세미나를 준비해준 정진용 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.
이번 세미나에서는 진용 오빠가 out of distribution (OOD) generalization과 관련한 연구를 발표해주셨다. OOD generalization에 큰 관심이 있는 만큼 매우 흥미롭게 청취했는데, 나도 연구를 하다보면 선행연구 중 가장 많이 언급되는 논문 중 하나인 GroupDRO 를 설명해주셔서 더 관심 있게 들을 수 있었다.
해당 세미나가 중요하게 짚은 지점 중 하나는, distribution shift의 종류가 여러 가지임을 명확하게 intro에서 짚었다는 것인데, 본 세미나에서 다룬 GroupDRO 연구는 여러 shift 종류 중에서도 group shift (sub-population) shift에 대해 다루고 있는 논문이다.
내가 지금까지 했던 distribution shift 세미나는 모두 covariate shift에 초점을 맞추어 다루었는데, 실제로 최근 generalization 관련 연구들 중에서는 group shift를 다룬 연구들이 많아서 이를 다루어준 세미나가 있어서 반가웠다. group shift란 데이터셋 내의 group (attribute라는 용어로도 표현이 된다. 혹은 bias라 부르는 연구들도 있다.), 이를 테면 세미나에서 소개된 바와 같이 '여성', '남성'과 같이 '성별'이나 'age', 'race' 등의 여러 속성에 따라 나뉜 데이터의 그룹이 불균형해지는 문제를 다룬다. 즉, dominant-group에 편향되는 문제를 다루는 것이다.
group shift를 다루는 연구들은 크게 robust-optimization 혹은 invariant learning 으로 구분될 수 있는데[1], 이 중 GroupDRO는 robust optimization이라는 테크닉을 이용한다. 사실 GroupDRO의 아이디어 자체는 아주 직관적인데, 데이터를 여러 그룹 (e.g., gender)으로 나누고, 모든 그룹에서 발생하는 loss 값 중에서 max 값 (i.e., worst case)을 더 최소화 하도록 최적화를 수행하는 것이다 (코드도 엄청 간단하다). 이로써 성능이 떨어지는 그룹에 모델이 집중하도록 유도하고, 소수 그룹에 대해서도 좋은 성능을 잘 유지할 수 있도록 만들 수 있게 된다. 이는 모델이 특정한 그룹에 의존하는 것을 막아서 (특정 그룹에서 나타나는 패턴만 잘 학습하는 상황) 일반화 성능을 향상시킬 수 있는 것이라 요약할 수 있을 것 같다.
아이디어는 직관적이지만, 이 아이디어를 수식으로 (빡세게) 정리했다는 점이 정말 대단한 연구이다. 최근 OOD 논문들의 baseline 논문으로 인용되고, 많은 후속연구들이 나올 수 있도록 장려했다는 점에서 더욱 그렇다. 솔직히 개인적으로는 이해할 엄두가 나지 않는 논문이었는데, 이걸 다 읽고 이해해서 수식을 정리해준 세미나가 올라와서 대단하다고 생각한다. 이해가 쉽지는 않았지만 notation도 최대한 설명해주려 노력해주셔서 고마웠다.
다만, GroupDRO는 데이터셋이 "어떤 그룹으로 구분될 수 있는지'에 대한 정보 (일종의 label)가 있어야 구현 가능한 방법론이기 때문에, 이러한 label 정보 없이도 데이터를 그룹화하여 bias를 최소화 할 수 있는 연구가 필요할 것 같다는 생각이 들었다. (그리고 세미나 후기를 찾아보며 그런 연구들이 있나 찾아봤는데, 실제로 최근에 많은 연구들에서 이런 상황을 다루었네요)
아무튼 나도 지금 연구를 진행하면서 group shift를 다룬 선행연구들을 자주 찾아보고 있는데, 내 연구의 기폭제가 되어주었던 것 같다. 앞으로도 이런 distribution shift 관련 세미나가 많이 올라오면 좋겠다는 생각이 든다.
[1] Pagliardini, M., Jaggi, M., Fleuret, F., & Karimireddy, S. P. (2022). Agree to disagree: Diversity through disagreement for better transferability. arXiv preprint arXiv:2202.04414.