머신러닝 모델링을 할 때 중요하게 생각하는 것 중 하나가 과적합(overfitting)이다. 과적합이란 모델이 학습데이터에 지나치게 맞추어지는 현상을 의미한다. 다시 말해, 모델이 학습데이터의 패턴과 노이즈까지 모두 학습해버려, 학습데이터에서는 매우 정확하게 예측할 수 있지만 새로운 데이터에 대해서는 성능이 저하되는 상황이다. 언뜻 보기에는 뭐가 문제인가 싶지만, 우리가 만든 모델은 학습데이터가 아닌 앞으로 적용할 새로운 데이터에서 사용된다는 점이 중요하다. 학습데이터에 과적합된 모델은 새로운 데이터에 대한 일반화 성능이 떨어지게 된다. 우리 사람도 너무 과적합되는 것은 바람직하지 않다. 그런 사람들은 친구가 없다. 남이 들어올 여지가 없기 때문이다. 머신러닝 모델이나 인간이나 과적합은 별로 좋지 않다

 

One of the most important things to consider when modeling machine learning is overfitting. Overfitting is when a model is overfitted to the training data. In other words, the model has learned all the patterns and noise in the training data, so it can predict very accurately on the training data but performs poorly on new data. You might wonder what the problem is, but it is important to note that the model we created is not used on training data, but on new data that will be applied in the future. A model that is overfitted to the training data will have poor generalization performance on new data. We do not want to be overfitted either. Such people have no friends. There is no room for others. Overfitting is not good for machine learning models or humans. 


Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission.