회귀 모델 평가에서 많이 사용되는 지표 5개를 소개해보겠습니다.
어떠한 지표를 사용해야 되는지에 대한 정답은 없으며,
예측 문제/어디에 활용되는지 등에 따라 적절한 평가 지표를 고르면 됩니다.
소개드릴 지표는 다음과 같습니다: MAE, MSE, RMSE, MAPE, MPE
1. MAE (Mean Absolute Error)
- 실제 값과 예측 값의 차이를 절대값으로 변환, 합산 후 평균을 구하는 방법입니다.
- 장점
- 지표가 직관적이며, 예측 변수와 같은 단위를 가집니다 (예: 주가 예측 모델의 MAE가 50이라면 50원만큼의 에러).
- 단점
- 실제 값에 과소평가/과대평가 (underestimate/overestimate)를 파악하기가 힘듭니다.
- 예를 들어 주식 예측 모델의 MAE가 50인데 이게 50원만큼 낮게 예측하는 것인지 높게 예측하는 것인지 확실하지 않습니다.
- 스케일 의존적 (scale dependency) 입니다. 즉, 주식 예측 시 삼성전자와 주가가 1,000원인 A기업 모두 MAE가 500으로 동일해도, 실제 에러율은 동일하지 않습니다.
- 실제 값에 과소평가/과대평가 (underestimate/overestimate)를 파악하기가 힘듭니다.
2. MSE (Mean Squared Error)
- 실제 값과 예측 값의 차이를 제곱하여 합산 후 평균을 구하는 방법입니다.
- 장점
- MAE와 마찬가지로 직관적입니다.
- 단점
- 제곱을 하기 때문에 outlier에 민감합니다.
- 실제 값에 과소평가/과대평가를 파악하기가 힘드며, 스케일 의존적입니다.
3. RMSE (Root Mean Squared Error)
- MSE에 루트를 대입한 지표입니다.
- MSE의 대부분 장단점을 따르나, 큰 오류값에 높은 패널티를 줍니다.
- 예시: 아래와 같이 5개의 데이터에 대한 예측값이 있다고 해보겠습니다.
- MAE는 220, MSE는 232.38로 비슷한 값이 나왔습니다.
- 여기서 갑자기 실제 값: 500,000 예측 값: 350,000인 데이터가 들어왔습니다. 그때 MAE와 MSE는 다음과 같이 25183.33, 13073.09가 됩니다.
- 이와 같이 큰 에러값에 대해서도 강건한 장점을 가지고 있습니다.
4. MAPE (Mean Absolute Percentage Error)
- MAE를 비율로 표현한 지표입니다.
- 장점
- MAE와 마찬가지로 직관적입니다. MAPE가 5%인 경우 실제 값과 예측 값의 차이가 5% 난다고 표현할 수 있습니다.
- 다른 에러율과의 비교가 쉽습니다.
- 예를 들어 삼성전자 주가 예측 모델의 MAPE가 3%, 주가 1,000의 A기업의 주가 예측 모델의 MAPE가 5%라 가정할 경우, 삼성전자에 대한 예측 모델의 성능이 더 좋다고 말할 수 있습니다.
- 단점
- 실제 값에 과소평가/과대평가를 파악하기가 힘듭니다.
- 실제 값이 1보다 작을 경우, 무한 대의 값으로 수렴할 수가 있습니다.
5. MPE (Mean Percentage Error)
- MAPE에서 절대값을 제외한 지표입니다.
- 장점
- 모델의 과소평가/과대평가를 확인할 수가 있습니다 (0보다 클 경우 과소평가, 작을 경우 과대평가)
- 단점
- 지표가 직관적이라고는 볼 수 없습니다.
'ML&DL' 카테고리의 다른 글
앙상블 학습 (Ensemble Learning) 1 - 배깅 (Bagging) (0) | 2024.08.09 |
---|---|
기초적인 회귀 (Regression) 예측 모델 생성 (0) | 2021.07.11 |
[머신러닝] K-NN (K-Nearest Neighbors) (0) | 2021.07.03 |
[머신러닝] Bias vs. Variance (Overfitting vs. Underfitting) (0) | 2021.07.01 |
머신러닝 용어집 - A (0) | 2021.06.30 |