본문 바로가기

ML&DL

머신러닝 회귀 모델 (Regression Model) 평가 지표

회귀 모델 평가에서 많이 사용되는 지표 5개를 소개해보겠습니다.

어떠한 지표를 사용해야 되는지에 대한 정답은 없으며,

예측 문제/어디에 활용되는지 등에 따라 적절한 평가 지표를 고르면 됩니다.

소개드릴 지표는 다음과 같습니다: MAE, MSE, RMSE, MAPE, MPE

 

1. MAE (Mean Absolute Error)

 

  • 실제 값과 예측 값의 차이를 절대값으로 변환, 합산 후 평균을 구하는 방법입니다.
  • 장점
    • 지표가 직관적이며, 예측 변수와 같은 단위를 가집니다 (예: 주가 예측 모델의 MAE가 50이라면 50원만큼의 에러).
  • 단점
    • 실제 값에 과소평가/과대평가 (underestimate/overestimate)를 파악하기가 힘듭니다.
      • 예를 들어 주식 예측 모델의 MAE가 50인데 이게 50원만큼 낮게 예측하는 것인지 높게 예측하는 것인지 확실하지 않습니다.
    • 스케일 의존적 (scale dependency) 입니다. 즉, 주식 예측 시 삼성전자와 주가가 1,000원인 A기업 모두 MAE가 500으로 동일해도, 실제 에러율은 동일하지 않습니다.

 

2. MSE (Mean Squared Error)

  • 실제 값과 예측 값의 차이를 제곱하여 합산 후 평균을 구하는 방법입니다.
  • 장점 
    • MAE와 마찬가지로 직관적입니다.
  • 단점
    • 제곱을 하기 때문에 outlier에 민감합니다.
    • 실제 값에 과소평가/과대평가를 파악하기가 힘드며, 스케일 의존적입니다.

 

3. RMSE (Root Mean Squared Error)

  • MSE에 루트를 대입한 지표입니다. 
  • MSE의 대부분 장단점을 따르나, 큰 오류값에 높은 패널티를 줍니다.
  •  
  • 예시: 아래와 같이 5개의 데이터에 대한 예측값이 있다고 해보겠습니다.
  • MAE는 220, MSE는 232.38로 비슷한 값이 나왔습니다.

  • 여기서 갑자기 실제 값: 500,000 예측 값: 350,000인 데이터가 들어왔습니다. 그때 MAE와 MSE는 다음과 같이  25183.33, 13073.09가 됩니다.

  • 이와 같이 큰 에러값에 대해서도 강건한 장점을 가지고 있습니다.

4. MAPE (Mean Absolute Percentage Error)

  • MAE를 비율로 표현한 지표입니다.
  • 장점
    • MAE와 마찬가지로 직관적입니다. MAPE가 5%인 경우 실제 값과 예측 값의 차이가 5% 난다고 표현할 수 있습니다.
    • 다른 에러율과의 비교가 쉽습니다.
      • 예를 들어 삼성전자 주가 예측 모델의 MAPE가 3%, 주가 1,000의 A기업의 주가 예측 모델의 MAPE가 5%라 가정할 경우, 삼성전자에 대한 예측 모델의 성능이 더 좋다고 말할 수 있습니다.
  • 단점
    • 실제 값에 과소평가/과대평가를 파악하기가 힘듭니다.
    • 실제 값이 1보다 작을 경우, 무한 대의 값으로 수렴할 수가 있습니다.

 

5. MPE (Mean Percentage Error)

  • MAPE에서 절대값을 제외한 지표입니다.
  • 장점
    • 모델의 과소평가/과대평가를 확인할 수가 있습니다 (0보다 클 경우 과소평가, 작을 경우 과대평가)
  • 단점
    • 지표가 직관적이라고는 볼 수 없습니다.