ML) 평가 - 회귀모델의 오차 평가

ML) 평가 - 회귀모델의 오차 평가

다중선형회귀모델 같은 회귀모델의 오차를 평가하는 지표에 대해 알아본다.

기본 기호

- $y_i$: i번째 y값(실제 값)
- $\bar{y}$: y의 평균
- $\hat{y}$: y의 예측(추정)값
- $e_i$: i번째 오차($y_i - \hat{y_i}$)

기본 수식

MAE, RMSE의 같은 지표의 경우, 여기서 기술되는 M은 평균(mean)을 뜻한다. 산술평균 식은 다음과 같다.

$$\sum_{i=1}^{n}{x_i} = x_1 + x_2 + x_3 + ... + x_n$$

주요 오차 평가지표

평가지표 설명 공식
AE
  • 평균 오차(Average Error)
  • 오차(E)의 평균(A)
  • $\frac{\sum_{i=1}^{n}{y_i - \hat{y_i}}}{n}$
    MAE
  • 평균 절대 오차(Mean Absolute Error)
  • 오차(E) 절대값(A)의 평균(M)
  • $\frac{\sum_{i=1}^{n}{|y_i - \hat{y_i}|}}{n}$
    MPE
  • 평균 백분율 오차(Mean Percentage Error)
  • 오차(E) 백분률(P)의 평균(M)
  • $\frac{\sum_{i=1}^{n}{\frac{y_i - \hat{y_i}}{y_i}}}{n} \times 100$
    MAPE
  • 평균 절대 백분률 오차(Mean Absolute Percentage Error)
  • 오차(E) 백분률(P) 절대값(A)의 평균(M)
  • $\frac{\sum_{i=1}^{n}{| \frac{y_i - \hat{y_i}}{y_i}} |}{n} \times 100$
    MSE
  • 평균 제곱 오차(Mean Squared Error)
  • 오차(E)의 제곱(S)을 평균(M)
  • $\frac{\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}}{n}$
    RMSE
  • 평균 제곱근 오차(Root Mean Squared Error)
  • 오차(E)의 제곱(S)을 평균(M)한 값에 제곱근(R)을 씌운 것
  • $\sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}}{n}}$
    SSE
  • 오차 제곱합(Sum of Square Error)
  • 예측값과 실제값의 차이(오차) 제곱의 합
  • $\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}$
    SSR
  • 회귀 제곱합(Sum of Squares due to Regression)
  • 예측값($\hat{y_i}$)과 평균값($\bar{y}$)의 차이 제곱(S)의 합(S)
  • $\sum_{i=1}^{n}{(\hat{y_i} - \bar{y})^2}$
    SST
  • 전체 제곱합(Total Sum of Squares, TSS, SSE + SSR)
  • 실제값($y_i$)과 평균값($\bar{y}$)의 차이 제곱(S)의 합(S)
  • $\sum_{i=1}^{n}{(y_i - \bar{y_i})^2}$

    MSE의 경우 상대적으로 값이 크게 나오기 때문에 오차의 이상치를 좀 더 고려하고자 할 경우 사용하게 된다. 하지만 값이 종속변수의 스케일과는 차이가 많이 나는 경우가 대부분이라 해당 값에 제곱근을 씌운 RMSE를 사용하기도 한다. 그리고 RMSE는 작으면 작을수록 좋긴 하지만, 해당 값이 3이면 좋은지 나쁜지 한 번에 판단하기 어렵다는 단점이 있다. 이 때 사용하는 대표적인 평가지표가 MAPE이다. MAPE는 백분률로 산출이 되기 때문에 보고하기도 보고받기도 편하다는 장점이 있다.

    Your browser is out-of-date!

    Update your browser to view this website correctly. Update my browser now

    ×