다중선형회귀모델 같은 회귀모델의 오차를 평가하는 지표에 대해 알아본다.
기본 기호
- $y_i$: i번째 y값(실제 값)
- $\bar{y}$: y의 평균
- $\hat{y}$: y의 예측(추정)값
- $e_i$: i번째 오차($y_i - \hat{y_i}$)
기본 수식
MAE, RMSE의 같은 지표의 경우, 여기서 기술되는 M은 평균(mean)을 뜻한다. 산술평균 식은 다음과 같다.
$$\frac{1}{n}\sum_{i=1}^{n}{x_i} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n}$$
주요 오차 평가지표
평가지표 | 설명 | 공식 |
---|---|---|
AE |
|
$\frac{\sum_{i=1}^{n}{y_i - \hat{y_i}}}{n}$ |
MAE |
|
$\frac{\sum_{i=1}^{n}{|y_i - \hat{y_i}|}}{n}$ |
MPE |
|
$\frac{\sum_{i=1}^{n}{\frac{y_i - \hat{y_i}}{y_i}}}{n} \times 100$ |
MAPE |
|
$\frac{\sum_{i=1}^{n}{| \frac{y_i - \hat{y_i}}{y_i}} |}{n} \times 100$ |
MSE |
|
$\frac{\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}}{n}$ |
RMSE |
|
$\sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}}{n}}$ |
SSE |
|
$\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}$ |
SSR |
|
$\sum_{i=1}^{n}{(\hat{y_i} - \bar{y})^2}$ |
SST |
|
$\sum_{i=1}^{n}{(y_i - \bar{y_i})^2}$ |
MSE의 경우 상대적으로 값이 크게 나오기 때문에 오차의 이상치를 좀 더 고려하고자 할 경우 사용하게 된다. 하지만 값이 종속변수의 스케일과는 차이가 많이 나는 경우가 대부분이라 해당 값에 제곱근을 씌운 RMSE를 사용하기도 한다. 그리고 RMSE는 작으면 작을수록 좋긴 하지만, 해당 값이 3이면 좋은지 나쁜지 한 번에 판단하기 어렵다는 단점이 있다. 이 때 사용하는 대표적인 평가지표가 MAPE이다. MAPE는 백분률로 산출이 되기 때문에 보고하기도 보고받기도 편하다는 장점이 있다.