브라이틱스(Brightics)에서 2개 이상의 집단간 평균 차이를 알아보는 일원 분산분석(Oneway ANOVA)를 실시할 수 있는 One Way ANOVA
를 알아본다.
Statistics
※ 본 내용은 Load
함수 블럭에서 bike.csv 파일을 불러온 후에 진행한다.
※ bike.csv 다운받기 [클릭]
개요
일원 분산분석(One-way ANOVA)은 일원 배치 분산분석이라고도 부르며 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. 그리고 집단간 비교를 위해서 (연속형)종속변수 1개, (범주형)독립변수 1개를 사용한다. t-검정은 두 집단의 비교만 가능한 반면 일원 분산분석은 3개 이상의 집단이 있을 경우 t-검정을 여러번 하는 것이 아닌 일원 분산분석을 사용한다.
단, 정규성을 만족하지 못할 경우 크루스칼 왈리스 검정(Kruskal-Wallis Test)을 실시한다.
이론
가정
분산분석에서 사용하는 F 분포는 다음과 같은 가정을 만족해야 한다.
1. 정규성
- 각각의 종속변수에 대한 모집단의 분포는 정규분포를 따른다. 각각의 모집단에서 종속변수의 평균은 다를 수 있다.
- 정규성을 위배하게되면 F분포가 정규모집단의 표본분포이기 때문에 집단간 모평균이 유의한 차이를 보는 검정 결과를 신뢰하기 어렵다.
- 정규성 검정은 Noramlity Test
블럭으로 실시할 수 있다.
2. 등분산성(분산의 동질성)
- 각강의 종속변수에 대한 모집단의 분산은 각각의 모집단에서 동일하다. $\sigma_{1}^{2}=\sigma_{2}^{2}$
- 등분산 가정을 위배하게 되면 각 검정결과를 신뢰하기 어렵다. 추가로 이분산 집단간 비교는 평균만으로 판단하기 어렵다.
- 등분산 검정은 Bartlett's Test
, F Test For Stacked Data
, Levene's Test
블럭으로 실시할 수 있다.
3. 독립성
- 각각의 모집단에서 크기가 각각$n_{1}, n_{2}$인 표본이 독립적으로 수집 되었다.
통계량 계산
군간 변동 또는 집단간 변동을 $SSB$(Sum of Square of Between groups)라고 표기하며 $SS_{tr}$로 기술하기도 하는데 여기서 tr은 독립변수인 treatment를 뜻한다. 군내 변동 또는 집단내 변동을 $SSW$(Sum of Square of Within groups)라고 표기하며 $SSE$로 기술하기도 하는데 여기서 E는 오차인 Error를 뜻한다. 일원 분산분석의 분산분석표(ANOVA table)을 계산하기 위해서 숙지해야할 사항은 다음과 같다.
요인 | 제곱합(SS) | 자유도 | 평균제곱 | F | 유의확률 |
---|---|---|---|---|---|
처리 | $SS_{tr} = n \sum^{k}_{i=1}{(\bar{Y_{i}} - \bar{Y})^2}$ | $k - 1$ | $MS_{tr} = \frac{SS_{tr}}{k - 1}$ | $f = \frac{MS_{tr}}{MSE}$ | $P(F >= f)$ |
잔차 | $SSE = \sum^{k}_{i = 1} \sum^{n}_{j = 1}{(Y_{ij} - \bar{Y_{i}})}$ | $n - k$ | $MSE = \frac{SSE}{N - k}$ | ||
계 | $SST = SS_{tr} + SSE$ | $n - 1$ |
가설
- 귀무가설($𝐻_0$): 전체 집단간 평균이 같다.
- 대립가설($𝐻_1$): 적어도 하나의 집단간 평균은 다르다.
모집단이 정규분포를 따르지 않는 경우 비모수 추정 및 검정을 사용해야함
만약 집단이나 수준이 계층적 구조(각 수준이 동일하지 않은 하위 집단을 가지는 경우)를 가지고 있다면 Nested ANOVA 를 사용하면 된다.
분산분석의 경우 귀무가설을 기각하지 못하는 경우 독립변수의 요인에 따른 집단간 평균이 어디에서 다른지 확인하기 위해 사후검정(Post-hoc)을 실시할 수 있다. 대표적으로 Tukey’s test, Duncan’s test, Scheffe’s test가 있다. 관련 자세한 표는 다음과 같다.

설정
Onw Way ANOVA
블럭의 설정 창은 다음과 같다.
Response Columns 에는 종속변수를 지정한다.
Factor Column 에는 독립변수를 지정한다.
결과
Onw Way ANOVA
는 여러 분석 결과가 나오지만 가장 중요한 분산분석표의 해석을 해보도록 하자. 다음 결과는 정기권 이용자의 자전거 대여 수 인 registered 변수를 종속변수로 하고 계절 정보인 season 변수를 독립변수로 한 결과이다.
핵심으로 볼 내용은 검정통계량 F 와 검정통계량에 따른 p-value인 PR(>F) 이다. 여기서 p-value는 1.888e-106으로 유의수준 5%(0.05) 기준 보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택하여 분기별 정기권 이용자의 자전거 대여 수는 평균값에 유의한 차이가 있다. 라고 해석할 수 있다.