2020-10-10

Brightics / statistics

9분 읽기 (대략 1336 단어)

Br) 통계 - Paired T Test

브라이틱스(Brightics)에서 대응 표본 t-검정을 실시할 수 있는 함수 블럭인 Paired T Test를 알아본다.

Statistics

※ 본 내용은 Load 함수 블럭에서 bike.csv 파일을 불러온 후에 진행한다.
※ bike.csv 다운받기 [클릭]
사전 준비

개요

t-검정은 두 집단 간의 평균을 비교하는 모수적 통계기법으로 표본이 오차항의 정규성, 등분산성, 독립성을 만족할 경우 사용이 가능하며 모분산을 알 경우는 z-검정을 실시할 수 있다. t-검정은 세 종류의 검정이 있는데 단일 표본(One Sample), 대응 표본(Paired Sample), 독립 2 표본(Independent 2 Sample) 이다. 그 중 두 번째인 대응 표본 t-검정을 알아본다.
※ 단일 표본 t-검정 포스팅 바로가기 -> [클릭]
※ 독립 2 표본 t-검정 포스팅 바로가기 -> [클릭]

대응 표본 t-검정에서 필요한 것은 각 자료가 1:1로 대응되는 두 표본 집단 자료이다. 가끔 t-test가 평균 비교라고 해서 표본자료의 평균값을 미리 구해서 그 값을 검정에 사용하는 경우가 있는데 잘 확인해야 한다. 표본의 평균은 검정통계량 t를 계산할 때 활용되니 Paired T Test 블럭을 사용할 때는 계산된 평균값이 아닌 원 자료를 입력하도록 하자. 그리고 Paired T Test 블럭과 Two Sample T Test for Stacked Data 블럭은 입력하는 자료구조가 서로 다르니 주의해야 한다.

단, 표본의 오차항이 정규성을 만족하지 못하는 경우 윌콕슨 순위합 검정(Wilcoxon Signed Rank Test)을 사용해야 한다.

통계량 계산

검정통계량 t는 다음과 같이 계산한다.

$$ t = \frac{\bar{D} - d_0}{S_D / \sqrt{n}} \sim t(n - 1) $$

$$ \begin{align} \bar{D} &= \frac{\sum_{i=1}^{n}{(X_{Ai} - X_{Bi})}}{n} = 두 \; 집단의 \; 평균 \\ S_D &= \sqrt{\frac{\sum_{i = 1}^{n}{(X_{Ai} - X_{Bi} - \bar{D})^2}}{n - 1}} = 두 \; 집단의 \; 표준 \; 편차 \\ d_0 &= 사용자 \; 지정 \; 상수 \\ \end{align} $$

가설

귀무가설($𝐻_0$): 대응되는 두 표본 차이의 평균은 0이다.
대립가설($𝐻_1$): 대응되는 두 표본 차이의 평균은 0이 아니다.

설정

Paired T Test 블럭의 설정 창은 다음과 같다.
Paired T Test 블럭 설정 창

First Column 과 Second Column 에는 각각 대응 표본 t-검정을 실시할 변수를 지정해준다.
대응 표본 t-검정 변수 선택

Hypothesized Difference 는 앞의 검정통계량 계산식에 있는 $d_0$를 뜻한다. 두 표본 차이의 평균이 0이 아니라 특정한 값을 가지고 있을 때 별도로 지정해주는 값이다. 예를 들어 혈압강하제를 복용하면 15mmHg 만큼 떨어진다고 했을 때 혈압강하제 복용 전의 혈압 측정 데이터와 혈압강하제 복용 후의 혈압 측정 데이터의 차이의 평균이 15mmHg 와 비교했을 때 얼마나 차이가 나는지 그렇지 않은지 보아야 한다. 이 때 입력해야 할 값이 15이다.

Alternatives 에는 “Greater”, “Less”, “Two Sided” 세 개의 선택지가 있는데 이는 단측검정과 양측검정의 결과를 별도로 보고자 할 때 원하는 것을 선택한다. 예를 들어 대응되는 두 표본 차이의 평균이 0 보다 큰지 그렇지 않은지 검정하고 싶다면 “Greater”를, 대응되는 두 표본 차이의 평균이 0보다 작은지 그렇지 않은지 검정하고 싶다면 “Less”를, 대응되는 두 표본 차이의 평균이 0과 차이가 나는지 그렇지 않은지 검정하고 싶다면 “Two Sided”를 선택하면 된다.

Confidence Level 신뢰수준을 의미한다. 기본값으로 95가 입력되어있는데 이는 95% 신뢰구간, 5% 유의수준을 의미한다. 이 값을 조정하면 산출되는 신뢰구간(confidence interval)의 값이 바뀌는 것을 볼 수 있다.

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.

결과

기온과 체감온도인 temp 와 atemp 변수를 사용하여 양측검정을 실시한 결과는 다음과 같다.
대응 표본 t-검정 결과

검정통계량 t는 -228.052이고 p-value는 0 이다. 즉, 유의수준 5%(0.05) 기준으로 p-value가 0로 유의수준 보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택하여 대응되는 두 표본 차이의 평균은 0이 아니고 두 대응 표본의 평균이 유의하게 차이가 난다고 할 수 있다.

# brightics, stat, statistics, t-test, ttest, t검정, 대응, 브라이틱스, 통계, 평균, 평균비교

Br) 통계 - Paired T Test

개요

통계량 계산

가설

설정

결과

Inflearn에서 인강을 평생 소장하세요!

카탈로그

Inflearn에서 인강을 평생 소장하세요!

카테고리

Your browser is out-of-date!