브라이틱스(Brightics)에서 수치형 데이터를 살펴볼 때 사용하는 함수 블럭 Statistic Summary
를 알아본다.
Statistics EDA
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
수치형 변수를 요약하는 방법은 많지만 기술통계량을 가볍게 산출하여 확인할 수 있는 함수 블럭은 Statistic Summary
이다. 이 함수 블럭을 불러올때는 특이하게 다음과 같이 검색창에 sum 을 입력하면 첫 화면에서 바로 볼 수 있다.
설정
분석 대상 변수를 추가하려면 Input columns 의 [Select] 버튼을 눌러준다. 해당 버튼을 누르면 버튼 오른쪽에 입력된 데이터의 수치형 변수 목록이 나열된다. 여기서 체크박스를 클릭하여 연산에 사용할 변수를 지정할 수 있다.
그리고 지정한 변수의 연산을 위해 아래 Target Statistic에서는 최소값, 최대값 부터 다양한 기술통계량을 산출할 수 있고 원하는 연산을 선택하면 된다.
연산 목록 중 다소 생소한 항목은 아래를 참고하자.
- Range
: 자료의 범위(최대값과 최소값의 차이)
- Null Count
: 결측치 개수
- IQR
: 사분위 범위(제 1 사분위수 - 제 3 사분위수)
- Percentile
: 백분위수(75 백분위수는 Percentile Amounts에 75 입력)
- Trimmed Mean
: 절사 평균(Trimmed Mean Amounts에 0.05를 입력하면 제 5 백분위수 이하, 제 95 백분위수 이상은 절사하여 계산)
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
Group by 설정을 하여 연산을 할 경우 다음과 같은 결과를 볼 수 있다.