Br) 함수 블럭 - Statistic Summary

Br) 함수 블럭 - Statistic Summary

브라이틱스(Brightics)에서 수치형 데이터를 살펴볼 때 사용하는 함수 블럭 Statistic Summary를 알아본다.


Statistics EDA

※ 본 내용은 Load 함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
사전 준비


개요

수치형 변수를 요약하는 방법은 많지만 기술통계량을 가볍게 산출하여 확인할 수 있는 함수 블럭은 Statistic Summary 이다. 이 함수 블럭을 불러올때는 특이하게 다음과 같이 검색창에 sum 을 입력하면 첫 화면에서 바로 볼 수 있다.
Statistic Summary 함수 검색 팁

설정

분석 대상 변수를 추가하려면 Input columns[Select] 버튼을 눌러준다. 해당 버튼을 누르면 버튼 오른쪽에 입력된 데이터의 수치형 변수 목록이 나열된다. 여기서 체크박스를 클릭하여 연산에 사용할 변수를 지정할 수 있다.
Statistic Summary 변수 추가

그리고 지정한 변수의 연산을 위해 아래 Target Statistic에서는 최소값, 최대값 부터 다양한 기술통계량을 산출할 수 있고 원하는 연산을 선택하면 된다.
Statistic Summary 연산 목록

연산 목록 중 다소 생소한 항목은 아래를 참고하자.

  • Range: 자료의 범위(최대값과 최소값의 차이)
  • Null Count: 결측치 개수
  • IQR: 사분위 범위(제 1 사분위수 - 제 3 사분위수)
  • Percentile: 백분위수(75 백분위수는 Percentile Amounts에 75 입력)
  • Trimmed Mean: 절사 평균(Trimmed Mean Amounts에 0.05를 입력하면 제 5 백분위수 이하, 제 95 백분위수 이상은 절사하여 계산)

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
Statistic Summary Group By

결과

Group by 설정을 하여 연산을 할 경우 다음과 같은 결과를 볼 수 있다.
Statistic Summary Group By 연산 결과

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×