Br) 함수 블럭 - String Summary

Br) 함수 블럭 - String Summary

브라이틱스(Brightics)에서 문자형 데이터를 살펴볼 때 사용하는 함수 블럭 Statistic Summary를 알아본다.


Statistics EDA

※ 본 내용은 Load 함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
사전 준비


개요

문자형 변수의 내용을 확인할 때 필수로 사용되는 함수 블럭이 String Summary 이다. 이 함수 블럭을 불러올때는 Statistic Summary 블럭과 마찬가지로 특이하게 다음과 같이 검색창에 sum 을 입력하면 첫 화면에서 바로 볼 수 있다.
String Summary 함수 검색 팁

설정

분석 대상 변수를 추가하려면 Input columns[Select] 버튼을 눌러준다. 해당 버튼을 누르면 버튼 오른쪽에 입력된 데이터의 문자형 변수 목록이 나열된다. 여기서 체크박스를 클릭하여 연산에 사용할 변수를 지정할 수 있다.
String Summary 변수 추가

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
String Summary Group By

결과

String Summary 블럭은 결과 데이터가 두 개이다. 첫 번째는 summary table이고 두 번째는 count table 이다. 이는 다음의 그림과 같이 빨간 네모로 표기한 Chart Settings 메뉴에서 고를 수 있다. 하지만 선택 화면에서는 “String Summary-1”과 “String Summary-2”로 표기되어 불편하다.
String Summary 블럭의 출력 결과 선택

summary table

  • max: 문자열 정렬(오름차순) 기준 마지막
  • min: 문자열 정렬(오름차순) 기준 처음
  • mode: 최빈값. 최빈 원소가 복수개면 Python의 리스트 형태로 출력
  • null count: 결측(null) 개수
  • num_of_distinct: 중복 제거된 원소의 개수(고유한 개수)
  • num_of_white_space: 띄어쓰기만 있는 데이터
  • num_of_space_padded: 정렬된 텍스트(추정)

summary table 결과

count table

  • counts: 원소의 등장 빈도
  • rate: 원소의 등장 비율
  • cumulative_rate: 원소의 등장 누적 비율

count table 결과

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×