2020-09-24

Brightics / function-block

5분 읽기 (대략 821 단어)

Br) 함수 블럭 - Cross Table

브라이틱스(Brightics)에서 데이터 세트의 변수와 원소를 같이 조합하여 살펴볼 때 유용한 Cross Table 을 알아본다.

Manipulation EDA Pre-Processing

※ 본 내용은 Load 함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
사전 준비

개요

하나의 변수를 간단하게 살펴보는 것은 Statistic Summary 또는 String Summary 함수 블럭을 사용할 수 있다. 하지만 두 개 이상의 변수를 교차해서 같이 살펴보려고 한다면 Cross Table 함수 블럭을 사용할 수 있다.

※ Statistic Summary 포스팅 바로가기 -> [클릭]
※ String Summary 포스팅 바로가기 -> [클릭]

Cross Table은 기본적으로 두 변수의 원소간 조합 개수를 확인할 수 있다. 그리고 별도의 옵션을 지정하여 비율을 출력할 수 있다.

설정

Cross Table의 경우 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Cross Table 블럭 설정 창

Inputs Columns 부분에는 분석 대상 변수를 지정해준다. Select Column 네모 버튼을 누르면 다음과 같이 정렬 대상 변수를 선택할 수 있다.
분석 대상 변수 지정

대상 변수 지정 후 아래쪽에 Result 부분에서 라디오 버튼을 눌러 각종 설정을 할 수 있다. 해당 설정에 따른 설명은 다음과 같다.
- N: 각 원소 조합의 등장 빈도 확인 가능
- N / Row Total: 등장 빈도를 row의 합으로 나눔(row 기준 비율 계산)
- N / Column Total: 등장 빈도를 column의 합으로 나눔(column 기준 비율 계산)
- N / Total: 등장 빈도를 전체 합(데이터 개수)으로 나눔(전체 등장 빈도 기준 비율 계산)

위에서는 다이아몬드의 세공 수준을 뜻하는 cut 변수와 색상을 뜻하는 color 변수를 각각 Input Columns 1과 Input Columns 2에 지정했다. 이 상황에서 result를 N / Row Total로 지정하게 되면, 세공 수준(cut)별 색상(color)의 비율을 확인할 수 있고, N / Column Total로 지정한 경우 색상(color)별 세공 수준(cut)의 비율을 확인할 수 있다.

Margins 는 Result 설정이 N일 경우만 등장하는 메뉴인데 각 row와 column의 합을 산출해서 덧붙여준다.

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.

결과

상기 설정에서 Margins 설정만 변경하여 두 결과를 확인해보면 다음과 같다.
빈도 확인(Margins: True)

빈도 확인(Margins: False)

# block, brightics, function, sort, 브라이틱스, 정렬

Br) 함수 블럭 - Cross Table

개요

설정

결과

Inflearn에서 인강을 평생 소장하세요!

카탈로그

Inflearn에서 인강을 평생 소장하세요!

카테고리

Your browser is out-of-date!