Br) 함수 블럭 - Cross Table

Br) 함수 블럭 - Cross Table

브라이틱스(Brightics)에서 데이터 세트의 변수와 원소를 같이 조합하여 살펴볼 때 유용한 Cross Table 을 알아본다.


Manipulation EDA Pre-Processing

※ 본 내용은 Load 함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
diamonds.csv 다운받기 [클릭]
사전 준비

개요

하나의 변수를 간단하게 살펴보는 것은 Statistic Summary 또는 String Summary 함수 블럭을 사용할 수 있다. 하지만 두 개 이상의 변수를 교차해서 같이 살펴보려고 한다면 Cross Table 함수 블럭을 사용할 수 있다.

Statistic Summary 포스팅 바로가기 -> [클릭]
String Summary 포스팅 바로가기 -> [클릭]

Cross Table은 기본적으로 두 변수의 원소간 조합 개수를 확인할 수 있다. 그리고 별도의 옵션을 지정하여 비율을 출력할 수 있다.


설정

Cross Table의 경우 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Cross Table 블럭 설정 창

Inputs Columns 부분에는 분석 대상 변수를 지정해준다. Select Column 네모 버튼을 누르면 다음과 같이 정렬 대상 변수를 선택할 수 있다.
분석 대상 변수 지정

대상 변수 지정 후 아래쪽에 Result 부분에서 라디오 버튼을 눌러 각종 설정을 할 수 있다. 해당 설정에 따른 설명은 다음과 같다.

  • N: 각 원소 조합의 등장 빈도 확인 가능
  • N / Row Total: 등장 빈도를 row의 합으로 나눔(row 기준 비율 계산)
  • N / Column Total: 등장 빈도를 column의 합으로 나눔(column 기준 비율 계산)
  • N / Total: 등장 빈도를 전체 합(데이터 개수)으로 나눔(전체 등장 빈도 기준 비율 계산)

위에서는 다이아몬드의 세공 수준을 뜻하는 cut 변수와 색상을 뜻하는 color 변수를 각각 Input Columns 1Input Columns 2에 지정했다. 이 상황에서 resultN / Row Total로 지정하게 되면, 세공 수준(cut)별 색상(color)의 비율을 확인할 수 있고, N / Column Total로 지정한 경우 색상(color)별 세공 수준(cut)의 비율을 확인할 수 있다.

MarginsResult 설정이 N일 경우만 등장하는 메뉴인데 각 row와 column의 합을 산출해서 덧붙여준다.

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.


결과

상기 설정에서 Margins 설정만 변경하여 두 결과를 확인해보면 다음과 같다.
빈도 확인(Margins: True)

빈도 확인(Margins: False)

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×