브라이틱스(Brightics)에서 데이터 세트의 변수와 원소를 같이 조합하여 살펴볼 때 유용한 Cross Table
을 알아본다.
Manipulation EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
개요
하나의 변수를 간단하게 살펴보는 것은 Statistic Summary
또는 String Summary
함수 블럭을 사용할 수 있다. 하지만 두 개 이상의 변수를 교차해서 같이 살펴보려고 한다면 Cross Table
함수 블럭을 사용할 수 있다.
※ Statistic Summary
포스팅 바로가기 -> [클릭]
※ String Summary
포스팅 바로가기 -> [클릭]
Cross Table
은 기본적으로 두 변수의 원소간 조합 개수를 확인할 수 있다. 그리고 별도의 옵션을 지정하여 비율을 출력할 수 있다.
설정
Cross Table
의 경우 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Inputs Columns 부분에는 분석 대상 변수를 지정해준다. Select Column 네모 버튼을 누르면 다음과 같이 정렬 대상 변수를 선택할 수 있다.
대상 변수 지정 후 아래쪽에 Result 부분에서 라디오 버튼을 눌러 각종 설정을 할 수 있다. 해당 설정에 따른 설명은 다음과 같다.
- N
: 각 원소 조합의 등장 빈도 확인 가능
- N / Row Total
: 등장 빈도를 row의 합으로 나눔(row 기준 비율 계산)
- N / Column Total
: 등장 빈도를 column의 합으로 나눔(column 기준 비율 계산)
- N / Total
: 등장 빈도를 전체 합(데이터 개수)으로 나눔(전체 등장 빈도 기준 비율 계산)
위에서는 다이아몬드의 세공 수준을 뜻하는 cut 변수와 색상을 뜻하는 color 변수를 각각 Input Columns 1과 Input Columns 2에 지정했다. 이 상황에서 result를 N / Row Total
로 지정하게 되면, 세공 수준(cut)별 색상(color)의 비율을 확인할 수 있고, N / Column Total
로 지정한 경우 색상(color)별 세공 수준(cut)의 비율을 확인할 수 있다.
Margins 는 Result 설정이 N
일 경우만 등장하는 메뉴인데 각 row와 column의 합을 산출해서 덧붙여준다.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
상기 설정에서 Margins 설정만 변경하여 두 결과를 확인해보면 다음과 같다.