브라이틱스(Brightics)에서 데이터 세트의 변수와 원소를 같이 조합하여 살펴볼 때 유용한 Cross Table 을 알아본다.
Manipulation EDA Pre-Processing
※ 본 내용은 Load 함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
개요
하나의 변수를 간단하게 살펴보는 것은 Statistic Summary 또는 String Summary 함수 블럭을 사용할 수 있다. 하지만 두 개 이상의 변수를 교차해서 같이 살펴보려고 한다면 Cross Table 함수 블럭을 사용할 수 있다.
※ Statistic Summary 포스팅 바로가기 -> [클릭]
※ String Summary 포스팅 바로가기 -> [클릭]
Cross Table은 기본적으로 두 변수의 원소간 조합 개수를 확인할 수 있다. 그리고 별도의 옵션을 지정하여 비율을 출력할 수 있다.
설정
Cross Table의 경우 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Inputs Columns 부분에는 분석 대상 변수를 지정해준다. Select Column 네모 버튼을 누르면 다음과 같이 정렬 대상 변수를 선택할 수 있다.
대상 변수 지정 후 아래쪽에 Result 부분에서 라디오 버튼을 눌러 각종 설정을 할 수 있다. 해당 설정에 따른 설명은 다음과 같다.
- N: 각 원소 조합의 등장 빈도 확인 가능
- N / Row Total: 등장 빈도를 row의 합으로 나눔(row 기준 비율 계산)
- N / Column Total: 등장 빈도를 column의 합으로 나눔(column 기준 비율 계산)
- N / Total: 등장 빈도를 전체 합(데이터 개수)으로 나눔(전체 등장 빈도 기준 비율 계산)
위에서는 다이아몬드의 세공 수준을 뜻하는 cut 변수와 색상을 뜻하는 color 변수를 각각 Input Columns 1과 Input Columns 2에 지정했다. 이 상황에서 result를 N / Row Total로 지정하게 되면, 세공 수준(cut)별 색상(color)의 비율을 확인할 수 있고, N / Column Total로 지정한 경우 색상(color)별 세공 수준(cut)의 비율을 확인할 수 있다.
Margins 는 Result 설정이 N일 경우만 등장하는 메뉴인데 각 row와 column의 합을 산출해서 덧붙여준다.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
상기 설정에서 Margins 설정만 변경하여 두 결과를 확인해보면 다음과 같다.
