Br) 함수 블럭 - Bucketizer

Br) 함수 블럭 - Bucketizer

브라이틱스(Brightics)에서 연속형 데이터를 범주화 할 수 있는 Bucketizer를 알아본다.


Extraction Pre-Processing

※ 본 내용은 Load 함수 블럭에서 bike.csv 파일을 불러온 후에 진행한다.
bike.csv 다운받기 [클릭]
사전 준비


개요

연속형 데이터를 범주화 해야할 때가 있다. 즉, 상세정보가 있지만 이를 좀 더 단순화 시켜서 분석을 한다던가 하는데 대표적으로 연령대 변환이 있다. 나이는 1 단위로 증가 하지만 실제 비즈니스 분석에서는 5 또는 10의 단위로 묶어서 분석을 한다. 이 때 사용할 수 있는 함수 블럭이 Bucketizer이다.


설정

Bucketizer 블럭의 설정 창은 다음과 같다.
Bucketizer 블럭 설정 창

Input Column 에는 범주화 대상 변수를 지정해준다.
범주화 변수 선택

Bucket Type 에는 “Left Closed, Right Open”과 “Right Closed, Left Open”의 선택지가 있다. 여기서 Closed와 Open은 차례대로 폐구간(닫힌 구간, Closed Interval)과 개구간(열린 구간, Open Interval)을 뜻한다. 좀 더 상세하게 들어가자면 폐구간은 실수의 집합에서 양 끝 수를 그 집합에 포함시키는 것인데 이상과 이하가 그 예시이다. 그리고 개구간은 실수의 집합에서 양 끝 수를 그 집합에 포함시키지 않는 것인데 초과와 미만이 그 예시이다.

Split Type 의 경우 기본적으로 “List Format”으로 설정되어있는데 이는 연속형 데이터를 어느 지점에서 자를지 직접 하나씩 지정하는 방법이다.
Split Type의 List Format 설정
“Range Format”으로 할 경우 다음과 같은 설정이 뜨는데 이는 등차수열을 기반으로 구간을 생성하여 그 값을 기반으로 연속형 데이터를 잘라준다. 여기서 From은 시작, To는 끝, by는 증분을 뜻한다.
Split Type의 Range Format 설정


결과

특정 시간대의 자전거 총 대여 숫자인 count 변수를 대상으로 범주화를 한 결과는 다음과 같다. 이 때 Bucket Type 에는 “Left Closed, Right Open”를 지정했는데 구간의 경계값인 40의 경우 2번 그룹으로 지정된 것을 볼 수 있다.
Left Closed, Right Open 결과 예시
Bucket Type 에는 “Right Closed, Left Open”으로 지정한 결과는 다음과 같으며 구간의 경계값인 40의 경우 1번 그룹으로 지정된 것을 볼 수 있다.
Right Closed, Left Open 결과 예시

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×