Br) 함수 블럭 - Distinct

Br) 함수 블럭 - Distinct

브라이틱스(Brightics)에서 중복된 행을 제거할 때 사용하는 함수 블럭 Distinct를 알아본다.


Transform EDA Pre-Processing

※ 본 내용은 Load 함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
diamonds.csv 다운받기 [클릭]
사전 준비


개요

특정 변수의 조합을 보는 것은 Cross Table 블럭이 있다. 하지만 해당 블럭은 두 변수의 원소간 조합 뿐만 아니라 그 숫자 까지 보여준다. 그리고 세 개 이상의 변수를 입력값을 넣기 불편하다. Distinct 블럭은 변수 개수 관계 없이 중복인 row를 제거하여 변수 하나 입력일 경우 고유한 원소만 출력해주고, 두 개 이상의 변수를 입력으로 할 경우 고유한 조합을 출력해준다.


설정

Distinct 블럭의 설정창은 다음과 같다.
Distinct 블럭 설정 창

Input Columns 에는 중복 제거 대상 변수를 지정해준다.
중복 제거 기준 변수 선택

Hold Columns 에는 최종 출력 데이터 세트에 유지할 변수를 지정할 수 있다. 지정하지 않으면 입력된 데이터 세트의 모든 변수를 전부 출력한다.
중복 제거 이후 유지할 변수 선택

추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.


결과

변수 하나를 넣을 경우 다음과 같이 결과가 나온다.
cut 변수 중복 제거

1개 변수를 대상으로 중복 제거를 실시하나, Hold Columns 를 설정하지 않은 경우 다른 변수도 같이 출력된다, 이 때 고유한 원소가 등장하는 첫 번째 row에 해당하는 다른 변수들이 출력된다.
cut 변수 중복 제거 후 변수 유지

변수 두 개를 넣을 경우 다음과 같이 결과가 나온다.
cut과 clarity 변수의 고유 조합 확인

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×