브라이틱스(Brightics)에서 중복된 행을 제거할 때 사용하는 함수 블럭 Distinct
를 알아본다.
Transform EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
개요
특정 변수의 조합을 보는 것은 Cross Table
블럭이 있다. 하지만 해당 블럭은 두 변수의 원소간 조합 뿐만 아니라 그 숫자 까지 보여준다. 그리고 세 개 이상의 변수를 입력값을 넣기 불편하다. Distinct
블럭은 변수 개수 관계 없이 중복인 row를 제거하여 변수 하나 입력일 경우 고유한 원소만 출력해주고, 두 개 이상의 변수를 입력으로 할 경우 고유한 조합을 출력해준다.
설정
Distinct
블럭의 설정창은 다음과 같다.
Input Columns 에는 중복 제거 대상 변수를 지정해준다.
Hold Columns 에는 최종 출력 데이터 세트에 유지할 변수를 지정할 수 있다. 지정하지 않으면 입력된 데이터 세트의 모든 변수를 전부 출력한다.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
변수 하나를 넣을 경우 다음과 같이 결과가 나온다.
1개 변수를 대상으로 중복 제거를 실시하나, Hold Columns 를 설정하지 않은 경우 다른 변수도 같이 출력된다, 이 때 고유한 원소가 등장하는 첫 번째 row에 해당하는 다른 변수들이 출력된다.
변수 두 개를 넣을 경우 다음과 같이 결과가 나온다.