브라이틱스(Brightics)에서 데이터 세트를 정렬할 때 사용하는 함수 블럭 Sort
을 알아본다.
Manipulation EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
분석 도중에 특정 변수를 기준으로 정렬하고자 할 때 활용한다. 특히 이 블럭은 데이터가 시간 순서대로 나열된 상태에서 분석을 실시하는 시계열 분석을 할 때 꼭 필요한 블럭이다.
설정
Sort
블럭의 설정창은 다음과 같다.
Sort Rule 부분에는 정렬 규칙을 지정해준다. Select Column 네모 버튼을 누르면 다음과 같이 정렬 대상 변수를 선택할 수 있다.
여기서는 sepal_length 변수와 sepal_width 변수를 지정하였는데, 각각 오름차순과 내림차순으로 정렬을 설정하였다. 파란 네모 부분이 오름차순, 촐록 네모 부분이 내림차순이니 잘 보고 분석 목적에 맞게 설정하도록 하자.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
데이터 세트의 정렬 결과는 다음과 같다.