브라이틱스(Brightics)에서 데이터를 필터링 할 때 사용하는 가장 기본적인 함수 블럭 Filter
를 알아본다.
Manipulation Pre-Processing
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
데이터를 필터링 할 수 있는 기능을 가진 함수 블럭은 Select Column
, Query Executer
등 여러개가 있지만, 가장 쉽고 빠르게 쓸 수 있는 것이 Filter
블럭이다. 단일 기준으로 필터링 할 수도 있고, 두 개 이상의 조건을 한 번에 적용할 수도 있다.
설정
Filter
블럭에서 Condition 아래 사각형 부분을 누르면 조건을 입력할 수 있는 창이 나온다.
다음은 조건을 입력 할 수 있는 창이다.
여기서 Add Condition 네모 버튼을 누르면 다음과 같이 조건을 추가할 수 있다.
그리고 And 옵션은 2개 이상의 조건이 동시에 적용되어야 하는 경우 사용하고, or 조건은 2개 이상의 조건 중 하나 이상만 적용되어도 괜찮은 경우 사용한다.
+ Select Column 버튼을 눌러서 필터링 대상 변수를 선택할 수 있다.
그리고 해당 변수에 조건을 거는 연산자 종류는 다음과 같다.
==
: 특정 값과 같은지 검사!=
: 특정 값과 다른지 검사<
: 미만<=
: 이하>
: 초과>=
: 이상In
: 특정 값이 포함되는지 검사Not In
: 특정 값이 포함되지 않는지 검사
예를 들어 species 변수에서 setosa
라는 값을 가지는 row를 뽑아내려면 다음과 같이 한다.
단, 텍스트 조건 입력시 큰따옴표를 쓰면 다음과 같이 오류가 난다. (하….)
결과
species 변수에서 setosa
라는 값을 가지는 row를 뽑아낸 경우 결과는 다음과 같다.
연산 이후에는 입력한 데이터의 row와 출력된 데이터의 row 개수를 꼭 확인하도록 한다.