Br) 함수 블럭 - Bind Row Column

Br) 함수 블럭 - Bind Row Column

브라이틱스(Brightics)에서 두 데이터 세트를 합칠 때 사용하는 함수 블럭 Bind Row Column 을 알아본다.


Transform Pre-Processing

※ 본 내용은 Load 함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
사전 준비

※ 모델 json 파일 다운받기 [클릭]

개요

분석을 할 때 대상 파일이 여러개로 쪼개져 있거나, 일부를 필터링 하여 별도 처리한 다음 다시 합쳐야 할 경우가 있다. 대표적인 경우로 분석하고자 하는 데이터가 1년 단위로 3개로 쪼개져 있을 경우 이 Bind Row Column 함수 블럭을 사용할 수 있다. 단, 아쉬운 점은 자료를 이어붙이는데 한 번에 두 개의 데이터 세트 밖에 지원하지 않는다. (개선좀)


설정

다음은 sample_iris.csv 파일을 species 변수의 ‘setosa’와 ‘versicolor’로 각각 필터링 하여 row 기준으로 이어붙이고자 하는 상황이다.
row binding 예시

Inputs 부분의 first_table 부분의 입력 데이터 세트는 row 기준으로 이어붙일 경우 위 쪽에 위치하게 되며, column 기준으로 이어붙일 경우 왼쪽에 위치하게 된다. 그리고 second_table 부분의 입력 데이터 세트는 row 기준으로 이어붙일 경우 아래 쪽에 위치하게 되며, column 기준으로 이어붙일 경우 오른쪽에 위치하게 된다.

단, row 기준으로 데이터를 이어붙이는 경우 column의 개수가 다르면 문제가 될 수 있다.
row 기준으로 이어붙일 때 주의 할 점

위 보기와 같이 에러는 발생하지 않지만, 이어붙이고자 하는 데이터 세트의 변수가 일치하지 않으면 일치 하지 않는 변수의 경우 결측치가 잔뜩 발생한 것을 볼 수 있다. 이 문제는 column 기준으로 데이터를 이어붙이는 경우도 마찬가지이다. 이렇게 데이터를 이어붙일 때 각 데이터 세트의 row 개수나 column 개수가 일치하는지 꼼꼼하게 확인하고 진행하는 것이 좋다.


결과

species 변수의 ‘setosa’와 ‘versicolor’로 각각 필터링 하여 row 기준으로 이어붙인 결과는 다음과 같다.
row binding 예시 결과

Filter 블럭으로 데이터를 쪼갰을 때는 각각 row 개수가 50개였지만, Bind Row Column 으로 이어붙인 결과를 보면 row 개수가 100개로 되어있음을 알 수 있다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×