Br) 함수 블럭 - Split Data

Br) 함수 블럭 - Split Data

브라이틱스(Brightics)에서 무작위 row를 추출하여 데이터를 두 개로 나눌때 사용하는 Split Data 을 알아본다.


Transform Machine Learning Pre-Processing

※ 본 내용은 Load 함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
사전 준비


개요

머신러닝 모델링을 하는 경우 학습 데이터 세트와 평가 데이터 세트로 나눠서 학습과 평가를 진행하게 된다. 이 때 Filter로 처리하지 않는다면 이 Split Data 함수 블럭을 사용한다.


설정

Split Data 블럭의 설정 창은 다음과 같다.
Split Data 블럭 설정 창

Train Ratio 는 학습 데이터 세트의 비율을 입력 한다. 10의 경우 100%이고 6.5의 경우 65%로 처리한다. (노이해) Test Ratio 는 평가 데이터 세트의 비율을 입력한다. Train Ratio 입력 값과 Test Ratio 입력 값의 합이 10이 넘더라도 10에서 Train Ratio 에 입력된 값을 뺀 값으로 입력한 것으로 간주하여 연산한다.

각 항목에는 다음과 같이 입력할 수 있다.
Split Data 설정

Seed 는 임의 추출 결과를 고정할 때 사용해준다. 같은 숫자를 입력하면 결과가 고정되어 같은 출력값을 볼 수 있다.


결과

Train Ratio 는 7, Test Ratio 는 3, Seed 는 123 으로 설정한 결과는 다음과 같다.
Split Data 실행 결과

출력은 두 개의 데이터 세트가 나오는데 다음과 같이 빨간 네모 버튼을 눌러 Chart Setting을 열어서 출력할 데이터 세트를 선택할 수 있다. “Split-Data-1”이 학습 데이터 세트이고 “Split-Data-2”가 평가 데이터 세트이다.
Split Data 출력 결과 확인

그리고 데이터 세트의 분리와 관련해서는 별도의 포스팅을 참고하도록 하자.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×