브라이틱스(Brightics)에서 무작위 row를 추출하여 데이터를 두 개로 나눌때 사용하는 Split Data
을 알아본다.
Transform Machine Learning Pre-Processing
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
머신러닝 모델링을 하는 경우 학습 데이터 세트와 평가 데이터 세트로 나눠서 학습과 평가를 진행하게 된다. 이 때 Filter
로 처리하지 않는다면 이 Split Data
함수 블럭을 사용한다.
설정
Split Data
블럭의 설정 창은 다음과 같다.
Train Ratio 는 학습 데이터 세트의 비율을 입력 한다. 10의 경우 100%이고 6.5의 경우 65%로 처리한다. (노이해) Test Ratio 는 평가 데이터 세트의 비율을 입력한다. Train Ratio 입력 값과 Test Ratio 입력 값의 합이 10이 넘더라도 10에서 Train Ratio 에 입력된 값을 뺀 값으로 입력한 것으로 간주하여 연산한다.
각 항목에는 다음과 같이 입력할 수 있다.
Seed 는 임의 추출 결과를 고정할 때 사용해준다. 같은 숫자를 입력하면 결과가 고정되어 같은 출력값을 볼 수 있다.
결과
Train Ratio 는 7, Test Ratio 는 3, Seed 는 123 으로 설정한 결과는 다음과 같다.
출력은 두 개의 데이터 세트가 나오는데 다음과 같이 빨간 네모 버튼을 눌러 Chart Setting을 열어서 출력할 데이터 세트를 선택할 수 있다. “Split-Data-1”이 학습 데이터 세트이고 “Split-Data-2”가 평가 데이터 세트이다.
그리고 데이터 세트의 분리와 관련해서는 별도의 포스팅을 참고하도록 하자.