2020-10-03

Brightics / function-block

5분 읽기 (대략 803 단어)

Br) 함수 블럭 - One Hot Encoder Model

브라이틱스(Brightics)에서 기존에 사용했던 One Hot Encoder의 가변수 생성 규칙을 끌어와 다른 데이터에 적용할 때 사용하는 One Hot Encoder Model을 알아본다.

Extraction Machine Learning Pre-Processing

※ 본 내용은 Load 함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
사전 준비

※ 모델 json 파일 다운받기 [클릭]

개요

데이터 모델링을 하는 경우 학습과 평가 데이터세트 등 두 개 이상의 데이터로 나눌 경우 가변수 변환이 까다롭다. 특정 데이터의 명목형 변수를 가변수로 변환 할 경우 해당 규칙을 다른 데이터에 똑같이 적용하려면 기존에 가변수 생성 규칙을 가져와야 한다. 별다른 도구 없이 이를 해결하려면 각 데이터 세트에 누락이 되어있는 항목의 row를 추가한 후에 One Hot Encoder를 사용하고 다시 해당 row를 지워야 한다. 이 작업이 여간 번거로운게 아니다. 그래서 활용하는 것이 One Hot Encoder Model 이다.

설정

One Hot Encoder Model 블럭의 설정 창은 다음과 같다. 딱히 설정할 것이 없다.
One Hot Encoder Model 블럭 설정 창

별도의 설정은 없지만 입력되는 데이터와 모델은 주의해야 한다. Input 의 table 에는 가변수 변환 대상이 있는 데이터를 지정해주고 Model 에는 가변수 변환 규칙이 있는 One Hot Encoder 블럭을 지정해주어야 한다.
※ One Hot Encoder 포스팅 바로가기 -> [클릭]

결과

여기서 결과 세 개를 비교해본다. 우선 원 데이터를 One Hot Encoder 블럭을 사용하여 구한 결과는 다음과 같으며 이 규칙을 Query Executor 블럭으로 필터링한 데이터에 적용할 예정이다.
원 데이터 cut 변수의 가변수 처리 결과

필터링한 데이터를 대상으로 One Hot Encoder 블럭을 사용한 결과 cut 변수에 항목이 3개 밖에 없기 때문에 Drop Last 옵션이 “True”인 것 까지 적용되어 두 개의 가변수가 새로 생성된 것을 볼 수 있다.
원 데이터 첫 세개 row의 cut 변수의 가변수 처리 결과

다음은 앞에서 생성한 One Hot Encoder 블럭의 규칙을 받아와서 One Hot Encoder Model을 필터링한 데이터에 통과시킨 결과이다. 4개의 추가 변수가 생성된 것을 볼 수 있다.
원 데이터 첫 세개 row의 cut 변수의 One Hot Encoder Model 사용 결과

# OHE, block, brightics, dummy, encoder, function, hot, one, one-hot-encoder, 더미, 더미변수, 브라이틱스

Br) 함수 블럭 - One Hot Encoder Model

개요

설정

결과

Inflearn에서 인강을 평생 소장하세요!

카탈로그

Inflearn에서 인강을 평생 소장하세요!

카테고리

Your browser is out-of-date!