브라이틱스(Brightics)에서 다변량 자료를 다룰 때 사용하기도 하며 특히 자료간 거리 계산을 사용하는 군집분석 실시 전에 사용하는 Normalization
을 알아본다.
Extraction EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
개요
정규화(normalization)는 회귀분석에서 표준화 회귀 계수를 계산하기 위해서도 활용하고 군집분석이나 추천시스템 관련 알고리즘을 사용할 때에도 특정 변수의 스케일 때문에 결과가 편향되는 것을 사전에 방지하기 위해서 활용한다.
설정
Normalization
블럭의 설정 창은 다음과 같다. 그리고 설정할 내용이 제법 많아 별도로 캡쳐를 하고 편집을 했으며 다음과 같다.
Input Columns에는 정규화 대상 변수를 지정해준다.
Normalization Type 에서 설정하는 정규화 방법은 다음과 같다.
MinMaxScaler
: 최대값과 최소값을 기준으로 처리하며 최대값을 1, 최소값을 0으로 만들어준다. (관련 문서)StandardScaler
: 표준편차와 평균을 사용하며 자료의 평균을 0, 표준편차를 1로 만들어준다. (관련 문서)MaxAbsScaler
: 최대값의 절대값을 기준으로 처리. (관련 문서)RobustScaler
: 최대값 최소값 대신 제 3 사분위수와 제 1 사분위수를 활용한다. (관련 문서)
Suffix 에는 정규화를 실시한 변수의 접미사를 지정할 수 있다.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
다음은 Price 변수를 MinMax Scaling 한 결과이다.