브라이틱스(Brightics)에서 Normalization
의 규칙을 그대로 다른 데이터에 적용할 수 있는 Normalization Model
을 알아본다.
Extraction EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
※ 모델 json 파일 다운받기 [클릭]
개요
데이터 모델링을 하는 경우 학습과 평가 데이터세트 등 두 개 이상의 데이터로 나눌 경우 데이터 정규화가 애메하다. 특정 데이터를 MinMax Scaling을 할 경우 해당 정규화를 다른 데이터에 똑같이 적용하려면 기존에 정규화를 실시할 때 사용한 최대값과 최소값을 가져와야 하는데 이 작업이 여간 번거로운게 아니다. 그래서 활용하는 것이 Normalization Model
이다.
설정
Normalization Model
블럭의 설정 창은 다음과 같다. 딱히 설정할 것이 없다.
별도의 설정은 없지만 입력되는 데이터와 모델은 주의해야 한다. Input 의 table 에는 정규화 대상이 되는 데이터를 지정해주고 Model 에는 정규화 규칙이 있는 Normalization
블럭을 지정해주어야 한다.
※ Normalization
포스팅 바로가기 -> [클릭]
결과
우선 price 변수 값이 340 이하인 데이터만 추출한 것을 대상으로 그 결과를 살펴보도록 하자. 먼저 Normalization
블럭을 적용하여 보면 12번째 price 값이 340이던 것이 현재 데이터 세트에서는 최대값이기 때문에 price_min_max 변수의 값이 1인 것을 볼 수 있다.
기존에 정규화를 실시한 Normalization
블럭에서 규칙을 가져와 Normalization Model
에 지정하고 정규화를 실시한 결과는 다음과 같으며 Price 변수가 340이던 것이 price_min_max 변수에서 0.00075 정도로 표기된 것을 볼 수 있다.