브라이틱스(Brightics)에서 수치형 변수의 결측치를 제거할 때 사용하는 Replace Missing Number
을 알아본다.
Transform Pre-Processing Missing
※ 본 내용은 Load
함수 블럭에서 iris_missing.csv 파일을 불러온 후에 진행한다.
※ iris_missing.csv 다운받기 [클릭]
개요
데이터 분석을 하다 보면 결측치 처리는 필수이다. 이 때 손쉽게 수치형 변수의 결측값 처리를 도와주는 Replace Missing Number
를 알아보자.
설정
Replace Missing Number
블럭의 설정창은 다음과 같다.
Input Columns 의 아래 네모 상자를 클릭하면 결측치를 처리할 수치형 변수의 목록이 오른쪽에 뜬다. 하지만 수치형 변수가 아닌 경우 문자형으로 뜨니 혹시 숫자형인줄 알았던 변수가 보이지 않는다면 파일을 다시 읽어오거나 Select Column
함수 블럭을 활용하여 그 타입을 바꿔주도록 한다.
※ Select Column
포스팅 바로가기 -> [클릭]
다음으로는 Fill Value 설정인데 하위 선택지의 이름과 설명은 다음과 같다.
- To
: 특정 값을 채워넣음. 아래 Fill Holes With 에 값 입력
- Mean
: 평균으로 채워넣음
- Median
: 중앙값으로 채워넣음
- Min
: 최소값으로 채워넣음
- Max
: 최대값으로 채워넣음
다음은 결측값이 999로 채워지도록 설정한 경우이다.
추가로 특정 변수의 원소를 기준으로 묶음 연산을 하고자 할 때는 대상이 되는 변수를 아래 Group By 부분에서 [Select] 버튼을 눌러 변수 목록을 불러와 선택해준다. 묶음 연산은 되도록이면 연속형 변수가 아닌 명목형 변수를 기준으로 수행을 권장한다.
결과
상기 설정에 따른 결과는 다음과 같다.
※ Replace Missing String
포스팅 바로가기 -> [클릭]