브라이틱스(Brightics)에서 수치형 데이터를 살펴볼 때 사용하는 함수 블럭 Statistic Summary
를 알아본다.
Transform EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
Select Column
함수 블럭은 보다 데이터를 편리하게 처리하기 위해 사용되며 주로 다음과 같은 기능이 있다.
- 변수 선택: 변수가 너무 많을 경우 필요한 변수만 선택
- 변수명 변경: 너무 긴 변수명을 처리하나 변수명으로 허용하지 않는 특수문자가 있는 경우 제거하기 좋다.
- 타입 변경: 문자, 숫자 등 특정 속성으로 변경할 수 있다.
설정
설정 변수를 추가하려면 Select columns 의 아래 빈 네모칸을 마우스로 클릭한다.
다음과 같이 체크박스를 클릭하거나 New Name에 새로운 변수명을 입력하거나 Type 부분에서 원하는 속성을 선택할 수 있다.
Type 에서 지정가능한 속성은 다음과 같다.
- String
: 문자열
- Int
: Integer, 정수
- Long
: 정수형(거의 사용하지 않음)
- Double
: 실수
- Boolean
: 논리값(True, False)
하지만 위 이미지의 설정 그대로 실행하게 되면 다음과 같이 에러가 난다.
이는 문자열(String)을 강제로 정수(Int)로 변환하려고 했기 때문에 발생하는 문제이다. 아래 결과 섹션의 결과와 같게 하려면 Species 변수의 Type 설정을 문자열 그대로 놔두고 실행을 하도록 하자.
결과
변수명이 petal_length에서 PL로 변경된 것을 확인할 수 있고, petal_width의 경우 문자형으로 되어 우측 정렬이 아닌 좌측 정렬이 된 것을 알 수 있다.