브라이틱스(Brightics)에서 값을 요약하거나 자료 구조를 변경할 때 사용하는 Pivot
을 알아본다.
Transform EDA Pre-Processing
※ 본 내용은 Load
함수 블럭에서 diamonds.csv 파일을 불러온 후에 진행한다.
※ diamonds.csv 다운받기 [클릭]
개요
Statistic Summary
블럭은 각각의 수치형 변수를 각종 통계량으로 요약하는 블럭이라면 Pivot
은 여러 변수를 row나 column에 배치하여 마치 엑셀의 피벗테이블을 사용하는 것 처럼 데이터를 요약할 수 있다.
비슷한 함수 블럭이 몇 개 있으니 같이 보면 더욱 좋다.
※ Unpivot
포스팅 바로가기 -> [클릭]
※ Transpose
포스팅 바로가기 -> [클릭]
설정
Pivot
블럭의 설정창은 다음과 같다.
Rows 에는 row 기준으로 Values 에 할당되는 변수를 요약하는 경우 원하는 변수를 할당해준다.
Columns 에는 column 기준으로 Values 에 할당되는 변수를 요약하는 경우 원하는 변수를 할당해준다.
Values 에는 Rows 와 Columns 에 할당되는 변수를 기준으로 요약하고자 하는 변수를 할당한다. 보통 하나의 변수만 지정한다. 여기에 복수개의 변수를 할당할 경우 결과가 복잡해지니 여러 변수를 타겟으로 이 연산을 실시하고자 한다면 차라리 별도의 Pivot
블럭을 사용하여 Bind Row Columns
블럭으로 이어주는 것이 차라리 나을 것이다.
※ Bind Row Columns
포스팅 바로가기 -> [클릭]
다음의 예시는 다이아몬드의 세공 수준(cut)별 색상(color)별 가격(Price)을 연산할 때 지정하는 두 개의 예시가 되겠다. 왼쪽과 오른쪽의 설정을 잘 보면 Rows 와 Columns 에 할당된 변수가 서로 다르다. 이는 연산 결과는 같지만 출력되는 데이터의 구조가 다르다.
여기에서 연산 대상이 되는 통계값을 체크하여 사용하면 된다.
각 통계값의 이름과 연산 내용은 다음과 같다.
결과
다음은 다이아몬드의 세공 수준(cut)별 색상(color)별 가격(Price)의 평균을 계산한 결과이다.