Br) 함수 블럭 - Profile Table

Br) 함수 블럭 - Profile Table

브라이틱스(Brightics)에서 데이터의 요약 정보를 한 번에 볼 때 사용하는 Profile Table 을 알아본다.


Statistics EDA Statistics

※ 본 내용은 Load 함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
사전 준비


개요

다루는 데이터의 정보가 거의 없을 때 변수마다 각종 통계량과 그래프를 확인하는 일은 참 번거롭다. 그 일을 조금이나마 손쉽게 도와주는 함수 블럭이 바로 Profile Table 이다. 결측치 개수, 히스토그램, 고유값 개수 등 제법 많은 정보를 한 번에 보여준다. 단, 계산항목이 많아 변수가 많거나 row 개수가 많은 데이터는 연산 시간이 오래걸리니 참고하도록 하자.


설정

Profile Table 블럭의 설정 창은 다음과 같다.
Profile Table 블럭 설정 창

Bins 는 히스토그램을 그릴때 지정하는 구간 개수이다. 출력 결과에 히스토그램이 나오는데 예를들어 10을 지정하면 막대가 열개, 5를 지정하면 다섯 개 나와야 한다. 하지만 제대로 동작하지 않아 쓸모가 없다.

Check Correlation 은 수치형 변수간 상관계수를 살펴보는 설정이다. True로 설정할 경우 Pearson’s 상관계수와 Spearman 상관계수 결과가 출력되는 것을 볼 수 있다. 그리고 이 설정을 사용할 경우에 상관계수가 특정 값 보다 크게되면 다음과 같이 경고 메세지가 출력된다.
Profile Table 블럭의 상관계수 경고
오른쪽에 있는   Rejected  의 경우 상관계수가 0이라는 귀무가설을 기각(reject)하고 상관계수가 0이 아니라는 대립가설을 채택한다는 의미이다. 그리고 특정 변수간 상관계수가 높지만 해당 경고를 출력하지 않게 하려면 경계값인 Correlation Threshhold 의 값을 1에 가깝게 주거나 Correlation Overrides 에 대상 변수를 등록하면 된다.


결과

Profile Table 블럭의 실행 결과 예시는 다음과 같다.
Profile Table 블럭의 실행 결과

Profile Table 블럭의 실행 결과는 특히 내용이 많기 때문에 창의 너비를 넓히거나 별도의 창을 띄워서 보는 것을 권장한다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×