브라이틱스(Brightics)에서 데이터의 요약 정보를 한 번에 볼 때 사용하는 Profile Table
을 알아본다.
Statistics EDA Statistics
※ 본 내용은 Load
함수 블럭에서 sample_iris.csv 파일을 불러온 후에 진행한다.
개요
다루는 데이터의 정보가 거의 없을 때 변수마다 각종 통계량과 그래프를 확인하는 일은 참 번거롭다. 그 일을 조금이나마 손쉽게 도와주는 함수 블럭이 바로 Profile Table
이다. 결측치 개수, 히스토그램, 고유값 개수 등 제법 많은 정보를 한 번에 보여준다. 단, 계산항목이 많아 변수가 많거나 row 개수가 많은 데이터는 연산 시간이 오래걸리니 참고하도록 하자.
설정
Profile Table
블럭의 설정 창은 다음과 같다.
Bins 는 히스토그램을 그릴때 지정하는 구간 개수이다. 출력 결과에 히스토그램이 나오는데 예를들어 10을 지정하면 막대가 열개, 5를 지정하면 다섯 개 나와야 한다. 하지만 제대로 동작하지 않아 쓸모가 없다.
Check Correlation 은 수치형 변수간 상관계수를 살펴보는 설정이다. True
로 설정할 경우 Pearson’s 상관계수와 Spearman 상관계수 결과가 출력되는 것을 볼 수 있다. 그리고 이 설정을 사용할 경우에 상관계수가 특정 값 보다 크게되면 다음과 같이 경고 메세지가 출력된다.
오른쪽에 있는 Rejected 의 경우 상관계수가 0이라는 귀무가설을 기각(reject)하고 상관계수가 0이 아니라는 대립가설을 채택한다는 의미이다. 그리고 특정 변수간 상관계수가 높지만 해당 경고를 출력하지 않게 하려면 경계값인 Correlation Threshhold 의 값을 1에 가깝게 주거나 Correlation Overrides 에 대상 변수를 등록하면 된다.
결과
Profile Table
블럭의 실행 결과 예시는 다음과 같다.
Profile Table
블럭의 실행 결과는 특히 내용이 많기 때문에 창의 너비를 넓히거나 별도의 창을 띄워서 보는 것을 권장한다.