머신러닝을 모델링을 할 때 데이터 전처리가 끝난 이후 꼭 하는 것이 있다. 바로 학습(train) 데이터세트와 평가(test) 데이터세트 분리이다. 7:3인지? 8:2인지? 그리고 validation set은 또 무엇인지 알아보도록 하자.
분석을 하다 보면 생성한 다루고 있는 객체의 크기를 알아야 할 때가 있다. 특히나 RAM 용량이 작은 머신으로 분석할 경우 이는 더욱더 중요해진다. 이와 관련해서 알아보자.
kaggle 노트북을 처음 접하는 경우 환경이 낮설기도 하고 조작에 애를 먹는 경우가 많다. 그런 분을 위해 kaggle 노트북 단축키를 소개하고자 한다.
파일을 다루다 보면 다양한 상황에 직면한다.
R을 사용하는 목적은 제각각이겠지만 기존에 SAS, SPSS, Stata를 사용하던 사람도 있을 것이다. 이런 분들이 겪는 문제가 또 파일을 읽는 것인데 getwd() 함수를 어찌 알아서 경로를 잡고 파일을 위치 시켜도 read.csv() 함수만 연신 입력하고 짜증내는 사람을 많이 보았다. 그래서 이번 포스팅은 haven, imager 패키지를 소개하고자 한다.
getwd()
read.csv()
Data Doctor
Diagnose and Treat via Data.
Seoul, Korea
포스트
304
카테고리
57
태그
675
Python / Crawling
Python / GIS
Python / Etc
Update your browser to view this website correctly. Update my browser now
×