R) ML - train, test 데이터세트 분리

머신러닝을 모델링을 할 때 데이터 전처리가 끝난 이후 꼭 하는 것이 있다. 바로 학습(train) 데이터세트와 평가(test) 데이터세트 분리이다. 7:3인지? 8:2인지? 그리고 validation set은 또 무엇인지 알아보도록 하자.

2020-04-04

R / object

5분 읽기 (대략 731 단어)

R) 객체 용량 확인

분석을 하다 보면 생성한 다루고 있는 객체의 크기를 알아야 할 때가 있다. 특히나 RAM 용량이 작은 머신으로 분석할 경우 이는 더욱더 중요해진다. 이와 관련해서 알아보자.

2020-04-04

kaggle / Introduction

3분 읽기 (대략 522 단어)

kaggle 노트북 단축키

kaggle 노트북을 처음 접하는 경우 환경이 낮설기도 하고 조작에 애를 먹는 경우가 많다. 그런 분을 위해 kaggle 노트북 단축키를 소개하고자 한다.

2020-04-04

R / file_io

23분 읽기 (대략 3484 단어)

R) 파일 입출력 - 4

파일을 다루다 보면 다양한 상황에 직면한다.

왜 나는? 왜 나만!!! 안되는 것일까 ㅠㅠ
이번 포스팅에서는 파일을 읽을 때 발생하는 다양한 문제를 다뤄보고자 한다.

2020-04-01

R / file_io

6분 읽기 (대략 856 단어)

R) 파일 입출력 - 3

R을 사용하는 목적은 제각각이겠지만 기존에 SAS, SPSS, Stata를 사용하던 사람도 있을 것이다. 이런 분들이 겪는 문제가 또 파일을 읽는 것인데 getwd() 함수를 어찌 알아서 경로를 잡고 파일을 위치 시켜도 read.csv() 함수만 연신 입력하고 짜증내는 사람을 많이 보았다. 그래서 이번 포스팅은 haven, imager 패키지를 소개하고자 한다.