데이터 전처리시 발생할 수 있는 중복 변수를 확인하는 방법을 알아보자.
데이터 전처리를 하다보면 cbind()
함수를 사용하거나 반복문을 사용하여 새로운 데이터를 이어붙이는 경우 중복된 변수를 확인하고 처리해야 할 수 있다. 먼저 다음과 같이 iris 데이터를 준비하자.
1 | iris_cbind = cbind(iris, iris[, 1:2]) |
중복된 변수가 몇 개 있는지 확인하려면 다음과 같이 코드를 작성할 수 있다.
1 | sum(duplicated(colnames(iris_cbind))) |
단순 중복된 변수가 있는지 확인하고자 한다면 다음과 같이 코드를 작성할 수 있다.
1 | sum(duplicated(colnames(iris_cbind))) > 0 |
중복된 변수의 위치를 확인하려면 다음과 같이 코드를 작성할 수 있다.
1 | which(duplicated(colnames(iris_cbind))) |
단순히 어떤 이름의 변수가 중복인지 확인하려면 다음과 같이 코드를 작성할 수 있다.
1 | names(which(table(colnames(iris_cbind)) >= 2)) |