R) 전처리 - 데이터프레임 중복 변수 확인

R) 전처리 - 데이터프레임 중복 변수 확인

데이터 전처리시 발생할 수 있는 중복 변수를 확인하는 방법을 알아보자.

데이터 전처리를 하다보면 cbind() 함수를 사용하거나 반복문을 사용하여 새로운 데이터를 이어붙이는 경우 중복된 변수를 확인하고 처리해야 할 수 있다. 먼저 다음과 같이 iris 데이터를 준비하자.

1
2
3
4
5
6
7
8
iris_cbind = cbind(iris, iris[, 1:2])
head(iris_cbind, 2)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## Sepal.Length Sepal.Width
## 1 5.1 3.5
## 2 4.9 3.0

중복된 변수가 몇 개 있는지 확인하려면 다음과 같이 코드를 작성할 수 있다.

1
2
sum(duplicated(colnames(iris_cbind)))
## [1] 2

단순 중복된 변수가 있는지 확인하고자 한다면 다음과 같이 코드를 작성할 수 있다.

1
2
sum(duplicated(colnames(iris_cbind))) > 0
## [1] TRUE

중복된 변수의 위치를 확인하려면 다음과 같이 코드를 작성할 수 있다.

1
2
which(duplicated(colnames(iris_cbind)))
## [1] 6 7

단순히 어떤 이름의 변수가 중복인지 확인하려면 다음과 같이 코드를 작성할 수 있다.

1
2
names(which(table(colnames(iris_cbind)) >= 2))
## [1] "Sepal.Length" "Sepal.Width"
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×