GCP) 빅쿼리 - 새 데이터셋 생성

GCP) 빅쿼리 - 새 데이터셋 생성

빅쿼리(BigQuery)에서 새로운 데이터셋을 생성하는 방법에 대해 알아본다.


개요

빅쿼리(BigQuery)에서 데이터셋은 테이블과 뷰에 대한 액세스를 구성 및 제어하는 데 사용되는 최상위 컨테이너라고 공식문서에서 언급을 하고 있다. 즉, 테이블을 그룹화하는 단위로 사용된다. 다시 말해서 데이터셋 아래에 여러개의 테이블이 있을 수 있는 것이고 그 테이블에 직접적으로 데이터가 담기게 된다. 그리고 테이블을 생성하기 위해서는 반드시 데이터셋이 있어야 한다. 데이터셋의 생성과 관련된 문서는 여기에서 확인할 수 있다.

데이터셋 내부에는 대표적으로 테이블(table), 파티션 테이블(partitioned table), 뷰(view)가 위치하게 되며 다음의 스크린샷과 같다. 그리고 데이터셋을 삭제하는 경우 해당 데이터셋에 포함된 모든 테이블, 뷰 등 관련 내용이 일괄 삭제 되니 주의하도록 한다.
빅쿼리 데이터셋 및 테이블

데이터셋 생성

권한(IAM)

본인이 소유한 프로젝트 내부에서 데이터셋을 생성하고자 한다면 문제가 없지만, 그렇지 않다면 데이터셋 생성과 관련된 권한이 필요하다. 해당 권한은 bigquery.datasets.create이며 해당 권한을 얻기 위해서는 IAM(Identity and Access Management)에서 다음 중 하나의 역할을 부여받아야 한다.

  • bigquery.dataEditor(빅쿼리 / 데이터 편집자)
  • bigquery.dataOwner(빅쿼리 / 데이터 소유자)
  • bigquery.user(빅쿼리 / 사용자)
  • bigquery.admin(빅쿼리 / 관리자)

콘솔

데이터셋을 생성하는 가장 간편한 방법은 빅쿼리 콘솔에서 직접 생성하는 것이다. 빅쿼리 콘솔에 접속한 후, 왼쪽 상단의 프로젝트명 오른쪽의 3점 버튼을 누르면 나오는 메뉴에서 데이터 세트 만들기 메뉴를 클릭해보자.
빅쿼리 데이터셋 생성 메뉴

다음과 같이 데이터셋이 생성될 프로젝트 지정, 데이터셋 이름 등 다양한 내용을 설정할 수 있는 창이 오른쪽에서 나온다.
빅쿼리 데이터셋 생성 창

먼저 프로젝트는 굳이 변경할 필요도 없고, 혹시나 다른 프로젝트에 데이터셋을 만들고자 한다면 되도록이면 확인을 위해 해당 프로젝트로 이동해서 생성 및 관련 설정을 완료하는 것을 추천한다. 그리고 데이터셋은 프로젝트에서 고유한 이름을 가져야 하며 해당 이름은 문자, 숫자, 밑줄로 구성되어야 함에 유의하자. 또한 데이터셋의 이름은 대소문자를 구분한다. 즉, mydatasetMyDataSet은 서로 다른 데이터셋이다.

리전(region)은 데이터 처리를 미국이나 유럽을 기준으로 할 것이 아니라면 굳이 “멀티 리전”을 선택할 필요는 없다. 서울을 기준으로 할 경우 다음과 같이 선택해주면 되겠다.
서울 리전 선택 예시

이 외의 테이블 생성 설정은 “테이블 만료”, “암호화” 등 많은 설정이 있으나 특수 목적용이 아니라면 기본 설정으로 두고 생성하는 것을 추천한다. 그리고 생성을 완료하면 다음과 같이 데이터셋이 생성된 것을 확인할 수 있다.
빅쿼리 데이터셋 생성 확인

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×