bq 도구 사용
이 튜토리얼에서는 BigQuery용 Python 기반 명령줄 인터페이스 (CLI) 도구인 bq를 사용하여 데이터 세트를 만들고, 샘플 데이터를 로드하고, 테이블을 쿼리하는 방법을 알아봅니다. 이 튜토리얼을 완료하면 bq에 익숙해지고 CLI를 사용하여 BigQuery를 사용하는 방법을 알게 됩니다.
모든 bq 명령어 및 플래그에 대한 자세한 내용은 bq 명령줄 도구 참조를 확인하세요.
Google Cloud 콘솔에서 이 태스크에 대한 단계별 안내를 직접 수행하려면 둘러보기를 클릭합니다.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
BigQuery API를 사용 설정합니다.
API 사용 설정에 필요한 역할
API를 사용 설정하려면
serviceusage.services.enable권한이 포함된 서비스 사용량 관리자 IAM 역할 (roles/serviceusage.serviceUsageAdmin)이 필요합니다. 역할 부여 방법 알아보기새 프로젝트에서는 BigQuery API가 자동으로 사용 설정됩니다.
- (선택사항) 프로젝트에 대한 결제를 사용 설정합니다. 결제를 사용 설정하거나 신용카드를 제공하지 않는 경우 이 문서의 단계가 계속 작동합니다. BigQuery에서는 단계를 수행하기 위한 샌드박스를 제공합니다. 자세한 내용은 BigQuery 샌드박스 사용 설정을 참조하세요.
Google Cloud 콘솔에서 Cloud Shell을 활성화합니다.
Google Cloud 콘솔 하단에 Cloud Shell 세션이 시작되고 명령줄 프롬프트가 표시됩니다. Cloud Shell은 Google Cloud CLI가 사전 설치된 셸 환경으로, 현재 프로젝트의 값이 이미 설정되어 있습니다. 세션이 초기화되는 데 몇 초 정도 걸릴 수 있습니다.
필요한 역할
데이터 세트를 만들고, 테이블을 만들고, 데이터를 로드하고, 데이터를 쿼리하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 다음 IAM 역할을 부여해 달라고 요청하세요.
-
로드 작업 및 쿼리 작업 실행:
BigQuery 작업 사용자 (
roles/bigquery.jobUser) -
데이터 세트 만들기, 테이블 만들기, 테이블에 데이터 로드, 테이블 쿼리:
BigQuery 데이터 편집자 (
roles/bigquery.dataEditor)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
소스 데이터가 포함된 파일 다운로드
다운로드하는 파일에는 약 7MB 분량의 인기 있는 아기 이름 데이터가 포함되어 있으며, 이 데이터는 미국 사회보장국에서 제공합니다.
데이터에 대한 자세한 내용은 사회보장국의 인기 있는 이름 배경 정보를 참고하세요.
새 브라우저 탭에서 다음 URL을 열어 미국 사회보장국의 데이터를 다운로드합니다.
https://www.ssa.gov/OACT/babynames/names.zip파일 압축을 풉니다.
데이터 세트 스키마에 대한 자세한 내용은 추출한
NationalReadMe.pdf파일을 참고하세요.데이터가 어떻게 표시되는지 확인하려면
yob2024.txt파일을 엽니다. 이 파일에는 이름, 출생 시 성별, 해당 이름을 가진 아이의 수에 대한 쉼표로 구분된 값이 포함되어 있습니다. 파일에는 헤더 행이 없습니다.파일을 작업 디렉터리로 이동합니다.
Cloud Shell에서 작업하는 경우
더보기 업로드를 클릭하고 파일 선택을 클릭하고yob2024.txt파일을 선택한 후 업로드를 클릭합니다.로컬 셸에서 작업하는 경우
yob2024.txt파일을 bq 도구가 실행 중인 디렉터리로 복사하거나 이동합니다.
데이터 세트 만들기
문서에서 Cloud Shell을 실행한 경우 다음 명령어를 입력하여 프로젝트 ID를 설정합니다. 이렇게 하면 각 CLI 명령어에서 프로젝트 ID를 지정하지 않아도 됩니다.
gcloud config set project PROJECT_IDPROJECT_ID를 프로젝트 ID로 바꿉니다.
다음 명령어를 입력하여
babynames라는 이름의 데이터 세트를 만듭니다.bq mk --dataset babynames출력은 다음과 비슷합니다.
Dataset 'babynames' successfully created.이제
babynames데이터 세트가 프로젝트에 표시되는지 확인합니다.bq ls --datasets=true출력은 다음과 비슷합니다.
datasetId ------------- babynames
테이블에 데이터 로드
babynames데이터 세트에서 소스 파일yob2024.txt를names2024라는 새 테이블에 로드합니다.bq load babynames.names2024 yob2024.txt name:string,assigned_sex_at_birth:string,count:integer출력은 다음과 비슷합니다.
Upload complete. Waiting on bqjob_r3c045d7cbe5ca6d2_0000018292f0815f_1 ... (1s) Current status: DONE이제
names2024테이블이babynames데이터 세트에 표시되는지 확인합니다.bq ls --format=pretty babynames출력은 다음과 비슷합니다. 출력이 간소화되도록 일부 열을 생략합니다.
+-----------+-------+ | tableId | Type | +-----------+-------+ | names2024 | TABLE | +-----------+-------+새
names2024테이블의 테이블 스키마가name: string,assigned_sex_at_birth: string,count: integer인지 확인합니다.bq show babynames.names2024출력은 다음과 비슷합니다. 출력이 간소화되도록 일부 열을 생략합니다.
Last modified Schema Total Rows Total Bytes ----------------- ------------------------------- ------------ ------------ 14 Mar 17:16:45 |- name: string 31904 607494 |- assigned_sex_at_birth: string |- count: integer
테이블 데이터 쿼리
데이터에서 가장 인기 있는 여자아이 이름을 확인합니다.
bq query \ 'SELECT name, count FROM babynames.names2024 WHERE assigned_sex_at_birth = "F" ORDER BY count DESCLIMIT 5'출력은 다음과 비슷합니다.
+-----------+-------+ | name | count | +-----------+-------+ | Olivia | 14718 | | Emma | 13485 | | Amelia | 12740 | | Charlotte | 12552 | | Mia | 12113 | +-----------+-------+데이터에서 가장 인기 없는 남자아이 이름을 확인합니다.
bq query \ 'SELECT name, count FROM babynames.names2024 WHERE assigned_sex_at_birth = "M" ORDER BY count ASCLIMIT 5'출력은 다음과 비슷합니다.
+---------+-------+ | name | count | +---------+-------+ | Aaran | 5 | | Aadiv | 5 | | Aadarsh | 5 | | Aarash | 5 | | Aadrik | 5 | +---------+-------+5회 미만 출현한 이름은 소스 데이터에서 생략되어 있으므로 최소 수는 5입니다.
삭제
이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 Google Cloud 프로젝트를 삭제하세요.
프로젝트 삭제
BigQuery 샌드박스를 사용하여 공개 데이터 세트를 쿼리한 경우에는 프로젝트에 결제가 사용 설정되지 않으므로 프로젝트를 삭제하지 않아도 됩니다.비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하는 방법은 다음과 같습니다.
- Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.
리소스 삭제
기존 프로젝트를 사용한 경우 생성된 리소스를 삭제합니다.
babynames데이터 세트를 삭제합니다.bq rm --recursive=true babynames--recursive플래그는names2024테이블을 포함한 데이터 세트의 모든 테이블을 삭제합니다.출력은 다음과 비슷합니다.
rm: remove dataset 'myproject:babynames'? (y/N)삭제 명령어를 확인하려면
y를 입력합니다.
다음 단계
- bq 도구 사용 자세히 알아보기
- BigQuery 샌드박스 알아보기
- BigQuery로 데이터 로드 자세히 알아보기
- BigQuery에서 데이터 쿼리 자세히 알아보기