Oracle 데이터베이스에서 BigQuery로 데이터 복제

이 튜토리얼에서는 Cloud Data Fusion 복제를 사용하여 Oracle 데이터베이스에서 변경된 데이터를 BigQuery 데이터 세트로 지속적으로 복제하는 작업을 배포하는 방법을 보여줍니다. 이 기능은 Datastream을 기반으로 합니다.

목표

이 튜토리얼의 목표는 다음과 같습니다.

추가 로깅을 사용 설정하도록 Oracle 데이터베이스를 구성합니다.
Cloud Data Fusion 복제 작업을 만들고 실행하기
BigQuery에서 결과 확인하기

비용

이 문서에서는 비용이 청구될 수 있는 Google Cloud구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용합니다.

Google Cloud 신규 사용자는 무료 체험판을 사용할 수 있습니다.

복제가 실행되면 Dataproc 클러스터 및 Cloud Storage에 대한 비용이 청구되며 Datastream 및 BigQuery에 대한 처리 비용이 발생합니다. 이러한 비용을 최적화하려면 BigQuery 정액제를 사용하는 것이 좋습니다.

시작하기 전에

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

버전 6.3.0 이상에서 공개 Cloud Data Fusion 인스턴스를 만듭니다. 비공개 인스턴스를 만드는 경우 VPC 네트워크 피어링을 설정합니다.
- 인스턴스를 만들 때 가속기 추가를 클릭하고 복제 체크박스를 선택하여 복제를 사용 설정합니다.
- 기존 인스턴스에서 사용 설정하려면 복제 사용 설정을 참고하세요.

필요한 역할

Oracle 데이터베이스에 연결하는 데 필요한 권한을 얻으려면 관리자에게 다음의 IAM 역할을 부여해 달라고 요청하세요.

클러스터가 포함된 프로젝트의 Dataproc 서비스 계정에 대한 Dataproc 작업자(roles/dataproc.worker)
클러스터가 포함된 프로젝트의 Dataproc 서비스 계정에 대한 Cloud Data Fusion 실행자
Cloud Data Fusion 서비스 계정 및 Dataproc 서비스 계정에 대한 DataStream 관리자(roles/datastream.admin)

역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

선택사항: Compute Engine에 Oracle 설치

이 섹션에서는 예시 데이터베이스를 설정하는 방법을 보여줍니다. Oracle 데이터베이스가 이미 설치되어 있다면 이 섹션을 건너뛰어도 됩니다.

Oracle Server Docker 이미지를 다운로드합니다.

이 Oracle Express Edition 11g 이미지의 제한사항은 Oracle 데이터베이스 버전을 참고하세요.
Docker 이미지를 새 VM 인스턴스에 배포합니다.

참고: 새 VM 인스턴스에 이미지를 배포하려면 Compute Engine 서비스에 Artifact Registry 리더 역할(roles/artifactregistry.reader)이 있어야 합니다.
Compute Engine 디스크 페이지에서 디스크 크기를 500 GB로 변경한 후 VM을 다시 시작합니다.

디스크로 이동
HR 샘플 스키마를 설치합니다.

Oracle 서버의 VPC 네트워크 피어링 또는 방화벽 규칙 만들기

Oracle 데이터베이스가 공개 IP 주소로부터의 인그레스 트래픽을 허용하지 않는 경우 Datastream VPC와 Oracle 데이터베이스에 액세스할 수 있는 VPC 간에 VPC 네트워크 피어링을 설정합니다. 자세한 내용은 비공개 연결 구성 만들기를 참고하세요.

Oracle 데이터베이스가 공개 IP 주소의 인그레스 트래픽을 허용하는 경우 Datastream 공개 IP의 인그레스 트래픽을 허용하도록 VM 인스턴스의 방화벽 규칙을 만듭니다.

Oracle 서버가 추가 로깅을 사용 설정하도록 구성

소스 Oracle 데이터베이스를 구성하는 단계를 따릅니다.

Cloud Data Fusion 복제 작업을 만들고 실행하기

작업 만들기

Cloud Data Fusion 웹 인터페이스에서 복제를 클릭합니다.
복제 작업 만들기를 클릭합니다.
새 복제 작업 만들기 페이지에서 복제 작업 이름을 지정하고 다음을 클릭합니다.
소스를 구성합니다.
1. Oracle(Datastream별)을 소스로 선택합니다.
2. 연결 메서드에서 Oracle 서버가 Datastream 공개 IP의 인그레스 트래픽을 허용하면 IP 허용 목록을 선택합니다. 그 이외의 경우 비공개 연결 이름으로 비공개 연결(VPC 피어링)을 선택하고 Oracle 서버의 VPC 네트워크 피어링 또는 방화벽 규칙 만들기 섹션에서 만든 VPC 피어링 이름을 입력합니다.
3. 호스트에 읽을 Oracle 서버의 호스트 이름을 입력합니다.
4. 포트에서 Oracle 서버: 1521에 연결하는 데 사용할 포트를 입력합니다.
5. 시스템 ID에 xe(Oracle 서버의 샘플 데이터베이스 이름)를 입력합니다.
6. 사용자 인증 정보 섹션에서 Oracle 서버 액세스를 위한 사용자 이름과 비밀번호를 입력합니다.
7. 다른 속성은 모두 그대로 둡니다.
다음을 클릭합니다.
대상을 구성하려면 다음 안내를 따르세요.
1. BigQuery 대상을 선택합니다.
2. 프로젝트 ID와 서비스 계정 키는 자동으로 감지됩니다. 기본값은 그대로 둡니다.
3. 선택사항: 고급 섹션에서 다음을 구성할 수 있습니다.
  - 스테이징 버킷의 이름 및 위치
  - 로드 간격
  - 스테이징 테이블 접두사
  - 테이블 또는 데이터베이스가 삭제될 때의 동작
다음을 클릭합니다.
연결에 성공하면 테이블 목록이 표시됩니다. 이 튜토리얼에서는 몇 가지 테이블을 선택합니다.

참고: 계속하려면 선택한 테이블에 추가 로깅을 사용 설정해야 합니다.
다음을 클릭합니다.
평가 검토 페이지에서 테이블 옆에 있는 매핑 보기를 클릭하여 복제 중에 발생할 수 있는 스키마 문제, 기능 누락, 연결 문제에 대한 평가를 확인합니다.

문제가 발생한 경우 계속 진행하기 전에 해결해야 합니다. 이 튜토리얼의 경우 테이블에 문제가 있으면 다음 단계를 따르세요.
1. 테이블을 선택한 단계로 돌아갑니다.
2. 문제가 없는 테이블 또는 이벤트(삽입, 업데이트, 삭제)를 선택하세요.
소스 데이터베이스에서 BigQuery 대상으로의 데이터 유형 변환에 대한 자세한 내용은 복제 데이터 유형을 참조하세요.
뒤로를 클릭합니다.
다음을 클릭합니다.
복제 작업 세부정보 요약을 검토한 후 복제 작업 배포를 클릭합니다.

작업 시작

Cloud Data Fusion 웹 인터페이스에서 복제 작업 세부정보 페이지로 이동합니다.
Start(시작)를 클릭합니다.

복제 작업이 프로비저닝, 시작, 실행 중 상태로 차례로 전환됩니다. 실행 중 상태일 때 복제 작업에서 선택한 테이블 데이터의 초기 스냅샷을 BigQuery에 로드합니다. 이 상태에서는 테이블의 상태가 스냅샷 생성으로 표시됩니다. BigQuery에 초기 스냅샷이 로드되면 테이블의 변경사항이 BigQuery에 복제되고 테이블 상태가 복제 중으로 표시됩니다.

작업 모니터링

복제 작업을 시작 및 중지하고 구성과 로그를 검토하며 복제 작업을 모니터링할 수 있습니다.

복제 작업 세부정보 페이지에서 복제 작업 활동을 모니터링할 수 있습니다.

복제 페이지에서 선택한 복제 작업 이름을 클릭합니다.
모니터링을 클릭합니다.

BigQuery에서 결과 확인하기

복제 작업은 BigQuery에 복제된 데이터 세트 및 테이블을 만들고, 해당 Oracle 데이터베이스 및 테이블 이름으로부터 상속된 이름을 지정합니다.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
왼쪽 패널에서 프로젝트 이름을 클릭하여 데이터 세트 목록을 펼칩니다.
xe 데이터 세트를 선택한 다음 보려는 테이블을 선택합니다.

자세한 내용은 BigQuery 문서를 참조하세요.

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

튜토리얼을 마쳤으면 리소스가 할당량을 차지하지 않고 이후에 요금이 청구되지 않도록Google Cloud 에 만든 리소스를 삭제합니다. 다음 섹션은 이러한 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

VM 인스턴스 삭제

Google Cloud 콘솔에서 VM 인스턴스 페이지로 이동합니다.

VM 인스턴스로 이동
삭제할 인스턴스의 체크박스를 선택합니다.
인스턴스를 삭제하려면 삭제를 클릭합니다.

Cloud Data Fusion 인스턴스 삭제

안내에 따라 Cloud Data Fusion 인스턴스를 삭제합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

주의: 프로젝트를 삭제하면 다음과 같은 결과가 발생합니다.

프로젝트의 모든 항목이 삭제됩니다. 이 문서의 태스크에 기존 프로젝트를 사용한 경우 프로젝트를 삭제하면 프로젝트에서 수행한 다른 작업도 삭제됩니다.
커스텀 프로젝트 ID가 손실됩니다. 이 프로젝트를 만들 때 앞으로 사용할 커스텀 프로젝트 ID를 만들었을 수 있습니다. appspot.com URL과 같이 프로젝트 ID를 사용하는 URL을 보존하려면 전체 프로젝트를 삭제하는 대신 프로젝트 내에서 선택한 리소스만 삭제합니다.

여러 아키텍처, 튜토리얼 또는 빠른 시작을 살펴보려는 경우 프로젝트를 재사용하면 프로젝트 할당량 한도 초과를 방지할 수 있습니다.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

다음 단계

Datastream에 대해 자세히 알아보세요.
Cloud Data Fusion의 복제 자세히 알아보기
복제 API 참조 참조
Oracle 복제 참조를 참고하세요.
MySQL에서 BigQuery로 데이터 복제 튜토리얼 살펴보기
SQL Server에서 BigQuery로 데이터 복제 튜토리얼을 살펴보세요.