BigQuery에 Oracle 데이터 로드

Oracle용 BigQuery Data Transfer Service 커넥터를 사용하여 Oracle에서 BigQuery로 데이터를 로드할 수 있습니다. BigQuery Data Transfer Service를 사용하면 Oracle의 최신 데이터를 BigQuery에 추가하는 반복 전송 작업을 예약할 수 있습니다.

제한사항

Oracle 전송에는 다음과 같은 제한사항이 적용됩니다.

  • Oracle 데이터베이스에 대한 최대 동시 연결 수가 제한되어 있으므로 단일 Oracle 데이터베이스에 대한 동시 전송 실행 수는 해당 최대 수로 제한됩니다.
  • Oracle 데이터베이스 연결에 공개 IP를 사용할 수 없는 경우 다음 요구사항에 따라 네트워크 연결을 설정해야 합니다.
    • 네트워크 연결이 있는 서브넷에서 데이터 소스에 액세스할 수 있어야 합니다.
    • 네트워크 연결은 240.0.0.0/24 범위 내의 서브넷에 있지 않아야 합니다.
    • 연결에 대한 활성 연결이 있으면 네트워크 연결을 삭제할 수 없습니다. 네트워크 연결을 삭제하려면 Cloud Customer Care에 문의하세요.
    • us 멀티 리전의 경우 네트워크 연결은 us-central1 리전에 있어야 합니다. eu 멀티 리전의 경우 네트워크 연결은 europe-west4 리전에 있어야 합니다.
  • 반복 Oracle 전송 사이의 최소 간격은 15분입니다. 반복 전송의 기본 간격은 24시간입니다.
  • 단일 전송 구성은 지정된 시간에 하나의 데이터 전송 실행만 지원할 수 있습니다. 첫 번째 전송이 완료되기 전에 두 번째 데이터 전송이 실행되도록 예약된 경우 첫 번째 데이터 전송만 완료되고 첫 번째 전송과 겹치는 다른 데이터 전송은 건너뜁니다.
    • 단일 전송 구성 내에서 전송이 건너뛰는 것을 방지하려면 반복 빈도를 구성하여 대량 데이터 전송 간의 시간을 늘리는 것이 좋습니다.
  • 구성된 네트워크 연결과 가상 머신(VM) 인스턴스가 서로 다른 리전에 있는 경우 Oracle에서 데이터를 전송할 때 리전 간 데이터 이동이 발생할 수 있습니다.

데이터 수집 옵션

다음 섹션에서는 Oracle 데이터 전송을 설정할 때의 데이터 수집 옵션에 대해 설명합니다.

TLS 구성

Oracle 커넥터는 BigQuery로의 데이터 전송을 암호화하기 위한 전송 수준 보안 (TLS) 구성을 지원합니다. Oracle 커넥터는 다음 TLS 구성을 지원합니다.

  • 데이터 암호화 및 CA와 호스트 이름 확인: 이 모드는 TCPS 프로토콜을 통해 TLS를 사용하여 서버의 전체 유효성 검사를 실행합니다. 전송 중인 모든 데이터를 암호화하고 데이터베이스 서버의 인증서가 신뢰할 수 있는 인증 기관 (CA)에 의해 서명되었는지 확인합니다. 이 모드는 연결하려는 호스트 이름이 서버 인증서의 일반 이름 (CN) 또는 주체 대체 이름 (SAN)과 정확히 일치하는지도 확인합니다. 이 모드는 공격자가 다른 도메인의 유효한 인증서를 사용하여 데이터베이스 서버를 가장하는 것을 방지합니다.
    • 호스트 이름이 인증서 CN 또는 SAN과 일치하지 않으면 연결이 실패합니다. 인증서와 일치하도록 DNS 변환을 구성하거나 다른 보안 모드를 사용해야 합니다.
    • 중간자(PITM) 공격을 방지하는 가장 안전한 옵션으로 이 모드를 사용하세요.
  • 데이터 암호화 및 CA만 확인: 이 모드는 TCPS 프로토콜을 통해 TLS를 사용하여 모든 데이터를 암호화하고 서버의 인증서가 클라이언트가 신뢰하는 CA에 의해 서명되었는지 확인합니다. 하지만 이 모드는 서버의 호스트 이름을 확인하지 않습니다. 이 모드는 인증서가 유효하고 신뢰할 수 있는 VA에서 발급된 경우 인증서의 호스트 이름이 연결하려는 호스트 이름과 일치하는지 여부와 관계없이 성공적으로 연결됩니다.
    • 인증서가 신뢰할 수 있는 CA에 의해 서명되었지만 호스트 이름을 확인할 수 없거나 호스트 이름 구성을 제어할 수 없는 서버에 연결하려는 경우 이 모드를 사용합니다.
  • 암호화만: 이 모드는 표준 TCP 포트를 통해 Oracle의 네이티브 네트워크 암호화를 사용하여 클라이언트와 서버 간에 전송되는 모든 데이터를 암호화합니다. 인증서 또는 호스트 이름 유효성 검사를 실행하지 않습니다.
    • 이 모드는 전송 중인 데이터를 보호하여 어느 정도의 보안을 제공하지만 PITM 공격에 취약할 수 있습니다.
    • 모든 데이터를 암호화해야 하지만 서버의 ID를 확인할 수 없거나 확인하고 싶지 않은 경우 이 모드를 사용합니다. 비공개 VPC를 사용할 때는 이 모드를 사용하는 것이 좋습니다.
  • 암호화 또는 확인 없음: 이 모드는 데이터를 암호화하지 않으며 인증서 또는 호스트 이름 확인을 실행하지 않습니다. 모든 데이터는 일반 텍스트로 전송됩니다.
    • 민감한 데이터를 처리하는 환경에서는 이 모드를 사용하지 않는 것이 좋습니다.
    • 이 모드는 보안이 문제가 되지 않는 격리된 네트워크에서 테스트 목적으로만 사용하는 것이 좋습니다.

신뢰할 수 있는 서버 인증서 (PEM)

데이터 암호화, CA 및 호스트 이름 확인 모드 또는 데이터 암호화, CA 확인 모드를 사용하는 경우 하나 이상의 PEM 인코딩 인증서를 제공할 수도 있습니다. 이러한 인증서는 TLS 연결 중에 BigQuery Data Transfer Service가 데이터베이스 서버의 ID를 확인해야 하는 일부 시나리오에서 필요합니다.

  • 조직 내 비공개 CA에서 서명한 인증서 또는 자체 서명 인증서를 사용하는 경우 전체 인증서 체인 또는 단일 자체 서명 인증서를 제공해야 합니다. 이는 Amazon Relational Database Service (RDS)와 같은 관리형 클라우드 제공업체 서비스의 내부 CA에서 발급한 인증서에 필요합니다.
  • 데이터베이스 서버 인증서가 공개 CA (예: Let's Encrypt, DigiCert, GlobalSign)에 의해 서명된 경우 인증서를 제공하지 않아도 됩니다. 이러한 공개 CA의 루트 인증서는 BigQuery Data Transfer Service에 사전 설치되어 있으며 신뢰할 수 있습니다.

Oracle 전송 구성을 만들 때 신뢰할 수 있는 PEM 인증서 필드에 PEM으로 인코딩된 인증서를 제공할 수 있으며, 다음 요구사항을 충족해야 합니다.

  • 인증서는 유효한 PEM 인코딩 인증서 체인이어야 합니다.
  • 인증서가 완전히 올바른지 확인하세요. 체인에 인증서가 누락되거나 콘텐츠가 잘못되면 TLS 연결이 실패합니다.
  • 단일 인증서의 경우 데이터베이스 서버에서 단일 자체 서명 인증서를 제공할 수 있습니다.
  • 비공개 CA에서 발급한 전체 인증서 체인의 경우 전체 신뢰 체인을 제공해야 합니다. 여기에는 데이터베이스 서버의 인증서와 중간 및 루트 CA 인증서가 포함됩니다.

시작하기 전에

다음 섹션에서는 Oracle 전송을 만들기 전에 수행해야 하는 단계를 설명합니다.

Oracle 기본 요건

Oracle 전송을 만들 때 다음 Oracle 데이터베이스 정보도 있어야 합니다.

매개변수 이름 설명
database 데이터베이스 이름입니다.
host

데이터베이스의 호스트 이름 또는 IP 주소입니다.

port

데이터베이스의 포트 번호입니다.

username

데이터베이스에 액세스할 사용자 이름입니다.

password

데이터베이스에 액세스할 비밀번호입니다.

BigQuery 기본 요건

필요한 BigQuery 역할

BigQuery 데이터 전송 서비스 데이터 전송을 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 BigQuery 관리자 (roles/bigquery.admin) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 BigQuery Data Transfer Service 데이터 전송을 만드는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

BigQuery Data Transfer Service 데이터 전송을 만들려면 다음 권한이 필요합니다.

  • BigQuery Data Transfer Service 권한:
    • bigquery.transfers.update
    • bigquery.transfers.get
  • BigQuery 권한:
    • bigquery.datasets.get
    • bigquery.datasets.getIamPolicy
    • bigquery.datasets.update
    • bigquery.datasets.setIamPolicy
    • bigquery.jobs.create

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

자세한 내용은 bigquery.admin 액세스 권한 부여를 참고하세요.

BigQuery에 Oracle 데이터 로드

다음 옵션 중 하나를 사용하여 전송 구성을 설정하여 BigQuery에 Oracle 데이터를 추가합니다.

콘솔

  1. Google Cloud 콘솔에서 데이터 전송 페이지로 이동합니다.

    데이터 전송으로 이동

  2. 전송 만들기를 클릭합니다.

  3. 소스 유형 섹션의 소스에서 Oracle을 선택합니다.

  4. 데이터 소스 세부정보 섹션에서 다음을 수행합니다.

    • 네트워크 연결의 경우 기존 네트워크 연결을 선택하거나 네트워크 연결 만들기를 클릭합니다.
    • 호스트의 경우 데이터베이스의 호스트 이름 또는 IP를 입력합니다.
    • 포트에 Oracle 데이터베이스가 수신 연결에 사용하는 포트 번호(예: 1521)를 입력합니다.
    • 데이터베이스 이름에 Oracle 데이터베이스 이름을 입력합니다.
    • 연결 유형에는 연결 URL 유형(SERVICE, SID 또는 TNS)을 입력합니다.
    • 사용자 이름에 Oracle 데이터베이스 연결을 시작하는 사용자의 사용자 이름을 입력합니다.
    • 비밀번호에 Oracle 데이터베이스 연결을 시작하는 사용자의 비밀번호를 입력합니다.
    • TLS 모드의 경우 드롭다운 메뉴에서 옵션을 선택합니다. TLS 모드에 관한 자세한 내용은 TLS 구성을 참고하세요.
    • 신뢰할 수 있는 PEM 인증서에 데이터베이스 서버의 TLS 인증서를 발급한 인증 기관(CA)의 공개 인증서를 입력합니다. 자세한 내용은 신뢰할 수 있는 서버 인증서(PEM)를 참고하세요.
    • 전송할 Oracle 객체에서 찾아보기를 클릭하여 BigQuery 대상 데이터 세트로 전송할 테이블을 선택합니다. 데이터 전송에 포함할 객체를 이 필드에 직접 입력할 수도 있습니다.
  5. 대상 설정 섹션의 데이터 세트에서 데이터를 저장하기 위해 만든 데이터 세트를 선택합니다.

  6. 전송 구성 이름 섹션의 표시 이름에 데이터 전송 이름을 입력합니다.

  7. 일정 옵션 섹션에서 다음을 수행합니다.

    • 반복 빈도 목록에서 이 데이터 전송 실행 빈도를 지정하는 옵션을 선택합니다. 커스텀 반복 빈도를 지정하려면 커스텀을 선택합니다. 주문형을 선택한 경우 수동으로 전송을 트리거하면 이 전송이 실행됩니다.
    • 해당하는 경우 지금 시작 또는 설정 시간에 시작을 선택하고 시작 날짜와 실행 시간을 입력합니다.
  8. 선택사항: 알림 옵션 섹션에서 다음을 수행합니다.

    • 이메일 알림을 사용 설정하려면 이메일 알림 전환 버튼을 클릭합니다. 이 옵션을 사용 설정하면 전송 실행이 실패할 때 전송 관리자에게 이메일 알림이 발송됩니다.
    • 이 전송에 Pub/Sub 전송 실행 알림을 사용 설정하려면 Pub/Sub 알림 전환 버튼을 클릭합니다. 주제 이름을 선택하거나 주제 만들기를 클릭하여 주제를 만들 수 있습니다.
  9. 저장을 클릭합니다.

bq

bq mk 명령어를 입력하고 전송 생성 플래그 --transfer_config를 지정합니다.

bq mk
    --transfer_config
    --project_id=PROJECT_ID
    --data_source=DATA_SOURCE
    --display_name=DISPLAY_NAME
    --target_dataset=DATASET
    --params='PARAMETERS'

각 항목의 의미는 다음과 같습니다.

  • PROJECT_ID(선택사항): Google Cloud 프로젝트 ID. 특정 프로젝트를 지정하는 --project_id가 입력되지 않으면 기본 프로젝트가 사용됩니다.
  • DATA_SOURCE: 데이터 소스 — oracle입니다.
  • DISPLAY_NAME: 전송 구성의 표시 이름입니다. 데이터 전송 이름은 나중에 수정해야 할 경우를 대비해 간편하게 전송을 식별할 수 있는 값이면 됩니다.
  • DATASET. 전송 구성의 대상 데이터 세트입니다.
  • PARAMETERS: JSON 형식으로 생성된 전송 구성의 매개변수. 예를 들면 --params='{"param":"param_value"}'입니다. 다음은 Oracle 데이터 전송을 위한 파라미터입니다.

    • connector.networkAttachment(선택사항): Oracle 데이터베이스에 연결할 네트워크 연결의 이름입니다.
    • connector.authentication.Username: Oracle 계정의 사용자 이름입니다.
    • connector.authentication.Password: Oracle 계정의 비밀번호입니다.
    • connector.database: Oracle 데이터베이스의 이름입니다.
    • connector.endpoint.host: 데이터베이스의 호스트 이름 또는 IP입니다.
    • connector.endpoint.port: Oracle 데이터베이스가 수신 연결에 사용하는 포트 번호(예: 1520)입니다.
    • connector.connectionType: 연결 URL 유형(SERVICE, SID 또는 TNS)입니다.
    • connector.tls.mode: 이 전송에 사용할 TLS 구성을 지정합니다.
      • ENCRYPT_VERIFY_CA_AND_HOST를 사용하여 데이터를 암호화하고 CA와 호스트 이름을 확인합니다.
      • ENCRYPT_VERIFY_CA를 사용하여 데이터를 암호화하고 CA만 확인
      • 데이터 암호화에만 사용되는 ENCRYPT_VERIFY_NONE
      • 암호화 또는 인증이 없는 경우 DISABLE
    • connector.tls.trustedServerCertificate: (선택사항) 하나 이상의 PEM 인코딩 인증서를 제공합니다. connector.tls.modeENCRYPT_VERIFY_CA_AND_HOST 또는 ENCRYPT_VERIFY_CA인 경우에만 필요합니다.
    • assets: DATABASE_NAME/SCHEMA_NAME/TABLE_NAME 형식을 사용하여 BigQuery로 전송할 Oracle 객체의 경로입니다.

예를 들어 다음 명령어는 필요한 모든 매개 변수를 사용하여 기본 프로젝트에서 Oracle 데이터 전송을 생성합니다.

bq mk
    --transfer_config
    --target_dataset=mydataset
    --data_source=oracle
    --display_name='My Transfer'
    --params='{"assets":["DB1/USER1/DEPARTMENT","DB1/USER1/EMPLOYEES"],
        "connector.authentication.username": "User1",
        "connector.authentication.password":"ABC12345",
        "connector.database":"DB1",
        "connector.endpoint.host":"192.168.0.1",
        "connector.endpoint.port":1520,
        "connector.connectionType":"SERVICE",
        "connector.tls.mode": "ENCRYPT_VERIFY_CA_AND_HOST",
        "connector.tls.trustedServerCertificate": "PEM-encoded certificate",
        "connector.networkAttachment":
        "projects/dev-project1/regions/us-central1/networkattachments/na1"}'

API

projects.locations.transferConfigs.create 메서드를 사용하고 TransferConfig 리소스의 인스턴스를 지정합니다.

전송 구성을 저장하면 Oracle 커넥터가 일정 옵션에 따라 전송 실행을 자동으로 트리거합니다. 전송이 실행될 때마다 Oracle 커넥터는 Oracle에서 사용 가능한 모든 데이터를 BigQuery로 전송합니다.

정기 일정 외에 데이터 전송을 수동으로 실행하려면 백필 실행을 시작하면 됩니다.

데이터 유형 매핑

다음 표는 Oracle 데이터 유형을 해당하는 BigQuery 데이터 유형에 매핑합니다.

Oracle 데이터 유형 BigQuery 데이터 유형
BFILE BYTES
BINARY_DOUBLE FLOAT
BINARY_FLOAT FLOAT
BLOB BYTES
CHAR STRING
CLOB STRING
DATE DATETIME
FLOAT FLOAT
INTERVAL DAY TO SECOND STRING
INTERVAL YEAR TO MONTH STRING
LONG STRING
LONG RAW BYTES
NCHAR STRING
NCLOB STRING
NUMBER (without precision and scale) STRING
NUMBER (with precision and scale lower than the BigQuery Numeric range) NUMERIC
NUMBER (with precision and scale lower than the BigQuery BigNumeric range) BIGNUMERIC
NUMBER (with precision and scale greater than the BigQuery BigNumeric range) STRING
NVARCHAR2 STRING
RAW BYTES
ROWID STRING
TIMESTAMP DATETIME
TIMESTAMP WITH LOCAL TIME ZONE DATETIME
TIMESTAMP WITH TIME ZONE TIMESTAMP
UROWID STRING
VARCHAR STRING
VARCHAR2 STRING

전송 설정 문제 해결

데이터 전송을 설정하는 데 문제가 있으면 Oracle 전송 문제를 참조하세요.

가격 책정

이 기능이 미리보기 상태인 동안에는 Oracle 데이터를 BigQuery로 전송하는 데 비용이 들지 않습니다.

다음 단계