BigQuery에 Microsoft SQL Server 데이터 로드

Microsoft SQL Server용 BigQuery Data Transfer Service 커넥터를 사용하여 Microsoft SQL Server에서 BigQuery로 데이터를 로드할 수 있습니다. Microsoft SQL Server 커넥터는 온프레미스 환경 및 Cloud SQL, Amazon Web Services (AWS), Microsoft Azure와 같은 기타 클라우드 제공업체에 호스팅된 Microsoft SQL Server 인스턴스에서 데이터 로드를 지원합니다. BigQuery Data Transfer Service를 사용하면 주문형 및 반복 데이터 전송 작업을 만들어 Microsoft SQL Server 인스턴스에서 BigQuery로 데이터를 전송할 수 있습니다.

제한사항

Microsoft SQL Server 데이터 전송 작업에는 다음과 같은 제한사항이 적용됩니다.

  • Microsoft SQL Server 데이터베이스에 대한 동시 연결 수는 제한되어 있습니다. 따라서 단일 Microsoft SQL Server 데이터베이스에 대한 동시 전송 실행 수도 제한됩니다. 동시 전송 작업 수가 Microsoft SQL Server 데이터베이스에서 지원하는 최대 동시 연결 수보다 적은지 확인합니다.
  • 데이터 손실을 방지하기 위해 일부 Microsoft SQL Server 데이터 유형이 BigQuery의 STRING 유형에 매핑될 수 있습니다. 예를 들어 정밀도와 스케일이 정의되지 않은 Microsoft SQL Server의 특정 숫자 유형은 BigQuery의 STRING에 매핑될 수 있습니다. 자세한 내용은 데이터 유형 매핑을 참고하세요.

데이터 수집 옵션

다음 섹션에서는 Microsoft SQL Server 데이터 전송을 설정할 때의 데이터 수집 옵션에 대해 설명합니다.

TLS 구성

Microsoft SQL Server 커넥터는 BigQuery로의 데이터 전송을 암호화하기 위한 전송 수준 보안 (TLS) 구성을 지원합니다. Microsoft SQL Server 커넥터는 다음 TLS 구성을 지원합니다.

  • 데이터 암호화 및 CA와 호스트 이름 확인: 이 모드는 TCPS 프로토콜을 통해 TLS를 사용하여 서버의 전체 유효성 검사를 실행합니다. 전송 중인 모든 데이터를 암호화하고 데이터베이스 서버의 인증서가 신뢰할 수 있는 인증 기관 (CA)에 의해 서명되었는지 확인합니다. 이 모드는 연결하려는 호스트 이름이 서버 인증서의 일반 이름 (CN) 또는 주체 대체 이름 (SAN)과 정확히 일치하는지도 확인합니다. 이 모드를 사용하면 공격자가 다른 도메인의 유효한 인증서를 사용하여 데이터베이스 서버를 사칭할 수 없습니다.
    • 호스트 이름이 인증서 CN 또는 SAN과 일치하지 않으면 연결이 실패합니다. 인증서와 일치하도록 DNS 변환을 구성하거나 다른 보안 모드를 사용해야 합니다.
    • 중간자(PITM) 공격을 방지하는 가장 안전한 옵션으로 이 모드를 사용하세요.
  • 데이터 암호화 및 CA만 확인: 이 모드는 TCPS 프로토콜을 통해 TLS를 사용하여 모든 데이터를 암호화하고 서버의 인증서가 클라이언트가 신뢰하는 CA에 의해 서명되었는지 확인합니다. 하지만 이 모드는 서버의 호스트 이름을 확인하지 않습니다. 이 모드는 인증서가 유효하고 신뢰할 수 있는 VA에서 발급된 경우 인증서의 호스트 이름이 연결하려는 호스트 이름과 일치하는지 여부와 관계없이 성공적으로 연결됩니다.
    • 인증서가 신뢰할 수 있는 CA에 의해 서명되었지만 호스트 이름을 확인할 수 없거나 호스트 이름 구성을 제어할 수 없는 서버에 연결하려는 경우 이 모드를 사용합니다.
  • 암호화만: 이 모드는 클라이언트와 서버 간에 전송되는 모든 데이터를 암호화합니다. 인증서 또는 호스트 이름 유효성 검사를 수행하지 않습니다.
    • 이 모드는 전송 중인 데이터를 보호하여 어느 정도의 보안을 제공하지만 PITM 공격에 취약할 수 있습니다.
    • 모든 데이터를 암호화해야 하지만 서버의 ID를 확인할 수 없거나 확인하고 싶지 않은 경우 이 모드를 사용합니다. 비공개 VPC를 사용할 때는 이 모드를 사용하는 것이 좋습니다.
  • 암호화 또는 확인 없음: 이 모드는 데이터를 암호화하지 않으며 인증서 또는 호스트 이름 확인을 실행하지 않습니다. 모든 데이터는 일반 텍스트로 전송됩니다.
    • 민감한 데이터를 처리하는 환경에서는 이 모드를 사용하지 않는 것이 좋습니다.
    • 이 모드는 보안이 문제가 되지 않는 격리된 네트워크에서 테스트 목적으로만 사용하는 것이 좋습니다.

신뢰할 수 있는 서버 인증서 (PEM)

데이터 암호화, CA 및 호스트 이름 확인 모드 또는 데이터 암호화, CA 확인 모드를 사용하는 경우 하나 이상의 PEM 인코딩 인증서를 제공할 수도 있습니다. 이러한 인증서는 TLS 연결 중에 BigQuery Data Transfer Service가 데이터베이스 서버의 ID를 확인해야 하는 일부 시나리오에서 필요합니다.

  • 조직 내 비공개 CA에서 서명한 인증서 또는 자체 서명 인증서를 사용하는 경우 전체 인증서 체인 또는 단일 자체 서명 인증서를 제공해야 합니다. 이는 Amazon Relational Database Service (RDS)와 같은 관리형 클라우드 제공업체 서비스의 내부 CA에서 발급한 인증서에 필요합니다.
  • 데이터베이스 서버 인증서가 공개 CA (예: Let's Encrypt, DigiCert, GlobalSign)에 의해 서명된 경우 인증서를 제공하지 않아도 됩니다. 이러한 공개 CA의 루트 인증서는 BigQuery Data Transfer Service에 사전 설치되어 있으며 신뢰할 수 있습니다.

Microsoft SQL Server 전송 구성을 만들 때 신뢰할 수 있는 PEM 인증서 필드에 PEM 인코딩 인증서를 제공할 수 있으며, 다음 요구사항을 충족해야 합니다.

  • 인증서는 유효한 PEM 인코딩 인증서 체인이어야 합니다.
  • 인증서가 완전히 올바른지 확인하세요. 체인에 인증서가 누락되거나 콘텐츠가 잘못되면 TLS 연결이 실패합니다.
  • 단일 인증서의 경우 데이터베이스 서버에서 단일 자체 서명 인증서를 제공할 수 있습니다.
  • 비공개 CA에서 발급한 전체 인증서 체인의 경우 전체 신뢰 체인을 제공해야 합니다. 여기에는 데이터베이스 서버의 인증서와 중간 및 루트 CA 인증서가 포함됩니다.

시작하기 전에

Microsoft SQL Server 데이터 전송을 예약하려면 다음 필수 요건을 충족해야 합니다.

Microsoft SQL Server 필수사항

Microsoft SQL Server 데이터베이스에 사용자 계정을 만들어야 합니다. 자세한 내용은 로그인으로 사용자 만들기를 참고하세요.

BigQuery 기본 요건

필요한 역할

Microsoft SQL Server 데이터 전송을 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 BigQuery 관리자 (roles/bigquery.admin) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 Microsoft SQL Server 데이터 전송을 만드는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

Microsoft SQL Server 데이터 전송을 만들려면 다음 권한이 필요합니다.

  • bigquery.transfers.update
  • bigquery.datasets.get

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

네트워크 구성

Microsoft SQL Server 데이터베이스 연결에 공개 IP 주소를 사용할 수 없는 경우 특정 네트워크 구성을 설정해야 합니다. 자세한 내용은 다음 섹션을 참고하세요.

Microsoft SQL Server 데이터 전송 설정

다음 옵션 중 하나를 선택합니다.

콘솔

  1. 데이터 전송 페이지로 이동합니다.

    데이터 전송으로 이동

  2. 전송 만들기를 클릭합니다.

  3. 소스 유형 섹션의 소스에서 Microsoft SQL Server를 선택합니다.

  4. 데이터 소스 세부정보 섹션에서 다음을 수행합니다.

    • 네트워크 연결의 경우 기존 네트워크 연결을 선택하거나 네트워크 연결 만들기를 클릭합니다.
    • 호스트에 Microsoft SQL Server 데이터베이스의 호스트 이름 또는 IP 주소를 입력합니다.
    • 포트 번호에 Microsoft SQL Server 데이터베이스의 포트 번호를 입력합니다.
    • 데이터베이스 이름에 Microsoft SQL Server 데이터베이스의 이름을 입력합니다.
    • 사용자 이름에 Microsoft SQL Server 데이터베이스 연결을 시작하는 Microsoft SQL Server 사용자의 사용자 이름을 입력합니다.
    • 비밀번호에 Microsoft SQL Server 데이터베이스 연결을 시작하는 Microsoft SQL Server 사용자의 비밀번호를 입력합니다.
    • TLS 모드의 경우 메뉴에서 옵션을 선택합니다. TLS 모드에 관한 자세한 내용은 TLS 구성을 참고하세요.
    • 신뢰할 수 있는 PEM 인증서에 데이터베이스 서버의 TLS 인증서를 발급한 인증 기관(CA)의 공개 인증서를 입력합니다. 자세한 내용은 신뢰할 수 있는 서버 인증서(PEM)를 참고하세요.
    • 전송할 Microsoft SQL Server 객체에서 Microsoft SQL Server 테이블을 탐색하거나 전송에 필요한 테이블의 이름을 수동으로 입력합니다.
  5. 대상 설정 섹션의 데이터 세트에서 데이터를 저장하기 위해 만든 데이터 세트를 선택하거나 새 데이터 세트 만들기를 클릭하여 대상 데이터 세트로 사용할 데이터 세트를 만듭니다.

  6. 전송 구성 이름 섹션의 표시 이름에 전송 이름을 입력합니다. 전송 이름은 나중에 수정해야 할 경우를 대비해 간편하게 전송을 식별할 수 있는 값이면 됩니다.

  7. 일정 옵션 섹션에서 다음을 수행합니다.

    • 반복 빈도를 선택합니다. 시간, (기본값), 또는 옵션을 선택하면 빈도도 지정해야 합니다. 맞춤 옵션을 선택하여 더 구체적인 반복 빈도를 만들 수도 있습니다. 주문형 옵션을 선택한 경우 수동으로 전송을 트리거하면 이 데이터 전송만 실행됩니다.
    • 해당하는 경우 지금 시작 또는 설정 시간에 시작 옵션을 선택하고 시작 날짜와 실행 시간을 입력하세요.
  8. 선택사항: 알림 옵션 섹션에서 다음을 수행합니다.

    • 이메일 알림을 사용 설정하려면 이메일 알림 전환 버튼을 사용 위치로 클릭합니다. 이 옵션을 사용 설정하면 전송 실행이 실패할 때 전송 관리자에게 이메일 알림이 발송됩니다.
    • 전송에 대한 Pub/Sub 실행 알림을 구성하려면 Pub/Sub 알림 전환 버튼을 사용 설정으로 클릭합니다. 주제 이름을 선택하거나 주제 만들기를 클릭하여 주제를 만들 수 있습니다.
  9. 선택사항: 고급 옵션 섹션에서 이 전송의 암호화 유형을 선택합니다. Google-owned and Google-managed encryption key또는 고객 소유 Cloud Key Management Service 키를 선택할 수 있습니다. 암호화 키에 대한 자세한 내용은 고객 관리 암호화 키 (CMEK)를 참고하세요.

  10. 저장을 클릭합니다.

bq

bq mk 명령어를 입력하고 전송 생성 플래그 --transfer_config를 지정합니다.

bq mk \
    --transfer_config \
    --project_id=PROJECT_ID \
    --data_source=DATA_SOURCE \
    --display_name=DISPLAY_NAME \
    --target_dataset=DATASET \
    --params='PARAMETERS'

다음을 바꿉니다.

  • PROJECT_ID(선택사항): Google Cloud 프로젝트 ID. 특정 프로젝트를 지정하는 --project_id 플래그가 입력되지 않으면 기본 프로젝트가 사용됩니다.
  • DATA_SOURCE: 데이터 소스(sqlserver)
  • DISPLAY_NAME: 데이터 전송 구성의 표시 이름. 전송 이름은 나중에 수정해야 할 경우를 대비해 간편하게 전송을 식별할 수 있는 값이면 됩니다.
  • DATASET. 데이터 전송 구성의 대상 데이터 세트
  • PARAMETERS: JSON 형식으로 생성된 전송 구성의 매개변수. 예를 들면 --params='{"param":"param_value"}'입니다. 다음은 Microsoft SQL Server 전송의 매개변수입니다.

    • connector.networkAttachment (선택사항): Microsoft SQL Server 데이터베이스에 연결할 네트워크 연결의 이름입니다.
    • connector.database: Microsoft SQL Server 데이터베이스의 이름입니다.
    • connector.endpoint.host: 데이터베이스 서버의 호스트 이름 또는 IP 주소
    • connector.endpoint.port: 데이터베이스의 포트 번호
    • connector.authentication.username: 데이터베이스 사용자의 사용자 이름
    • connector.authentication.password: 데이터베이스 사용자의 비밀번호
    • connector.tls.mode: 이 전송에 사용할 TLS 구성을 지정합니다.
      • ENCRYPT_VERIFY_CA_AND_HOST를 사용하여 데이터를 암호화하고 CA와 호스트 이름을 확인합니다.
      • ENCRYPT_VERIFY_CA를 사용하여 데이터를 암호화하고 CA만 확인
      • 데이터 암호화에만 사용되는 ENCRYPT_VERIFY_NONE
      • 암호화 또는 인증이 없는 경우 DISABLE
    • connector.tls.trustedServerCertificate: (선택사항) 하나 이상의 PEM 인코딩 인증서를 제공합니다. connector.tls.mode 값이 ENCRYPT_VERIFY_CA_AND_HOST 또는 ENCRYPT_VERIFY_CA인 경우에만 필요합니다.
    • assets: 전송의 일부로 Microsoft SQL Server 데이터베이스에서 전송할 Microsoft SQL Server 테이블 이름 목록.

예를 들어 다음 명령어는 My Transfer라는 Microsoft SQL Server 전송을 만듭니다.

bq mk \
    --transfer_config
    --target_dataset=mydataset
    --data_source=sqlserver
    --display_name='My Transfer'
    --params='{"assets":["db1/dbo/Department","db1/dbo/Employees"],
        "connector.authentication.username": "User1",
        "connector.authentication.password":"ABC12345",
        "connector.database":"DB1",
        "connector.endpoint.host":"192.168.0.1",
        "connector.endpoint.port":"1520",
        "connector.networkAttachment":"projects/dev-project1/regions/us-central1/networkattachments/na1",
        "connector.tls.mode": "ENCRYPT_VERIFY_CA_AND_HOST",
        "connector.tls.trustedServerCertificate": "PEM-encoded certificate"}'
전송 구성을 저장하면 Microsoft SQL Server 커넥터가 일정 옵션에 따라 전송 실행을 자동으로 트리거합니다. 전송이 실행될 때마다 Microsoft SQL Server 커넥터는 Microsoft SQL Server의 사용 가능한 모든 데이터를 BigQuery로 전송합니다.

정기 일정 외에 데이터 전송을 수동으로 실행하려면 백필 실행을 시작하면 됩니다.

데이터 유형 매핑

다음 표는 Microsoft SQL Server 데이터 유형을 해당하는 BigQuery 데이터 유형에 매핑합니다.

Microsoft SQL Server 데이터 유형 BigQuery 데이터 유형
tinyint INTEGER
smallint INTEGER
int INTEGER
bigint BIGNUMERIC
bit BOOLEAN
decimal BIGNUMERIC
numeric NUMERIC
money BIGNUMERIC
smallmoney BIGNUMERIC
float FLOAT
real FLOAT
date DATE
time TIME
datetime2 TIMESTAMP
datetimeoffset TIMESTAMP
datetime TIMESTAMP
smalldatetime TIMESTAMP
char STRING
varchar STRING
text STRING
nchar STRING
nvarchar STRING
ntext STRING
binary BYTES
varbinary BYTES
image BYTES
geography STRING
geometry STRING
hierarchyid BYTES
rowversion BYTES
sql_variant BYTES
uniqueidentifier STRING
xml STRING
json STRING
vector STRING

jsonvector 데이터 유형은 Azure에서만 지원됩니다.

JSON 데이터 유형은 항상 최신 상태 유지 업데이트 정책으로 구성된 Azure SQL 데이터베이스 및 Azure SQL 관리 인스턴스에서 지원됩니다. Microsoft SQL Server 2022 업데이트 정책으로 구성된 Azure SQL 관리 인스턴스에서는 JSON 데이터 유형이 지원되지 않습니다.

Microsoft SQL Server는 JSON을 JSON 유형이 아닌 NVARCHAR(MAX)로 저장합니다. 유효성 검사에는 CHECK (ISJSON(json_col) = 1)를 사용하고 쿼리에는 JSON_VALUE()를 사용하는 것이 좋습니다.

Microsoft SQL Server에는 vector 데이터 유형에 대한 벡터 지원이 없습니다. NVARCHAR(MAX)에 벡터를 JSON 배열로 저장하고 추출에는 JSON_VALUE()을 사용하며 유사성에는 수동 FLOAT 계산을 사용하는 것이 좋습니다.

문제 해결

데이터 전송 문제를 해결하려면 Microsoft SQL Server 전송 문제를 참고하세요.

가격 책정

이 기능이 미리보기 상태인 동안에는 Microsoft SQL Server 데이터를 BigQuery로 전송하는 데 비용이 들지 않습니다.

다음 단계