Snowflake의 증분 전송 설정

이 가이드에서는 Snowflake에서 BigQuery로 증분 데이터 전송을 구성하는 방법을 보여줍니다. 증분 전송을 사용하면 마지막 전송 실행 이후 변경된 데이터만 전송할 수 있으므로 전송 시간과 비용을 줄일 수 있습니다.

제한사항

증분 Snowflake 전송에는 다음과 같은 제한사항이 적용됩니다.

  • upsert 쓰기 모드를 사용하려면 기본 키 열을 제공해야 합니다. 자세한 내용은 증분 전송을 위한 기본 키 정의를 참고하세요.
  • 기본 키는 소스 테이블에서 고유해야 합니다. 중복이 있으면 BigQuery의 병합 작업 결과가 일관되지 않고 소스 데이터와 일치하지 않을 수 있습니다.
  • 증분 전송을 사용한 스키마 변경의 자동 처리는 지원되지 않습니다. 소스 테이블의 스키마가 변경되면 BigQuery 테이블 스키마를 수동으로 업데이트해야 합니다.
  • 증분 전송은 소스 데이터의 변경사항이 소수의 파티션 내에 집중되어 있을 때 가장 효과적입니다. 업데이트가 소스 테이블에 분산되어 있으면 많은 파티션을 검색해야 하므로 증분 전송 성능이 크게 저하될 수 있습니다. 데이터 전송 사이에 변경되는 행이 많은 경우 전체 전송을 사용하는 것이 좋습니다.
  • Snowflake의 일부 작업(예: CREATE OR REPLACE TABLE 또는 CLONE)은 원본 테이블 객체와 연결된 변경사항 추적 기록을 덮어쓸 수 있습니다. 이로 인해 기존 데이터 전송이 오래되어 증분 전송을 재개하려면 새로운 전체 동기화가 필요합니다.
  • 증분 전송은 변경사항 추적을 위해 Snowflake의 데이터 보관 기간 내에 유지될 수 있을 만큼 자주 실행해야 합니다. 마지막으로 성공한 전송이 이 기간 외에 실행된 경우 다음 전송은 전체 전송이 됩니다.

증분 전송 구성

Snowflake 전송을 설정할 때 전송 구성에서 증분 쓰기 환경설정을 선택하여 증분 전송을 구성할 수 있습니다.

데이터 전송에 증분을 선택하면 증분 데이터 전송 중에 BigQuery에 데이터가 기록되는 방식을 정의하는 추가 또는 업서트 쓰기 모드로 전송할 수 있습니다. Upsert 쓰기 모드를 사용 설정하려면 맞춤 스키마 파일에서 기본 키를 정의해야 합니다. 기본 키가 정의되지 않은 경우 전송은 기본적으로 추가 쓰기 모드로 설정됩니다. 다음 섹션에서는 사용 가능한 쓰기 모드를 설명합니다.

추가 쓰기 모드

추가 쓰기 모드는 대상 테이블에 새 행만 삽입합니다. 이 옵션은 소스 테이블에 삽입된 새 행만 엄격하게 언로드하고 기존 레코드를 확인하지 않고 전송된 데이터를 추가하므로 이 모드는 대상 테이블에서 데이터 중복을 유발할 수 있습니다.

업서트 쓰기 모드

upsert 쓰기 모드를 사용하면 기본 키를 사용하여 대상 테이블의 레코드를 업데이트, 삽입 또는 삭제할 수 있습니다. 지정된 기본 키가 대상 BigQuery 테이블에 있으면 Snowflake 커넥터가 변경사항을 반영하도록 레코드를 올바르게 삽입, 업데이트 또는 삭제합니다. 기본 키가 대상 테이블에 없으면 커넥터는 소스 삽입 또는 업데이트를 위한 새 레코드를 삽입하고 이 경우 삭제는 건너뜁니다.

증분 데이터 전송과 함께 upsert 쓰기 모드를 사용하려면 맞춤 스키마 파일에 기본 키를 정의해야 합니다. 기본 키를 선택할 때 다음 사항에 유의하세요.

  • 기본 키는 커넥터가 업데이트할 레코드를 식별하는 데 필요한 테이블의 하나 이상의 열일 수 있습니다.

  • 테이블의 모든 행에서 고유한 null이 아닌 값이 포함된 열을 선택합니다. 시스템 생성 식별자, 고유 참조 코드 (예: 자동 증분 ID) 또는 불변 시간 기반 시퀀스 ID가 포함된 열을 사용하는 것이 좋습니다.

  • 데이터 손실이나 데이터 손상을 방지하려면 선택한 기본 키 열에 고유한 값이 있어야 합니다. 선택한 기본 키 열의 고유성이 의심되는 경우 추가 쓰기 모드 또는 전체 수집을 대신 사용하는 것이 좋습니다.

스키마 변경 동작

증분 전송은 스키마 변경을 지원하지 않습니다. 열 추가, 삭제, 이름 바꾸기 또는 열 데이터 유형 변경과 같은 소스 테이블 스키마를 수정하면 후속 증분 전송 실행이 실패합니다. 소스 스키마가 변경되면 전체 데이터 전송을 실행하여 데이터를 다시 동기화해야 합니다.

증분 전송을 위한 맞춤 스키마 파일

커스텀 스키마 파일을 사용하여 증분 전송의 기본 키를 정의하고 스키마 매핑을 맞춤설정할 수 있습니다. 맞춤 스키마 파일은 소스 및 타겟 스키마를 설명하는 JSON 파일입니다.

Upsert 모드에서 증분 전송을 하려면 하나 이상의 열을 기본 키로 식별해야 합니다. 이렇게 하려면 맞춤 스키마 파일에서 PRIMARY_KEY 사용 유형을 사용하여 열에 주석을 추가합니다.

다음 예시는 O_ORDERKEYO_ORDERDATEorders 테이블의 기본 키로 정의하는 맞춤 스키마 파일을 보여줍니다.


{
  "databases": [
    {
      "name": "my_db",
      "originalName": "my_db",
      "tables": [
        {
          "name": "orders",
          "originalName": "orders",
          "columns": [
            {
              "name": "O_ORDERKEY",
              "originalName": "O_ORDERKEY",
              "usageType": [
                "PRIMARY_KEY"
              ]
            },
            {
              "name": "O_ORDERDATE",
              "originalName": "O_ORDERDATE",
              "usageType": [
                "PRIMARY_KEY"
              ]
            }
          ]
        }
      ]
    }
  ]
}

변경사항 추적 사용 설정

증분 Snowflake 전송을 설정하려면 다음 명령어를 사용하여 각 소스 테이블에서 변경사항 추적을 사용 설정해야 합니다.

ALTER TABLE DATABASE_NAME.SCHEMA_NAME.TABLE_NAME SET CHANGE_TRACKING = TRUE;

테이블에 대해 변경사항 추적이 사용 설정되지 않은 경우 Snowflake 커넥터는 해당 테이블에 대해 전체 데이터 전송을 기본값으로 사용합니다.

다음 단계

증분 Snowflake 전송에 필요한 모든 단계를 구성한 후 Snowflake 전송 구성에 증분 전송을 사용 설정할 수 있습니다. 자세한 내용은 Snowflake 전송 설정을 참고하세요.