Apache Iceberg REST 카탈로그 개념

이 문서에서는 리소스 계층 구조 및 지원되는 카탈로그 유형을 비롯한 BigLake metastore Apache Iceberg REST 카탈로그에 대한 개요를 제공합니다.

BigLake metastore의 Apache Iceberg REST 카탈로그는 리소스 계층 구조를 사용하여 데이터를 구성합니다. 다음 표에서는 이러한 리소스를 대략적으로 살펴봅니다.

리소스 계층 구조

리소스 설명
카탈로그 최상위 컨테이너인 카탈로그를 사용하면 네임스페이스와 테이블을 여러 카탈로그로 분할하여 논리적 그룹으로 정리할 수 있습니다.
네임스페이스 카탈로그 내에서 테이블을 구성하는 데 사용되는 논리적 그룹으로, 데이터베이스, 스키마 또는 디렉터리와 같은 기능을 합니다.
테이블에는 쿼리할 수 있는 행과 열의 정의가 포함됩니다.

지원되는 카탈로그 유형

클라이언트를 구성할 때 창고 위치를 지정합니다. 이 선택에 따라 카탈로그가 작동하고 다른 Google Cloud서비스와 통합되는 방식이 결정됩니다. 다음 표에서는 지원되는 카탈로그 유형을 설명합니다.

카탈로그 유형 설명
Cloud Storage 버킷 카탈로그의 모든 데이터는 단일 Cloud Storage 버킷에 저장됩니다. 여러 버킷에 공유된 데이터의 경우 여러 카탈로그가 필요합니다.
BigQuery 제휴 Iceberg REST 카탈로그를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다. 자세한 내용은 BigQuery를 사용한 카탈로그 페더레이션을 참고하세요.

카탈로그 창고 세부정보

권장

  • Cloud Storage 버킷 창고 (gs://): 카탈로그가 지정된 Cloud Storage 버킷에서 Iceberg 메타데이터와 데이터 파일을 직접 관리하는 표준 접근 방식입니다. 이 옵션을 사용하면 데이터 레이아웃을 직접 제어할 수 있으며 세분화된 액세스 제어를 위한 인증서 판매를 지원합니다. 이를 통해 Apache Iceberg용 BigLake 테이블을 만들고 관리할 수 있습니다.

    예를 들어 카탈로그를 저장하기 위해 버킷을 만들고 이름을 iceberg-bucket로 지정한 경우 카탈로그 이름과 버킷 이름이 모두 iceberg-bucket입니다. 이는 나중에 BigQuery에서 P.C.N.T. 구문을 사용하여 카탈로그를 쿼리할 때 사용됩니다. 예를 들면 my-project.biglake-catalog-id.quickstart_namespace.quickstart_table입니다.

기존

  • BigQuery 페더레이션 (bq://): 이 방법을 사용하면 카탈로그 리소스를 만들지 않고도 Iceberg REST 카탈로그를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다. 자세한 내용은 BigQuery를 사용한 카탈로그 페더레이션을 참고하세요.

P.C.N.T 명명 구조

BigQuery에서 BigLake metastore 테이블을 쿼리할 때는 4부분 이름 지정 구조를 사용하며, 이를 P.C.N.T라고도 합니다.

  • Project: 카탈로그를 소유하는 Google Cloud 프로젝트 ID입니다.
  • Catalog: BigLake metastore 카탈로그의 이름입니다.
  • Namespace: Iceberg 네임스페이스 (BigQuery 데이터 세트와 동일)
  • Table: 테이블의 이름입니다.

예를 들면 my-project.biglake-catalog-id.my-namespace.my-table입니다.

BigQuery를 사용한 카탈로그 제휴

Iceberg REST 카탈로그 인터페이스를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다. BigQuery 제휴 카탈로그는 카탈로그 리소스를 만들 필요가 없으며 BigQuery API가 사용 설정된 모든 프로젝트에서 사용할 수 있습니다. 그러면 다음과 같은 이점을 얻을 수 있습니다.

이러한 리소스는 BigQuery에서 관리하므로 해당 필수 권한이 있어야 합니다. 제휴 카탈로그에는 사용자 인증 정보 제공이 지원되지 않습니다.

연합을 사용 설정하려면 Iceberg REST 카탈로그 사용의 클라이언트 구성 예에 있는 WAREHOUSE_PATH 필드에서 bq://projects/PROJECT_ID 창고 형식으로 클라이언트를 구성합니다. bq://projects/PROJECT_ID/locations/LOCATION 형식을 사용하여 향후 요청을 단일 위치로 제한하기 위해 BigQuery 위치를 포함할 수도 있습니다.