Apache Iceberg REST 카탈로그 엔드포인트 개념

Lakehouse 런타임 카탈로그Google Cloud Lakehouse의 중앙 집중식 메타데이터 관리를 제공합니다. 이 문서에서는 Lakehouse 런타임 카탈로그의 핵심 개념을 설명하며, Apache Iceberg REST 카탈로그 엔드포인트 엔드포인트, 리소스 계층 구조, 기타 지원되는 카탈로그 유형을 중점적으로 다룹니다.

리소스 계층 구조

Apache Iceberg REST 카탈로그 엔드포인트는 리소스 계층 구조를 사용하여 데이터를 구성합니다. 다음 표에서는 이러한 리소스를 대략적으로 살펴봅니다.

리소스 설명
카탈로그 최상위 컨테이너인 카탈로그를 사용하면 네임스페이스와 테이블을 여러 카탈로그로 분할하여 논리적 그룹으로 정리할 수 있습니다.
네임스페이스 카탈로그 내에서 테이블을 구성하는 데 사용되는 논리적 그룹으로, 데이터베이스, 스키마 또는 디렉터리와 같은 기능을 합니다.
테이블에는 쿼리할 수 있는 행과 열의 정의가 포함됩니다.

지원되는 카탈로그 유형

클라이언트를 구성할 때 창고 위치를 지정합니다. 이 선택에 따라 카탈로그가 작동하고 다른Google Cloud 서비스와 통합되는 방식이 결정됩니다. 다음 표에서는 지원되는 카탈로그 유형을 설명합니다.

카탈로그 유형 설명
Cloud Storage 버킷 카탈로그의 모든 데이터는 단일 Cloud Storage 버킷에 저장됩니다. 여러 버킷에 공유된 데이터의 경우 여러 카탈로그가 필요합니다.

창고 세부정보

권장

  • Cloud Storage 버킷 웨어하우스 (gs://): 카탈로그가 사용자가 지정한 Cloud Storage 버킷에서 Apache Iceberg 메타데이터와 데이터 파일을 직접 관리하는 표준 접근 방식입니다. 이 옵션을 사용하면 데이터 레이아웃을 직접 제어할 수 있으며 세분화된 액세스 제어를 위한 인증 정보 제공을 지원합니다. 이를 통해 Lakehouse Iceberg REST 카탈로그 테이블을 만들고 관리할 수 있습니다.

    예를 들어 카탈로그를 저장하기 위해 버킷을 만들고 이름을 iceberg-bucket로 지정한 경우 카탈로그 이름과 버킷 이름이 모두 iceberg-bucket입니다. 이는 나중에 P.C.N.T 구문을 사용하여 BigQuery에서 카탈로그를 쿼리할 때 사용됩니다. 예: my-project.lakehouse-catalog-id.quickstart_namespace.quickstart_table

다른 방법

  • BigQuery 카탈로그 페더레이션 (bq://): 이 방법을 사용하면 카탈로그 리소스를 만들지 않고도 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다. 자세한 내용은 BigQuery를 사용한 카탈로그 페더레이션을 참고하세요.

버킷 및 카탈로그 리전

레이크하우스 런타임 카탈로그의 Cloud Storage 버킷 웨어하우스의 경우 시스템에서 기본 버킷의 리전과 일치하는 카탈로그 리전을 선택합니다.

  • 단일 리전 버킷: 카탈로그 리전이 버킷 리전과 정확히 일치합니다.

  • 이중 리전 버킷: ASIA1NAM4과 같은 사전 정의된 이중 리전과 사용자 정의 이중 리전이 포함됩니다. 카탈로그 리전이 이중 리전과 일치합니다.

  • 멀티 리전 버킷: 시스템에서 멀티 리전의 지리적 도메인 내 카탈로그의 리전 위치를 선택합니다. 기본적으로 이러한 위치는 US, EU과 같은 일반적인 BigQuery 위치와 일치하지 않을 수 있습니다. 대신 지리적 도메인 내의 리전별 위치입니다 (예: US 멀티 리전 버킷의 경우 us-central1us-east4).

BigQuery가 이러한 카탈로그의 테이블에 대해 쿼리를 실행하면 BigQuery는 카탈로그의 기본 리전으로 쿼리를 라우팅합니다. 특정 가상 리전 (예: US 또는 EU)에서 쿼리를 실행했는데 해당 위치에 카탈로그 메타데이터가 없으면 쿼리가 실패할 수 있습니다.

미국 및 EU 멀티 리전의 기본 리전 지정

US 또는 EU 멀티 리전 버킷을 사용하는 카탈로그의 경우 카탈로그를 만들 때 기본 리전을 지정하여 BigQuery가 해당 리전에서 카탈로그에 액세스할 수 있도록 할 수 있습니다.

  • Cloud Storage EU 멀티 리전: EU 또는 europe-west4을 지정합니다.
  • Cloud Storage 미국 멀티 리전: US 또는 us-central1을 지정합니다.

카탈로그를 만들 때 시스템에서 카탈로그의 기본 복제본을 선택하지만 FailoverCatalog를 호출하여 동적으로 업데이트할 수 있습니다. 기본 위치 정의에 관한 자세한 내용은 Apache Iceberg REST 카탈로그 엔드포인트 사용을 참고하세요.

카탈로그 쿼리

BigQuery에서 Lakehouse 런타임 카탈로그 테이블을 쿼리할 때는 P.C.N.T라고도 하는 4부분 이름 지정 구조를 사용합니다.

  • Project: 카탈로그를 소유하는 Google Cloud 프로젝트 ID입니다.
  • Catalog: Lakehouse 런타임 카탈로그의 카탈로그 이름입니다.
  • Namespace: Apache Iceberg 네임스페이스 (BigQuery 데이터 세트와 동일)입니다.
  • Table: 테이블의 이름입니다.

예를 들면 my-project.lakehouse-catalog-id.my-namespace.my-table입니다.

BigQuery를 사용한 카탈로그 제휴

Apache Iceberg REST 카탈로그 엔드포인트 인터페이스를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다.

BigQuery 카탈로그 제휴 카탈로그는 카탈로그 리소스를 만들 필요가 없으며 BigQuery API가 사용 설정된 모든 프로젝트에서 사용할 수 있습니다. 그러면 다음과 같은 이점을 얻을 수 있습니다.

이러한 리소스는 BigQuery에서 관리하므로 해당 필수 권한이 있어야 합니다. 제휴 카탈로그에는 사용자 인증 정보 제공이 지원되지 않습니다.

연합을 사용 설정하려면 Apache Iceberg REST 카탈로그 엔드포인트 사용의 클라이언트 구성 예시에서 WAREHOUSE_PATH 필드에 bq://projects/PROJECT_ID 창고 형식을 사용하여 클라이언트를 구성합니다. bq://projects/PROJECT_ID/locations/LOCATION 형식을 사용하여 향후 요청을 단일 위치로 제한하기 위해 BigQuery 위치를 포함할 수도 있습니다.

다음 단계