레이크하우스 런타임 카탈로그는 Google Cloud 레이크하우스에 대한 중앙 집중식 메타데이터 관리를 제공합니다. 이 문서에서는 Apache Iceberg REST 카탈로그 엔드포인트 엔드포인트, 리소스 계층 구조, 지원되는 기타 카탈로그 유형을 중점적으로 다루면서 레이크하우스 런타임 카탈로그의 핵심 개념을 설명합니다.
리소스 계층 구조
Apache Iceberg REST 카탈로그 엔드포인트는 리소스 계층 구조를 사용하여 데이터를 구성합니다. 다음 표에서는 이러한 리소스를 간략하게 보여줍니다.
| 리소스 | 설명 |
|---|---|
| 카탈로그 | 최상위 컨테이너인 카탈로그를 사용하면 네임스페이스와 테이블을 여러 카탈로그로 분할하여 논리적 그룹으로 구성할 수 있습니다. |
| 네임스페이스 | 카탈로그 내에서 테이블을 구성하는 데 사용되는 논리적 그룹화로, 이 는 데이터베이스, 스키마 또는 디렉터리와 같은 기능을 합니다. |
| 표 | 테이블에는 쿼리할 수 있는 행과 열의 정의가 포함되어 있습니다. |
지원되는 카탈로그 유형
클라이언트를 구성할 때 웨어하우스 위치를 지정합니다. 이 선택에 따라 카탈로그가 작동하고 다른 Google Cloud 서비스와 통합되는 방식이 결정됩니다. 다음 표에서는 지원되는 카탈로그 유형을 설명합니다.
| 카탈로그 유형 | 설명 |
|---|---|
| Cloud Storage 버킷 | 카탈로그의 모든 데이터는 단일 Cloud Storage 버킷에 저장됩니다. 여러 버킷에서 공유되는 데이터의 경우 여러 카탈로그가 필요합니다. |
| BigQuery 카탈로그 제휴 | Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 BigQuery에 표시되는 테이블을 관리 하고 쿼리할 수 있습니다. 자세한 내용은 BigQuery를 사용한 카탈로그 제휴를 참조하세요. |
웨어하우스 세부정보
권장
Cloud Storage 버킷 웨어하우스 (
gs://): 카탈로그가 지정한 Cloud Storage 버킷에서 Apache Iceberg 메타데이터 및 데이터 파일을 직접 관리하는 표준 접근 방식입니다. 이 옵션을 사용하면 데이터 레이아웃을 직접 제어하고 세분화된 액세스 제어를 위한 사용자 인증 정보 제공 을 지원할 수 있습니다. 이를 통해 레이크하우스 Iceberg REST 카탈로그 테이블을 만들고 관리할 수 있습니다.예를 들어 카탈로그를 저장하기 위해 버킷을 만들고 이름을
iceberg-bucket으로 지정한 경우 카탈로그 이름과 버킷 이름이 모두iceberg-bucket입니다. 이는 나중에 P.C.N.T 문법을 사용하여 BigQuery에서 카탈로그를 쿼리할 때 사용됩니다. 예를 들면my-project.lakehouse-catalog-id.quickstart_namespace.quickstart_table입니다.
다른 방법
- BigQuery 카탈로그 제휴 (
bq://): 이 접근 방식을 사용하면 카탈로그 리소스를 만들지 않고도 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다. 자세한 내용은 BigQuery를 사용한 카탈로그 제휴를 참조하세요.
버킷 및 카탈로그 리전
레이크하우스 런타임 카탈로그의 Cloud Storage 버킷 웨어하우스의 경우 시스템은 기본 버킷의 리전과 일치하도록 카탈로그 리전을 선택합니다.
단일 리전 버킷: 카탈로그 리전이 버킷 리전과 정확히 일치합니다.
이중 리전 버킷: 사전 정의된 이중 리전과 사용자 정의 이중 리전을 포함합니다. 예:
ASIA1및NAM4. 카탈로그 리전이 이중 리전과 일치합니다.멀티 리전 버킷: 시스템은 멀티 리전의 지리적 도메인 내에서 카탈로그의 리전별 위치를 선택합니다. 기본적으로 이러한 위치는
US및EU와 같은 일반적인 BigQuery 위치와 일치하지 않을 수 있습니다. 대신 지리적 도메인 내의 리전별 위치입니다 (예:US멀티 리전 버킷의 경우us-central1및us-east4).
BigQuery는 이러한 카탈로그의 테이블에 대해 쿼리를 실행할 때 카탈로그의 기본 리전에 있는 리전으로 쿼리를 라우팅합니다. 특정 가상 리전 (US 또는 EU와 같은)에서 쿼리를 실행하고 해당 위치에 카탈로그 메타데이터가 없는 경우 쿼리가 실패할 수 있습니다.
미국 및 EU 멀티 리전의 기본 리전 지정
US 또는 EU 멀티 리전 버킷을 사용하는 카탈로그의 경우 카탈로그를 만들 때 기본 리전을 지정하여 BigQuery가 해당 리전에서 카탈로그에 액세스할 수 있도록 할 수 있습니다.
- Cloud Storage EU 멀티 리전:
EU또는europe-west4를 지정합니다. - Cloud Storage 미국 멀티 리전:
US또는us-central1을 지정합니다.
시스템은 카탈로그를 만들 때 카탈로그의 기본 복제본을 선택하지만 FailoverCatalog를 호출하여 동적으로 업데이트할 수 있습니다. 기본 위치 정의에 대한 자세한 내용은 Apache Iceberg REST 카탈로그 엔드포인트 사용을 참조하세요.
카탈로그 쿼리
BigQuery에서 레이크하우스 런타임 카탈로그 테이블을 쿼리할 때는 P.C.N.T라고 하는 4부로 구성된 이름 지정 구조를 사용합니다.
- P로젝트: 카탈로그를 소유한 프로젝트 ID입니다. Google Cloud
- C 아탈로그: 레이크하우스 런타임 카탈로그 카탈로그의 이름입니다.
- N임스페이스: Apache Iceberg 네임스페이스 (BigQuery 데이터 세트와 동일)
- T 에이블: 테이블의 이름입니다.
예를 들면 my-project.lakehouse-catalog-id.my-namespace.my-table입니다.
BigQuery를 사용한 카탈로그 제휴
Apache Iceberg REST 카탈로그 엔드포인트 인터페이스를 사용하여 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있습니다.
BigQuery 카탈로그 제휴 카탈로그는 카탈로그 리소스를 만들 필요가 없으며 BigQuery API가 사용 설정된 모든 프로젝트에서 사용할 수 있습니다. 그러면 다음과 같은 이점을 얻을 수 있습니다.
- BigQuery에서 외부 Apache Iceberg 테이블 을 만들고 관리합니다.
- 레이크하우스 Iceberg REST 카탈로그 테이블을 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 쿼리합니다.
이러한 리소스는 BigQuery에서 관리하므로 해당 필수 권한 이 있어야 합니다. 제휴 카탈로그에는 사용자 인증 정보 제공이 지원되지 않습니다.
제휴를 사용 설정하려면 Apache Iceberg REST 카탈로그 엔드포인트 사용의 클라이언트 구성 예시에서
WAREHOUSE_PATH 필드의
bq://projects/PROJECT_ID 웨어하우스 형식으로 클라이언트를 구성합니다.
`bq://projects/PROJECT_ID/locations/LOCATION` 형식을 사용하여 BigQuery 위치를 포함하여 향후 요청을 단일 위치로 제한할 수도 있습니다.bq://projects/PROJECT_ID/locations/LOCATION