2026년 4월 20일부터 BigLake의 이름이 Lakehouse for Apache Iceberg로 변경되었습니다. BigLake metastore의 이름이 Lakehouse 런타임 카탈로그로 변경되었습니다. Lakehouse API, 클라이언트 라이브러리, CLI 명령어, IAM 이름은 변경되지 않으며 여전히 BigLake를 참조합니다.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Apache Iceberg REST 카탈로그 엔드포인트 개념

Lakehouse for Apache Iceberg는 Lakehouse 런타임 카탈로그를 통해 메타데이터를 관리합니다. Apache Iceberg REST 카탈로그 엔드포인트를 사용하면 시스템에서 데이터를 엄격한 리소스 계층 구조로 구성합니다. 카탈로그 구성은 지원되는 스토리지 유형, 리전 라우팅 동작, 쿼리 페더레이션 옵션을 결정합니다.

기능 및 규정 준수

Lakehouse 런타임 카탈로그는 표준 테이블 형식을 지원하고 개방형 API를 준수하여 Iceberg 규격 쿼리 엔진과 통합되도록 빌드됩니다.

지원되는 테이블 형식

Apache Iceberg V2 테이블 (정식 버전) 및 V3 테이블 (프리뷰)이 지원됩니다. Iceberg V1 테이블은 지원되지 않습니다. Apache Iceberg REST 카탈로그 엔드포인트에서 기존 V1 테이블을 사용하려면 지원되는 버전으로 업그레이드해야 합니다. 자세한 내용은 Iceberg V1 테이블을 V2로 업그레이드를 참조하세요.

API 규정 준수 및 REST 작업

Lakehouse 런타임 카탈로그는 개방형 표준 Apache Iceberg REST 카탈로그 API를 구현합니다. 클라이언트 쿼리 엔진은 표준 REST 카탈로그 API를 사용하여 카탈로그와 상호작용합니다. 자세한 내용은 Lakehouse에서 Apache Iceberg REST 카탈로그 API를 구현하는 방법을 참조하세요.

리소스 계층 구조

Apache Iceberg REST 카탈로그 엔드포인트는 리소스 계층 구조를 사용하여 데이터를 구성합니다. 다음 표에서는 이러한 리소스를 대략적으로 보여줍니다.

리소스	설명
카탈로그	최상위 컨테이너인 카탈로그를 사용하면 네임스페이스 와 테이블을 여러 카탈로그로 분할하여 논리적 그룹으로 구성할 수 있습니다. 각 카탈로그는 기본 메타데이터와 데이터 파일을 저장하는 지정된 웨어하우스 스토리지 위치 (예: Cloud Storage 버킷 또는 BigQuery 페더레이션 프록시)를 기반으로 합니다.
네임스페이스	카탈로그 내에서 테이블을 구성하는 데 사용되는 논리적 그룹화로, 이 는 데이터베이스, 스키마 또는 디렉터리와 같은 방식으로 작동합니다.
표	테이블에는 쿼리할 수 있는 행과 열의 정의가 포함되어 있습니다.

카탈로그 및 스토리지 위치

카탈로그 구성은 카탈로그가 Google Cloud 서비스와 작동하고 통합되는 방식을 결정합니다. 여러 버킷 (bl://) 카탈로그(권장) 또는 단일 버킷 (gs://) 카탈로그를 구성할 수 있습니다.

두 옵션 모두 세분화된 액세스 제어를 위한 사용자 인증 정보 제공을 지원합니다.

여러 버킷 (`bl://`) 카탈로그 (권장)

이 접근 방식을 사용하면 버킷 이름과 독립적으로 카탈로그 이름을 지정하고 단일 카탈로그에 여러 버킷을 구성할 수 있습니다. 기본 API에서, 이는 CATALOG_TYPE_BIGLAKE 구성에 해당합니다.

고려사항:

기본 위치: 버킷 (default_location) 또는 하위 경로 (예: gs://my-bucket/path)의 경로를 제공하여 기본 스토리지 위치로 사용합니다. 모든 카탈로그 리소스 (네임스페이스 및 테이블)는 지정된 경로 아래에 있어야 합니다. 예를 들어 gs://my-bucket/path를 지정하는 경우 gs://my-bucket/another/path 아래에 네임스페이스 또는 테이블을 호스팅할 수 없습니다. 지정된 위치 없이 생성된 네임스페이스의 경우 default_location이 사용됩니다.
제한된 위치: 네임스페이스와 테이블을 만들 수 있는 추가 버킷 또는 경로에 선택적 restricted_locations 구성을 제공할 수도 있습니다. 하위 경로 (예: gs://my-bucket/path)를 지정하는 경우 해당 구성을 사용하여 생성된 모든 리소스는 해당 경로 아래에 있어야 합니다 (예: gs://my-bucket/another/path는 네임스페이스 또는 테이블을 호스팅할 수 없음).
지리적 리전 그룹 요구사항: 버킷은 교차 프로젝트, 교차 리전일 수 있으며 단일 리전, 이중 리전 또는 멀티 리전과 같은 다양한 구성을 가질 수 있지만 기본 위치와 제한된 위치의 모든 Cloud Storage 위치는 동일한 지리적 리전 그룹(예: 미국, 유럽, 캐나다 또는 아시아)에 있어야 합니다. 예를 들어 유럽 또는 캐나다의 버킷으로 미국 멀티 리전 버킷을 구성할 수 없습니다.
버킷당 여러 카탈로그: 여러 카탈로그가 동일한 버킷을 가리키도록 할 수 있습니다 (예: 다른 기본 위치 또는 제한된 위치 사용). 하지만 이 구성은 메타데이터 충돌, 우발적인 데이터 덮어쓰기 또는 권한 유출과 같은 보안 문제를 일으킬 수 있으므로 권장되지 않습니다.
네임스페이스: 기본 또는 제한된 위치에 구성된 경로 아래에 있는 경우 커스텀 네임스페이스 위치를 지정할 수 있습니다. 이러한 카탈로그에서 생성된 테이블에는 충돌을 방지하기 위해 물리적 경로에 임의의 문자열 접미사가 자동으로 추가됩니다 (예: gs://{bucket_name}/{namespace_name}/{table_name}/{random_suffix}). 자세한 내용은 테이블 관리 및 보안 규칙을 참조하세요.

단일 버킷 (`gs://`) 카탈로그

이는 카탈로그가 지정한 단일 Cloud Storage 버킷에서 Apache Iceberg 메타데이터와 데이터 파일을 직접 관리하는 기존 접근 방식입니다. 기본 API에서 이는 CATALOG_TYPE_GCS_BUCKET 구성에 해당합니다.

단일 버킷 카탈로그의 경우 카탈로그 이름이 버킷 이름으로 설정됩니다.

예를 들어 카탈로그를 저장하기 위해 버킷을 만들고 이름을 iceberg-bucket으로 지정한 경우 카탈로그 이름과 버킷 이름은 모두 iceberg-bucket입니다. 이는 나중에 BigQuery에서 P.C.N.T 문법을 사용하여 카탈로그를 쿼리할 때 사용됩니다. 예를 들어 my-project.lakehouse-catalog-id.quickstart_namespace.quickstart_table입니다.

고려사항:

기존 카탈로그 유형 제한사항. 새 프로젝트에는 기존 단일 버킷 구성을 사용하는 것이 권장되지 않습니다. 이 구성에는 다음과 같은 몇 가지 중요한 제한사항이 있습니다.
- 카탈로그 이름: 기본 Cloud Storage 버킷 이름으로 잠깁니다.
- 프로젝트: 버킷의 프로젝트로 잠깁니다 (교차 프로젝트 카탈로그는 지원되지 않음).
- 리전: 버킷의 위치에서 엄격하게 파생되며 맞춤설정할 수 없습니다.
- 저장소: 카탈로그를 단일 버킷으로 제한합니다 (제한된 위치 없음).
버킷당 하나의 카탈로그 제한: 이 기존 카탈로그 유형의 경우 버킷당 하나의 카탈로그만 있을 수 있으며 카탈로그 이름은 버킷 이름과 일치해야 합니다.
여러 버킷 (bl://) 카탈로그로 업그레이드 (권장): 기존 단일 버킷 (gs://) 카탈로그를 여러 버킷 (bl://) 카탈로그 (권장)로 업그레이드할 수 있습니다. 업그레이드된 카탈로그는 원래 버킷의 이름을 유지합니다. 그런 다음 여러 버킷을 카탈로그와 연결하고 제한된 위치를 구성할 수 있습니다.

버킷 및 카탈로그 리전

Lakehouse 런타임 카탈로그의 카탈로그 엔드포인트 리전은 기본 Cloud Storage 버킷의 리전에 따라 결정됩니다.

여러 버킷 (bl://) 카탈로그(권장): 카탈로그 리전은 default_location에 구성된 버킷에서 파생됩니다.
단일 버킷 (gs://): 카탈로그 리전은 카탈로그와 연결된 버킷에서 엄격하게 파생되며 맞춤설정할 수 없습니다.

매핑된 카탈로그 리전은 버킷의 리전 유형에 따라 다릅니다.

단일 리전: 카탈로그 리전이 버킷의 리전과 정확히 일치합니다.
이중 리전: 카탈로그 리전이 버킷의 이중 리전 (예: ASIA1 또는 NAM4)과 일치합니다.
멀티 리전: 카탈로그 리전은 멀티 리전의 지리적 도메인 내에 있는 특정 리전 위치로 설정됩니다. 기본적으로 이는 US 및 EU와 같은 일반적인 BigQuery 멀티 리전과 일치하지 않을 수 있습니다(예: US 멀티 리전 버킷은 us-central1 또는 us-east4에 매핑됨).

BigQuery는 이러한 카탈로그의 테이블에 대해 쿼리를 실행할 때 쿼리를 카탈로그의 기본 리전으로 라우팅합니다. 특정 가상 리전 (예: US 또는 EU)의 테이블을 쿼리하고 해당 위치에 카탈로그 메타데이터가 없는 경우 쿼리가 실패합니다.

멀티 리전의 기본 리전

BigQuery에서 US 또는 EU 멀티 리전의 카탈로그 테이블을 쿼리할 수 있도록 하려면 카탈로그를 만들 때 US 또는 EU를 기본 리전으로 지정합니다.

다음 구성에서 멀티 리전 (US 또는 EU)을 기본 리전으로 지정할 수 있습니다.

default_location 버킷이 다음과 같은 경우:

US 또는 EU 멀티 리전 버킷.
이러한 멀티 리전 내의 단일 리전 버킷 (예: us-central1 또는 europe-west4).
이러한 영역 내의 이중 리전 또는 커스텀 이중 리전 버킷 (예: NAM4 또는 EUR4).

기본 복제본은 카탈로그를 만들 때 정의되지만 FailoverCatalog를 호출하여 장애 조치를 동적으로 실행할 수 있습니다. 자세한 내용은 카탈로그 만들기를 참조하세요.

BigQuery에서 카탈로그 쿼리

BigQuery에서 Lakehouse 런타임 카탈로그 테이블을 쿼리할 때는 P.C.N.T라고 하는 4부 이름 지정 구조를 사용합니다.

P로젝트: 카탈로그를 소유한 프로젝트 ID입니다. Google Cloud
Catalog: Lakehouse 런타임 카탈로그의 이름입니다.
Namespace: Apache Iceberg 네임스페이스 (BigQuery 데이터 세트와 동일함)입니다.
Table: 테이블의 이름입니다.

예를 들어 my-project.lakehouse-catalog-id.my-namespace.my-table입니다.

다음 단계

Apache Iceberg REST 카탈로그 엔드포인트 설정

Apache Iceberg REST 카탈로그 엔드포인트 개념 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.