이 문서에서는 BigLake의 주요 용어와 개념을 정의합니다.
이 페이지는 기능의 전체 목록이 아니라 BigLake 문서 전체에서 사용되는 용어와 개념의 일반적인 참조입니다.
핵심 개념
다음 개념은 BigLake 아키텍처의 기반을 형성합니다.
데이터 레이크하우스
데이터 레이크하우스는 데이터 레이크의 비용 효율성과 유연성을 데이터 웨어하우스의 데이터 관리 및 성능 구조와 결합한 데이터 아키텍처입니다. BigLake를 사용하면 Cloud Storage에 개방형 형식으로 데이터를 유지하면서 세분화된 보안 및 고성능 쿼리와 같은 BigQuery 기능을 사용할 수 있으므로 레이크하우스 아키텍처를 사용할 수 있습니다.
개방형 상호 운용성
개방형 상호 운용성은 BigQuery, Spark, Flink와 같은 여러 분석 및 트랜잭션 시스템이 Apache Iceberg와 같은 개방형 형식의 단일 데이터 사본에서 작동할 수 있는 기능입니다. 이렇게 하면 데이터 중복이 필요하지 않으며 다양한 도구에서 일관된 데이터 뷰를 보장할 수 있습니다.
BigLake Metastore가
BigLake metastore는 레이크하우스의 단일 정보 소스 역할을 하는 중앙 집중식 서버리스 메타데이터 서비스입니다. 이를 통해 Spark, Flink, BigQuery와 같은 여러 엔진이 동일한 테이블을 동시에 검색하고 쿼리할 수 있습니다.
카탈로그 유형
BigLake metastore는 메타데이터를 관리하기 위한 두 가지 유형의 카탈로그를 제공합니다. 카탈로그 선택은 데이터와 상호작용하는 방식에 영향을 미치는 기본적인 결정입니다.
Iceberg REST 카탈로그
Apache Iceberg REST 카탈로그 사양을 기반으로 하는 카탈로그입니다. 오픈소스 엔진과 BigQuery 간의 상호 운용성을 제공하고 사용자 인증 정보 판매 및 재해 복구와 같은 기능을 지원합니다.
BigQuery용 맞춤 Iceberg 카탈로그
BigQuery를 지원 메타스토어로 직접 사용하는 통합입니다.
표 형식
BigLake는 데이터를 관리하는 데 사용되는 엔진에 따라 여러 테이블 형식을 지원합니다.
BigQuery의 BigLake Iceberg 테이블
BigQuery에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigQuery는 모든 데이터 레이아웃과 최적화를 처리합니다. 이러한 테이블은 여러 엔진에서 읽을 수 있지만 BigQuery는 직접 쓸 수 있는 유일한 엔진입니다.
BigLake Iceberg 테이블
오픈소스 엔진에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigLake metastore는 중앙 카탈로그 역할을 합니다. 테이블을 만든 오픈소스 엔진만 테이블에 쓸 수 있습니다.
표준 BigQuery 테이블
이러한 테이블은 BigQuery에서 관리하며 BigQuery 스토리지에 데이터를 저장합니다. 이러한 테이블을 BigLake Metastore에 연결할 수 있습니다.
외부 테이블
외부 테이블은 BigLake metastore 외부에 있습니다. 데이터와 메타데이터는 서드 파티 카탈로그에서 자체 관리됩니다. BigQuery는 이러한 테이블에서만 읽을 수 있습니다.
표 기능
BigLake는 데이터 관리를 간소화하고 Iceberg 테이블의 쿼리 성능을 개선하는 여러 기능을 제공합니다.
표 진화
BigLake는 Iceberg 테이블 변경을 지원하므로 테이블 데이터를 다시 작성하거나 테이블을 다시 만들지 않고도 시간이 지남에 따라 테이블의 스키마나 파티션 사양을 변경할 수 있습니다.
시간 이동
시간 이동을 사용하면 특정 시점 또는 스냅샷 ID에 존재했던 테이블의 데이터를 쿼리할 수 있습니다. 이는 감사, 실험 재현 또는 실수로 삭제한 후 데이터 복원에 유용합니다.
메타데이터 캐싱
메타데이터 캐싱은 BigLake 외부 테이블의 쿼리 성능을 가속화하는 기능입니다. 테이블 메타데이터의 사본을 BigQuery 스토리지에 저장하여 쿼리 실행 중에 Cloud Storage에서 메타데이터 파일을 읽을 필요성을 줄입니다.
자동 표 유지관리
자동 테이블 유지 관리는 관리 테이블의 압축 및 가비지 수집과 같은 작업을 자동화하여 레이크하우스 관리를 간소화합니다. 이렇게 하면 수동 개입 없이 최적의 쿼리 성능과 스토리지 효율성이 보장됩니다.
상호 운용성 개념
상호 운용성은 Google Cloud 및 오픈소스 시스템 전반에서 데이터 액세스를 제공합니다.
카탈로그 페더레이션
카탈로그 페더레이션은 맞춤 Iceberg 카탈로그로 생성된 테이블을 비롯해 BigQuery에 표시되는 테이블을 관리하고 쿼리할 수 있는 Iceberg REST 카탈로그의 기능입니다.
P.C.N.T 명명 구조
P.C.N.T 이름 지정 구조는 BigQuery에서 BigLake metastore의 테이블을 고유하게 식별하고 쿼리하는 데 사용되는 4부분 규칙입니다. Project.Catalog.Namespace.Table을 나타냅니다.
- 프로젝트: Google Cloud 프로젝트 ID
- 카탈로그: BigLake Metastore 카탈로그의 이름
- 네임스페이스: 테이블의 논리적 그룹화 (데이터 세트와 유사)
- 표: 데이터 표의 이름
보안 개념
보안 기능은 액세스 관리 및 데이터 보호를 위한 메커니즘을 제공합니다.
연결
연결은 외부 데이터에 액세스하기 위한 사용자 인증 정보를 저장하는 BigQuery 리소스입니다. BigLake에서 연결은 연결의 서비스 계정이 사용자를 대신하여 스토리지 버킷에 액세스하도록 허용하여 Cloud Storage에 대한 액세스 권한을 위임합니다.
사용자 인증 정보 벤더 제공
인증 정보 판매는 Iceberg REST 카탈로그를 사용할 때 액세스 제어를 강화하는 데 도움이 되는 보안 메커니즘입니다. 사용 설정하면 BigLake는 Compute Engine에 일반 버킷 액세스 권한을 전달하는 대신 쿼리에 필요한 특정 파일 경로에만 액세스 권한을 부여하도록 설계된 단기 범위 축소 사용자 인증 정보를 생성합니다. 이를 통해 사용자가 테이블 수준 보안 정책을 우회하여 원시 파일을 직접 읽는 것을 방지할 수 있습니다.
통합 거버넌스
통합 거버넌스를 사용하면 Dataplex 범용 카탈로그와의 통합을 통해 보안 및 데이터 관리 정책을 중앙에서 정의하고 적용할 수 있습니다.
안정성 개념
안정성 기능은 데이터 복원력과 카탈로그 가용성을 제공합니다.
리전 간 복제
리전 간 복제는 리전 서비스 중단 시 카탈로그 가용성을 보장하기 위해 여러 리전에 메타데이터를 복제합니다.
장애 조치
장애 조치는 카탈로그 작업을 유지하기 위해 리전 중단 중에 기본 리전과 보조 리전 간에 전환하는 프로세스입니다.