주요 개념

이 문서에서는 Google Cloud Lakehouse 의 주요 용어와 개념을 정의합니다.

이 페이지는 기능의 전체 목록이 아니라 Google Cloud Lakehouse 문서 전반에서 사용되는 용어와 개념에 대한 일반적인 참조입니다.

핵심 개념

다음 개념은 Google Cloud Lakehouse 아키텍처의 기반을 형성합니다.

데이터 Google Cloud Lakehouse

데이터 레이크하우스는 데이터 레이크의 비용 절감 및 유연성과 데이터 웨어하우스의 데이터 관리 및 성능을 결합합니다. Cloud Storage에 개방형 형식으로 데이터를 저장하고 정밀한 보안 제어 및 빠른 쿼리와 같은 BigQuery 기능을 사용할 수 있습니다.

개방형 상호 운용성

개방형 상호 운용성은 BigQuery, Apache Spark, Apache Flink와 같은 여러 분석 및 트랜잭션 시스템이 Apache Iceberg와 같은 개방형 형식의 데이터 단일 사본에서 작동할 수 있는 기능입니다. 이렇게 하면 데이터 중복이 필요하지 않으며 서로 다른 도구에서 데이터의 일관된 뷰를 보장할 수 있습니다.

레이크하우스 런타임 카탈로그

레이크하우스 런타임 카탈로그Google Cloud Lakehouse 의 단일 정보 소스 역할을 하는 중앙 집중식 서버리스 메타데이터 서비스입니다. 이를 통해 Apache Spark, Apache Flink, BigQuery와 같은 여러 엔진이 동일한 테이블을 동시에 검색하고 쿼리할 수 있습니다.

카탈로그 유형

레이크하우스 런타임 카탈로그는 메타데이터를 관리하기 위한 다양한 유형의 카탈로그를 제공합니다.

Apache Iceberg REST 카탈로그 엔드포인트

Apache Iceberg REST 카탈로그 엔드포인트를 기반으로 하는 카탈로그입니다. 오픈소스 엔진과 BigQuery 간의 상호 운용성을 제공하고 사용자 인증 정보 제공 및 재해 복구와 같은 기능을 지원합니다.

BigQuery용 커스텀 Apache Iceberg 카탈로그

관리형 Apache Iceberg 테이블의 지원 메타데이터 서비스로 BigQuery 카탈로그를 직접 사용하는 통합입니다.

테이블 형식

Google Cloud Lakehouse는 데이터를 관리하는 데 사용되는 엔진에 따라 여러 테이블 형식을 지원합니다.

레이크하우스 Iceberg REST 카탈로그 테이블

오픈소스 엔진에서 만들고 Cloud Storage에 저장하는 Apache Iceberg 테이블입니다. 레이크하우스 런타임 카탈로그는 중앙 카탈로그 역할을 합니다. 테이블을 만든 오픈소스 엔진만 테이블에 쓸 수 있습니다.

BigQuery 테이블

이러한 테이블은 BigQuery로 관리됩니다.

Apache Iceberg 테이블

BigQuery에서 만들고 Cloud Storage에 저장하는 Apache Iceberg 테이블입니다. BigQuery는 모든 데이터 레이아웃과 최적화를 처리합니다. 이러한 테이블은 여러 엔진에서 읽을 수 있지만 BigQuery는 직접 쓰기가 가능한 유일한 엔진입니다.

네이티브 테이블

이러한 테이블은 BigQuery에서 관리하며 BigQuery 스토리지에 데이터를 저장합니다. 이러한 테이블을 레이크하우스 런타임 카탈로그에 연결할 수 있습니다.

외부 테이블

외부 테이블은 레이크하우스 런타임 카탈로그 외부에 있습니다. 데이터와 메타데이터는 서드 파티 카탈로그 (예: Cloud Storage, S3, Azure Blob Storage)에서 자체 관리됩니다. BigQuery는 이러한 테이블에서만 읽을 수 있습니다.

테이블 기능

테이블 진화

Google Cloud Lakehouse는 Apache Iceberg 테이블 진화를 지원하므로 테이블 데이터를 다시 쓰거나 테이블을 다시 만들지 않고도 시간이 지남에 따라 테이블의 스키마 또는 파티션 사양을 변경할 수 있습니다.

시간 이동

시간 이동을 사용하면 특정 시점 또는 스냅샷 ID에 존재했던 테이블의 데이터를 쿼리할 수 있습니다. 이는 감사, 실험 재현 또는 실수로 삭제한 후 데이터 복원에 유용합니다.

메타데이터 캐싱

메타데이터 캐싱은 외부 테이블의 쿼리 성능을 가속화하는 기능입니다. 테이블의 메타데이터 사본을 BigQuery 스토리지에 저장하여 쿼리 실행 중에 Cloud Storage에서 메타데이터 파일을 읽을 필요성을 줄입니다.

Google Cloud Lakehouse 테이블 관리

Google Cloud Lakehouse 테이블 관리는 관리형 테이블의 압축 및 가비지 컬렉션과 같은 작업을 자동화하여 레이크하우스 유지보수를 간소화합니다. 이를 통해 최적의 쿼리 성능과 스토리지 효율성을 보장할 수 있습니다.

상호 운용성 개념

레이크하우스 런타임 카탈로그 연동

카탈로그 연동은 레이크하우스 런타임 카탈로그가 BigQuery에 표시되는 외부 카탈로그(예: AWS Glue 또는 Unity Catalog)의 테이블을 관리하고 쿼리할 수 있는 기능입니다.

P.C.N.T 명명 구조

P.C.N.T 명명 구조는 BigQuery에서 레이크하우스 런타임 카탈로그의 테이블을 고유하게 식별하고 쿼리하는 데 사용되는 4부 규칙입니다. Project.Catalog.Namespace.Table 을 나타냅니다.

  • 프로젝트: 프로젝트 ID입니다. Google Cloud
  • 카탈로그: 레이크하우스 런타임 카탈로그의 이름입니다.
  • 네임스페이스: 테이블의 논리적 그룹화입니다 (데이터 세트와 유사).
  • 테이블: 데이터 테이블의 이름입니다.

보안 개념

연결

연결은 외부 데이터에 액세스하기 위한 사용자 인증 정보를 저장하는 BigQuery 리소스입니다. Google Cloud Lakehouse에서 연결은 연결의 서비스 계정이 사용자를 대신하여 스토리지 버킷에 액세스하도록 허용하여 Cloud Storage에 대한 액세스 권한을 위임합니다.

사용자 인증 정보 제공

사용자 인증 정보 제공은 레이크하우스 런타임 카탈로그를 사용할 때 액세스 제어를 강화하는 데 도움이 되는 보안 메커니즘입니다. 사용 설정하면 서비스는 쿼리에 필요한 특정 파일 경로에만 액세스 권한을 부여하도록 설계된 수명이 짧은 범위가 축소된 사용자 인증 정보를 생성합니다.

통합 거버넌스

통합 거버넌스를 사용하면 Knowledge Catalog와의 통합을 통해 보안 및 데이터 관리 정책을 중앙에서 정의하고 적용할 수 있습니다. Knowledge Catalog

안정성 개념

리전 간 복제

리전 간 복제는 여러 리전에 메타데이터를 복제하여 리전 중단 시 카탈로그 가용성을 보장합니다.

장애 조치

장애 조치는 리전 중단 중에 기본 리전과 보조 리전 간에 전환하여 카탈로그 작업을 유지하는 프로세스입니다.