Lakehouse for Apache Iceberg란 무엇인가요?

Lakehouse for Apache Iceberg는 개방형 데이터 레이크하우스를 빌드하기 위해 설계된 고성능 스토리지 엔진입니다. Apache Iceberg 개방형 테이블 형식을Google Cloud의 완전 관리형 엔터프라이즈급 스토리지와 통합하여 고급 분석 및 AI를 위한 통합 인터페이스를 제공합니다.

Google Cloud의 Lakehouse는 스토리지를 컴퓨팅에서 분리하여 분석 시스템과 트랜잭션 시스템 간의 원활한 상호 운용성을 보장합니다. 이 아키텍처를 사용하면 Apache Spark, Apache Flink, Apache Hive, Trino, BigQuery를 비롯한 여러 엔진이 단일 정보 소스에 액세스할 수 있으므로 데이터 중복이 제거되고 일관된 통계가 보장됩니다.

주요 이점

  • 서버리스 아키텍처: Google Cloud의 Lakehouse는 서버 또는 클러스터 관리가 필요하지 않으므로 운영 오버헤드를 줄이고 수요에 따라 자동으로 확장됩니다.
  • 통합 데이터 관리 및 거버넌스: Knowledge Catalog와의 통합을 통해 여러 엔진에 걸쳐 거버넌스 정책을 중앙에서 정의하고 적용할 수 있으며, 시맨틱 검색, 데이터 계보, 품질 검사를 지원합니다.
  • 스토리지 확장 프로그램: Google Cloud의 Lakehouse는 Cloud Storage 관리 기능을 확장하여 자동 클래스 계층화 및 고객 관리 암호화 키 (CMEK)와 같은 기능을 포함합니다.
  • 완전 관리형 환경: BigQuery와 통합된 경우 Google Cloud의 레이크하우스는 높은 처리량의 스트리밍과 실시간 메타데이터 관리를 사용하여 완전 관리형 스트리밍, 분석, AI 환경을 제공합니다.
  • 고가용성 및 재해 복구: Google Cloud의 레이크하우스는 데이터의 고가용성을 지원하기 위해 교차 리전 복제 및 재해 복구(미리보기) 옵션을 제공합니다.

사용 사례

  • 개방형 레이크하우스: Cloud Storage를 스토리지 레이어로 사용하고 Google Cloud의 레이크하우스는 Apache Iceberg 데이터의 관리 및 거버넌스 인터페이스를 제공합니다.
  • 분석 및 트랜잭션 통합: PostgreSQL용 AlloyDB(미리보기) 내에서 분석 Apache Iceberg 테이블에 직접 액세스하여 분석 데이터를 트랜잭션 워크로드와 결합합니다.
  • 통합 액세스: 다양한 엔진 (Apache Spark, Apache Flink, BigQuery)이 일관된 메타데이터를 사용하여 동일한 Apache Iceberg 테이블과 상호작용할 수 있습니다.
  • 교차 클라우드 분석 및 AI: 교차 클라우드 레이크하우스(미리보기)를 사용하여 데이터 이전 없이 Google Cloud 에서 바로 다른 클라우드 제공업체의 데이터를 쿼리합니다.
  • 공개 데이터 세트 탐색: 인프라를 관리하지 않고 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 고품질 공개 데이터 세트를 쉽게 쿼리할 수 있습니다.

카탈로그 인터페이스

레이크하우스 런타임 카탈로그는 Cloud Storage와 BigQuery 전반에서 데이터를 연결하는 여러 인터페이스 (엔드포인트)를 제공하는 단일 메타데이터 서비스입니다.

  • Apache Iceberg REST 카탈로그 엔드포인트: Apache Spark, Apache Flink, Trino와 같은 오픈소스 엔진과의 광범위한 호환성을 위해 표준 REST 인터페이스를 제공합니다. 새 워크로드에 권장되는 인터페이스이며 완전한 읽기/쓰기 상호 운용성을 제공합니다.

  • BigQuery 엔드포인트용 맞춤 Apache Iceberg 카탈로그: 엔진이 BigQuery 카탈로그와 직접 상호 운용할 수 있습니다. 이 인터페이스는 주로 BigQuery 관리형 Apache Iceberg 테이블과 Google Cloud의 레이크하우스 아키텍처로 전환하는 기존 워크로드에 사용됩니다.

인터페이스 및 도구

다음 도구를 사용하여 Google Cloud의 레이크하우스 리소스와 상호작용할 수 있습니다.

  • Google Cloud 콘솔: 콘솔을 사용하여 카탈로그를 만들고, 카탈로그 속성을 보고, 감사 로그를 보고, 권한을 구성합니다.
  • BigQuery SQL: 표준 SQL DDL (데이터 정의 언어)을 사용하여 Lakehouse 런타임 카탈로그와 통합된 Apache Iceberg 테이블과 외부 테이블을 만들고 관리합니다.
  • 오픈소스 엔진: 레이크하우스 런타임 카탈로그와 함께 Apache Spark, Apache Flink, Apache Hive와 같은 엔진을 사용하여 데이터를 읽고 씁니다.
  • 레이크하우스 런타임 카탈로그 API: Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 개방형 Apache Iceberg REST 사양과 호환되는 도구를 사용하여 서비스와 상호작용합니다.

다음 단계