Lakehouse for Apache Iceberg는 개방형 데이터 레이크하우스를 빌드하기 위해 설계된 고성능 스토리지 엔진입니다. Apache Iceberg 개방형 테이블 형식을Google Cloud의 완전 관리형 엔터프라이즈급 스토리지와 통합하여 고급 분석 및 AI를 위한 통합 인터페이스를 제공합니다.
Google Cloud의 Lakehouse는 스토리지를 컴퓨팅에서 분리하여 분석 시스템과 트랜잭션 시스템 간의 원활한 상호 운용성을 보장합니다. 이 아키텍처를 사용하면 Apache Spark, Apache Flink, Apache Hive, Trino, BigQuery를 비롯한 여러 엔진이 단일 정보 소스에 액세스할 수 있으므로 데이터 중복이 제거되고 일관된 통계가 보장됩니다.
주요 이점
- 서버리스 아키텍처: Google Cloud의 Lakehouse는 서버 또는 클러스터 관리가 필요하지 않으므로 운영 오버헤드를 줄이고 수요에 따라 자동으로 확장됩니다.
- 통합 데이터 관리 및 거버넌스: Knowledge Catalog와의 통합을 통해 여러 엔진에 걸쳐 거버넌스 정책을 중앙에서 정의하고 적용할 수 있으며, 시맨틱 검색, 데이터 계보, 품질 검사를 지원합니다.
- 스토리지 확장 프로그램: Google Cloud의 Lakehouse는 Cloud Storage 관리 기능을 확장하여 자동 클래스 계층화 및 고객 관리 암호화 키 (CMEK)와 같은 기능을 포함합니다.
- 완전 관리형 환경: BigQuery와 통합된 경우 Google Cloud의 레이크하우스는 높은 처리량의 스트리밍과 실시간 메타데이터 관리를 사용하여 완전 관리형 스트리밍, 분석, AI 환경을 제공합니다.
- 고가용성 및 재해 복구: Google Cloud의 레이크하우스는 데이터의 고가용성을 지원하기 위해 교차 리전 복제 및 재해 복구(미리보기) 옵션을 제공합니다.
사용 사례
- 개방형 레이크하우스: Cloud Storage를 스토리지 레이어로 사용하고 Google Cloud의 레이크하우스는 Apache Iceberg 데이터의 관리 및 거버넌스 인터페이스를 제공합니다.
- 분석 및 트랜잭션 통합: PostgreSQL용 AlloyDB(미리보기) 내에서 분석 Apache Iceberg 테이블에 직접 액세스하여 분석 데이터를 트랜잭션 워크로드와 결합합니다.
- 통합 액세스: 다양한 엔진 (Apache Spark, Apache Flink, BigQuery)이 일관된 메타데이터를 사용하여 동일한 Apache Iceberg 테이블과 상호작용할 수 있습니다.
- 교차 클라우드 분석 및 AI: 교차 클라우드 레이크하우스(미리보기)를 사용하여 데이터 이전 없이 Google Cloud 에서 바로 다른 클라우드 제공업체의 데이터를 쿼리합니다.
- 공개 데이터 세트 탐색: 인프라를 관리하지 않고 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 고품질 공개 데이터 세트를 쉽게 쿼리할 수 있습니다.
카탈로그 인터페이스
레이크하우스 런타임 카탈로그는 Cloud Storage와 BigQuery 전반에서 데이터를 연결하는 여러 인터페이스 (엔드포인트)를 제공하는 단일 메타데이터 서비스입니다.
Apache Iceberg REST 카탈로그 엔드포인트: Apache Spark, Apache Flink, Trino와 같은 오픈소스 엔진과의 광범위한 호환성을 위해 표준 REST 인터페이스를 제공합니다. 새 워크로드에 권장되는 인터페이스이며 완전한 읽기/쓰기 상호 운용성을 제공합니다.
BigQuery 엔드포인트용 맞춤 Apache Iceberg 카탈로그: 엔진이 BigQuery 카탈로그와 직접 상호 운용할 수 있습니다. 이 인터페이스는 주로 BigQuery 관리형 Apache Iceberg 테이블과 Google Cloud의 레이크하우스 아키텍처로 전환하는 기존 워크로드에 사용됩니다.
인터페이스 및 도구
다음 도구를 사용하여 Google Cloud의 레이크하우스 리소스와 상호작용할 수 있습니다.
- Google Cloud 콘솔: 콘솔을 사용하여 카탈로그를 만들고, 카탈로그 속성을 보고, 감사 로그를 보고, 권한을 구성합니다.
- BigQuery SQL: 표준 SQL DDL (데이터 정의 언어)을 사용하여 Lakehouse 런타임 카탈로그와 통합된 Apache Iceberg 테이블과 외부 테이블을 만들고 관리합니다.
- 오픈소스 엔진: 레이크하우스 런타임 카탈로그와 함께 Apache Spark, Apache Flink, Apache Hive와 같은 엔진을 사용하여 데이터를 읽고 씁니다.
- 레이크하우스 런타임 카탈로그 API: Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 개방형 Apache Iceberg REST 사양과 호환되는 도구를 사용하여 서비스와 상호작용합니다.
다음 단계
- Google Cloud의 레이크하우스 아키텍처를 이해합니다.