Google Cloud Lakehouse란 무엇인가요?

Google Cloud Lakehouse 는 개방형 데이터 레이크하우스를 빌드하도록 설계된 고성능 스토리지 엔진입니다. Apache Iceberg 개방형 테이블 형식을 의 완전 관리형 엔터프라이즈급 스토리지와 통합하여 고급 분석 및 AI를 위한 통합 인터페이스를 제공합니다.Google Cloud

Google Cloud Lakehouse는 컴퓨팅에서 스토리지를 분리하여 분석 및 트랜잭션 시스템 전반에서 원활한 상호 운용성을 보장합니다. 이 아키텍처를 사용하면 Apache Spark, Apache Flink, Apache Hive, Trino, BigQuery를 비롯한 여러 엔진이 단일 소스에 액세스하여 데이터 중복을 없애고 일관된 통계를 보장할 수 있습니다.

주요 이점

  • 서버리스 아키텍처: Google Cloud Lakehouse는 서버 또는 클러스터 관리가 필요하지 않으므로 운영 오버헤드를 줄이고 수요에 따라 자동으로 확장됩니다.
  • 통합 데이터 관리 및 거버넌스: Knowledge Catalog와의 통합을 통해 여러 엔진에서 거버넌스 정책을 중앙에서 정의하고 적용할 수 있으며 시맨틱 검색, 데이터 계보, 품질 검사를 지원합니다.
  • 스토리지 확장 프로그램: Google Cloud Lakehouse는 자동 클래스 계층화 및 고객 관리 암호화 키 (CMEK)와 같은 기능을 포함하도록 Cloud Storage 관리 기능을 확장합니다.
  • 완전 관리형 환경: BigQuery와 통합되면 Google Cloud Lakehouse는 높은 처리량 스트리밍 및 실시간 메타데이터 관리를 사용하여 완전 관리형 스트리밍, 분석, AI 환경을 제공합니다.
  • 고가용성 및 재해 복구: Google Cloud Lakehouse는 데이터의 고가용성을 지원하기 위해 리전 간 복제 및 재해 복구(미리보기) 옵션을 제공합니다.

사용 사례

  • 개방형 레이크하우스: Cloud Storage를 스토리지 계층으로 사용하고 Google Cloud Lakehouse는 Apache Iceberg 데이터의 관리 및 거버넌스 인터페이스를 제공합니다.
  • 분석 및 트랜잭션 통합: PostgreSQL용 AlloyDB(미리보기) 내에서 분석 Apache Iceberg 테이블에 직접 액세스하여 분석 데이터를 트랜잭션 워크로드와 결합합니다.
  • 통합 액세스: 다양한 엔진 (Apache Spark, Apache Flink, BigQuery)이 일관된 메타데이터로 동일한 Apache Iceberg 테이블과 상호작용하도록 합니다.

카탈로그 인터페이스

Lakehouse 런타임 카탈로그 는 Cloud Storage와 BigQuery 전반에서 데이터를 연결하는 여러 인터페이스 (엔드포인트)를 제공하는 단일 메타데이터 서비스입니다. 자세한 내용은 How Google Cloud Lakehouse 작동 방식을 참고하세요.

인터페이스 및 도구

다음 도구를 사용하여 Google Cloud Lakehouse 리소스와 상호작용할 수 있습니다.

  • Google Cloud **콘솔**: 콘솔을 사용하여 카탈로그를 만들고, 카탈로그 속성을 보고, 감사 로그를 보고, 권한을 구성합니다.
  • BigQuery SQL: 표준 SQL DDL (데이터 정의 언어)을 사용하여 Apache Iceberg 테이블과 Lakehouse 런타임 카탈로그와 통합된 외부 테이블을 만들고 관리합니다.
  • 오픈소스 엔진: Lakehouse 런타임 카탈로그와 함께 Apache Spark, Apache Flink, Apache Hive와 같은 엔진을 사용하여 데이터를 읽고 씁니다.
  • Lakehouse 런타임 카탈로그 API: Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 개방형 Apache Iceberg REST 사양과 호환되는 도구를 사용하여 서비스와 상호작용합니다.

다음 단계