BigLake란 무엇인가요?

BigLake는 Google Cloud 및 오픈소스 서비스를 통합하여 고급 분석 및 AI를 위한 통합 인터페이스를 만드는 스토리지 엔진입니다. Apache Iceberg를 사용하여 자동화된 데이터 관리 및 기본 제공 거버넌스를 통해 개방형 관리형 고성능 레이크하우스를 빌드할 수 있는 기반을 제공합니다.

스토리지와 컴퓨팅을 분리함으로써 BigLake는 Apache Spark, Apache Flink, Apache Hive, Trino, BigQuery와 같은 모든 Iceberg 호환 엔진 간의 상호 운용성을 제공하여 데이터의 일관된 뷰를 보장합니다.

주요 이점

  • 서버리스 아키텍처: BigLake는 서버 또는 클러스터 관리가 필요하지 않으므로 운영 오버헤드를 줄이고 수요에 따라 자동으로 확장됩니다.
  • 통합 데이터 관리 및 거버넌스: Dataplex Universal Catalog와의 통합을 통해 여러 엔진에 걸쳐 거버넌스 정책을 중앙에서 정의하고 적용할 수 있으며 시맨틱 검색, 데이터 계보, 품질 검사를 지원합니다.
  • 스토리지 확장 프로그램: BigLake는 자동 클래스 계층화 및 고객 관리 암호화 키 (CMEK)와 같은 기능을 포함하도록 Cloud Storage 관리 기능을 확장합니다.
  • 완전 관리형 환경: BigQuery와 통합된 경우 BigLake는 높은 처리량의 스트리밍과 실시간 메타데이터 관리를 사용하여 완전 관리형 스트리밍, 분석, AI 환경을 제공합니다.
  • 고가용성 및 재해 복구: BigLake는 데이터의 고가용성을 지원하기 위해 리전 간 복제 및 재해 복구(미리보기) 옵션을 제공합니다.

사용 사례

  • 개방형 레이크하우스: Cloud Storage를 스토리지 레이어로 사용하고 BigLake는 Iceberg 데이터의 관리 및 거버넌스 인터페이스를 제공합니다.
  • 분석 및 트랜잭션 통합: PostgreSQL용 AlloyDB (프리뷰) 내에서 분석 BigLake Iceberg 테이블에 직접 액세스하여 분석 데이터를 트랜잭션 워크로드와 결합합니다.
  • 통합 액세스: 다양한 엔진 (Spark, Flink, BigQuery)이 일관된 메타데이터를 사용하여 동일한 Iceberg 테이블과 상호작용할 수 있습니다.

카탈로그 인터페이스

BigLake metastore는 Cloud Storage와 BigQuery 전반에서 데이터를 연결하는 두 가지 기본 카탈로그 인터페이스를 제공합니다. 자세한 내용은 BigLake 작동 방식을 참고하세요.

  • Apache Iceberg REST 카탈로그: 오픈소스 엔진 및 도구와의 호환성을 높이기 위해 표준 REST 인터페이스를 제공합니다. 새 워크로드에 권장되는 인터페이스입니다.

    빠른 시작 Iceberg REST 카탈로그를 사용하여 Spark 및 BigQuery와 함께 BigLake metastore 사용을 통해 이 Apache Iceberg REST 카탈로그를 시작하는 방법을 알아보세요.

  • BigQuery용 맞춤 Apache Iceberg 카탈로그: Spark와 같은 엔진이 BigQuery와 상호 운용할 수 있도록 지원합니다. 이 인터페이스는 기존 워크로드에서 지원됩니다.

인터페이스 및 도구

다음 도구를 사용하여 BigLake 리소스와 상호작용할 수 있습니다.

  • Google Cloud 콘솔: 콘솔을 사용하여 카탈로그를 만들고, 카탈로그 속성을 확인하고, 감사 로그를 확인하고, 권한을 구성합니다.
  • BigQuery SQL: 표준 SQL DDL (데이터 정의 언어)을 사용하여 BigLake Iceberg 테이블을 만들고 관리합니다.
  • 오픈소스 엔진: BigLake metastore와 함께 Apache Spark, Apache Flink, Apache Hive와 같은 엔진을 사용하여 데이터를 읽고 씁니다.
  • BigLake metastore API: Iceberg REST 카탈로그 사양과 호환되는 REST API를 사용합니다.

다음 단계