BigLake 개요

BigLake는 Google Cloud 및 오픈소스 서비스를 통합하여 고급 분석 및 AI를 위한 통합 인터페이스를 만드는 스토리지 엔진입니다. Apache Iceberg를 사용하여 자동화된 데이터 관리 및 기본 제공 거버넌스를 통해 개방형 관리형 고성능 레이크하우스를 빌드하는 데 필요한 기반을 제공합니다.

BigLake는 Apache Spark 또는 BigQuery와 같은 모든 Iceberg 호환 엔진 간의 상호 운용성을 지원하여 데이터에 대한 일관된 뷰를 제공합니다. 또한 스토리지 버킷의 자동 클래스 계층화, 암호화, 고객 관리 암호화 키와 같은 기능을 포함하는 Cloud Storage 관리 기능을 확장합니다. 또한 Dataplex Universal Catalog와의 기본 제공 통합을 통해 거버넌스 정책이 중앙에서 정의되고 여러 엔진에 걸쳐 일관되게 적용되면서도 시맨틱 검색, 데이터 계보, 프로파일링, 품질 검사가 지원됩니다.

BigLake는 BigQuery와 통합될 때 완전 관리형 Iceberg 환경을 제공하는 옵션도 제공합니다. BigQuery의 확장성이 뛰어난 실시간 메타데이터 관리 기능을 활용하면 개방성과 데이터 소유권은 물론 고성능 분석, 스트리밍, AI도 이용할 수 있습니다.

아키텍처

BigLake로 빌드된 데이터 레이크하우스는 다음 구성요소로 구성됩니다.

  • 스토리지 기능 Apache Iceberg를 추천 개방형 테이블 형식으로 사용하는 Cloud Storage
  • 메타스토어 BigLake metastore는 여러 엔진에서 메타데이터를 관리하기 위한 단일 정보 소스를 제공하는 통합되고 관리되는 서버리스 확장형 metastore입니다.
  • 쿼리 엔진 BigQuery, Apache Spark, Apache Flink, Trino 및 기타 오픈소스 엔진은 모두 BigLake와 호환됩니다.
  • 데이터 작성 및 분석 도구 BigQuery, Spark, Flink, Trino 및 기타 오픈소스 도구는 BigLake와 통합되어 쓰기 및 분석을 위한 다양한 경로를 제공합니다.

BigLake는 이러한 모든 구성요소를 균일한 거버넌스를 갖춘 단일 환경으로 패키징합니다. BigLake 아키텍처 및 혁신에 대한 자세한 내용은 BigLake의 진화를 참조하세요.

BigLake metastore

BigLake Metastore는 Google Cloud의 레이크하우스를 위한 완전 관리형 서버리스 metastore입니다. 여러 소스의 메타데이터에 대한 단일 정보 소스를 제공하며 BigQuery 및 다양한 공개 데이터 처리 엔진에서 액세스할 수 있으므로 맞춤설정된 도구를 사용하여 서로 다른 저장소 간에 메타데이터를 복사하고 동기화할 필요가 없습니다.

BigLake metastore는 Dataplex Universal Catalog에서 지원되며, 이 카탈로그는 지원되는 모든 엔진에서 통합되고 세분화된 액세스 제어를 제공하며 포괄적인 계보, 데이터 품질, 검색 가능성 기능을 포함하는 엔드 투 엔드 거버넌스를 지원합니다.

테이블 형식

BigLake에서 레이크하우스를 빌드할 때 테이블 형식에 대해 다음 옵션을 선택할 수 있습니다.

  • BigQuery의 BigLake Iceberg 테이블은 BigQuery에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigLake metastore를 사용하는 모든 테이블과 마찬가지로 오픈소스 엔진과 BigQuery에서 읽을 수 있습니다. 하지만 BigQuery는 직접 쓰기가 가능한 유일한 엔진입니다. 추출, 변환, 로드 (ETL) 워크플로를 BigQuery에서 완전히 관리하도록 하려면 이 옵션을 선택하세요.
  • BigLake Iceberg 테이블은 오픈소스 엔진에서 만들고 Cloud Storage에 저장하는 Iceberg 테이블입니다. BigLake metastore를 사용하는 모든 테이블과 마찬가지로 오픈소스 엔진과 BigQuery에서 읽을 수 있습니다. 하지만 테이블을 만든 오픈소스 엔진만 테이블에 쓸 수 있습니다. ETL 워크플로를 오픈소스 엔진에서 관리하도록 하려면 이 옵션을 선택하세요.
  • 표준 BigQuery 테이블은 BigQuery에서 완전히 관리하며 가장 고급 데이터 분석 및 관리 기능을 제공합니다. 이러한 테이블을 BigLake Metastore에 연결할 수 있습니다. 이 옵션은 Iceberg가 아닌 테이블에 가장 적합합니다.
  • 외부 테이블은 BigLake metastore 외부에 있는 테이블입니다. 이러한 테이블의 데이터와 메타데이터는 완전히 자체 관리되며, 개방형 테이블 형식 (예: Iceberg, Apache Hudi, Delta Lake)의 기능을 완전히 신뢰합니다. BigQuery는 이러한 테이블에서 읽기만 할 수 있습니다. 서드 파티 카탈로그에서 직접 관리하려는 데이터 및 메타데이터의 경우 이 옵션을 선택합니다.

다음 차트를 사용하여 표 형식 옵션을 비교하세요.

외부 테이블 BigLake Iceberg 테이블 BigQuery의 BigLake Iceberg 테이블 표준 BigQuery 테이블
metastore 외부 또는 자체 호스팅 metastore BigLake metastore BigLake metastore BigQuery
스토리지 Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
스토리지 최적화 고객 또는 서드 파티 관리 고객 또는 서드 파티 관리 Google 관리 Google 관리
읽기/쓰기 오픈소스 엔진(읽기/쓰기)

BigQuery(읽기 전용)
오픈소스 엔진(읽기/쓰기)

BigQuery(읽기 전용)
오픈소스 엔진(Iceberg 라이브러리를 사용한 읽기 전용, BigQuery Storage API와의 읽기/쓰기 상호 운용성)

BigQuery(읽기/쓰기)

오픈소스 엔진(BigQuery Storage API와의 읽기/쓰기 상호 운용성)

BigQuery(읽기/쓰기)

사용 사례 BigQuery 로드를 위한 스테이징 테이블, 기존 쿼리 전용 테이블 개방형 레이크하우스 고성능의 엔터프라이즈급 스토리지를 갖춘 개방형 레이크하우스로 고급 분석, 스트리밍, AI 지원 고급 분석, 스트리밍, AI를 위한 엔터프라이즈급 스토리지

다음 단계