2026년 4월 20일부터 BigLake의 이름이 Lakehouse for Apache Iceberg로 변경되었습니다. BigLake metastore의 이름이 Lakehouse 런타임 카탈로그로 변경되었습니다. Lakehouse API, 클라이언트 라이브러리, CLI 명령어, IAM 이름은 변경되지 않으며 여전히 BigLake를 참조합니다.

Google은 AI 기술을 사용하여 콘텐츠를 사용자의 기본 언어로 번역합니다. AI 번역에는 오류가 있을 수 있습니다.

Lakehouse for Apache Iceberg란 무엇인가요?

Lakehouse for Apache Iceberg는 개방형 데이터 레이크하우스를 빌드하도록 설계된 고성능 스토리지 엔진입니다. Apache Iceberg 개방형 테이블 형식을 완전 관리형 엔터프라이즈급 스토리지에 통합하여 Google Cloud고급 분석 및 AI를 위한 통합 인터페이스를 제공합니다.

개방형 테이블 메타데이터를 관리하기 위해 Lakehouse for Apache Iceberg는 Lakehouse 런타임 카탈로그를 사용합니다. 이 완전 관리형 서버리스 메타데이터 서비스는 서로 다른 시스템 전반에서 단일 정보 소스를 제공하여 검색을 중앙 집중화하고 서로 다른 저장소 간에 메타데이터를 동기화할 필요성을 없애줍니다.

Google Cloud의 Lakehouse 는 스토리지와 컴퓨팅을 분리하여 분석 시스템과 트랜잭션 시스템 전반에서 원활한 상호 운용성을 보장합니다. 이 아키텍처를 사용하면 Apache Spark, Apache Flink, Apache Hive, Trino, BigQuery를 비롯한 여러 엔진이 단일 정보 소스에 액세스할 수 있으므로 데이터 중복이 제거되고 일관된 통찰력을 얻을 수 있습니다.

주요 이점

서버리스 아키텍처: Google Cloud의 Lakehouse는 서버 또는 클러스터 관리가 필요하지 않으므로 운영 오버헤드를 줄이고 수요에 따라 자동으로 확장됩니다. 컴퓨팅 워크로드의 경우 서버리스 일괄 처리 및 대화형 세션은 작업 간의 리소스 경합을 제거하고 인프라 유지보수를 자동화합니다.
통합 데이터 관리 및 거버넌스: Knowledge Catalog와의 통합을 통해 여러 엔진에서 거버넌스 정책을 중앙에서 정의하고 적용할 수 있으며 시맨틱 검색, 데이터 계보, 품질 검사를 지원합니다.
스토리지 확장 프로그램: Google Cloud의 Lakehouse는 Cloud Storage 관리 기능을 확장하여 자동 클래스 계층화 및 고객 관리 암호화 키 (CMEK)와 같은 기능을 포함합니다.
완전 관리형 환경: BigQuery와 통합되면 Google Cloud의 Lakehouse는 완전 관리형 분석 및 AI 환경을 제공합니다.
고가용성 및 재해 복구: Google Cloud's Lakehouse는 데이터의 고가용성을 지원하기 위해 교차 리전 복제 및 재해 복구 (미리보기) 옵션을 제공합니다.

사용 사례

개방형 레이크하우스: Cloud Storage를 스토리지 계층으로 사용하고 Google Cloud의 Lakehouse는 Apache Iceberg 데이터의 관리 및 거버넌스 인터페이스를 제공합니다.
분석 및 트랜잭션 통합: PostgreSQL용 AlloyDB(미리보기) 내에서 분석 Apache Iceberg 테이블에 직접 액세스하여 분석 데이터를 트랜잭션 워크로드와 결합합니다.
통합 액세스: 일관된 메타데이터를 사용하여 여러 엔진 (Apache Spark, Apache Flink, BigQuery)이 동일한 Apache Iceberg 테이블과 상호작용하도록 합니다.
교차 클라우드 분석 및 AI: 교차 클라우드 Lakehouse (미리보기)를 사용하여 다른 클라우드 제공업체의 메타데이터를 동기화하면 데이터를 마이그레이션하지 않고도 Apache Iceberg REST 카탈로그 엔드포인트를 통해 BigQuery 또는 외부 오픈소스 엔진으로 데이터를 쿼리할 수 있습니다.
공개 데이터 세트 탐색: 인프라를 관리하지 않고도 Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 고품질 공개 데이터 세트를 쉽게 쿼리할 수 있습니다.
Hive Metastore: Hive 카탈로그 (미리보기)를 사용하여 Apache Spark 및 Apache Hive와 같은 오픈소스 엔진을 Lakehouse 런타임 카탈로그에 연결합니다. 이렇게 하면 BigQuery에서 원활한 데이터 공유 및 직접 테이블 쿼리를 지원하면서 자체 호스팅 Hive Metastore (HMS)를 유지관리하는 운영 오버헤드가 제거됩니다.

인터페이스 및 도구

다음 도구를 사용하여 Google Cloud의 Lakehouse 리소스와 상호작용할 수 있습니다.

Google Cloud **콘솔**: 콘솔을 사용하여 카탈로그를 만들고, 카탈로그 속성을 보고, 감사 로그를 보고, 권한을 구성합니다.
BigQuery SQL: 표준 SQL DDL (데이터 정의 언어)을 사용하여 Apache Iceberg 테이블과 Lakehouse 런타임 카탈로그와 통합된 외부 테이블을 만들고 관리합니다.
오픈소스 엔진: Lakehouse 런타임 카탈로그와 함께 Apache Spark, Apache Flink, Apache Hive와 같은 엔진을 사용하여 데이터를 읽고 씁니다.
IDE 및 노트북: 대화형 Apache Spark 노트북 및 IDE 확장 프로그램(예: VS Code용 Data Agent Kit(DAK) 확장 프로그램)을 사용하여 Google Cloud에 인증하고, 대화형으로 코드를 작성하고, 개발 환경 내에서 직접 노트북 세션을 관리합니다.
오케스트레이션 및 MLOps 도구: Managed Service for Apache Airflow (이전의 Cloud Composer) 및 Vertex AI의 Kubeflow Pipelines를 사용하여 서버리스 일괄 처리 파이프라인 및 카탈로그 작업을 오케스트레이션 워크플로와 통합합니다.
Lakehouse 런타임 카탈로그 API: Apache Iceberg REST 카탈로그 엔드포인트를 사용하여 개방형 Apache Iceberg REST 사양과 호환되는 도구를 사용하여 서비스와 상호작용합니다.
Apache Iceberg 테이블 지원: Apache Iceberg V2 테이블 (정식 버전) 및 V3 테이블 (미리보기)이 지원됩니다. Iceberg V1 테이블은 지원되지 않습니다.

다음 단계

Google Cloud's Lakehouse 아키텍처를 이해합니다.

Lakehouse for Apache Iceberg란 무엇인가요? 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

주요 이점

사용 사례

인터페이스 및 도구

다음 단계

Lakehouse for Apache Iceberg란 무엇인가요?