Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un HMS es el estándar establecido en el ecosistema de macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y no requiere servidores. Úsalo para administrar los metadatos del data lake y proporcionar interoperabilidad entre los distintos motores de procesamiento de datos y las herramientas que usas.

Cómo funciona Dataproc Metastore

Puedes usar un servicio de Dataproc Metastore conectándolo a un clúster de Managed Service for Apache Spark. Un clúster del servicio administrado para Apache Spark incluye componentes que dependen de un HMS para impulsar la planificación y la ejecución de consultas.

Esta integración te permite conservar la información de la tabla entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un metastore podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de los archivos. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarlo a un clúster de Managed Service para Apache Spark y consultar la tabla para obtener información con Hive, Spark SQL o cualquier otro servicio de consultas.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes optar por usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos. Crea un repositorio de metadatos centralizado que se comparta entre muchos clústeres efímeros del servicio administrado para Apache Spark. Usar diferentes motores de software de código abierto (OSS), como Apache Hive, Apache Spark y Presto

  • Crea una vista unificada de tus datos. Proporcionar interoperabilidad entre los servicios deGoogle Cloud , como Managed Service for Apache Spark, Knowledge Catalog y BigQuery, o usar otras ofertas de socios basadas en código abierto enGoogle Cloud

Características y beneficios

Todas las funciones que se indican en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración Crea o actualiza un metastore en minutos, con tareas de supervisión y operación totalmente configuradas.

  • Integración. Integrarse con otros Google Cloud productos, como usar BigQuery como fuente de metadatos para un clúster de Managed Service for Apache Spark

  • Seguridad integrada. Usa protocolos de seguridad Google Cloud establecidos, como Identity and Access Management (IAM) y autenticación de Kerberos.

  • Importación sencilla. Importa los metadatos existentes almacenados en un almacén de metadatos externo de Hive Metastore a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Establece niveles de rendimiento para responder de forma dinámica a cargas de trabajo y picos de uso muy intensos, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA)

    • Dataproc Metastore 2 Proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos de backend y los servidores de HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 admite la HA regional y la recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos de backend y los servidores de HMS en varias zonas de la región que elijas.

    Para obtener más información sobre las consideraciones específicas de la región, consulta Ubicación geográfica y regiones.

  • Escalabilidad.

    • Dataproc Metastore 2 Usa un factor de ajuste de escala horizontal para determinar cuántos recursos debe usar tu servicio en un momento determinado. El factor de ajuste de escala se puede controlar manualmente o configurar para que se ajuste automáticamente cuando sea necesario.
    • Dataproc Metastore 1. Cuando configures tu servicio, elige entre un nivel para desarrolladores o un nivel empresarial. Este nivel determina cuántos recursos necesita usar tu servicio en un momento determinado.
  • Asistencia. Benefíciate de los Google Cloud ANS y los canales de asistencia estándar.

Integraciones con Google Cloud

Dataproc Metastore 1 y Dataproc Metastore 2 admiten todas las integraciones que se enumeran en esta sección, a menos que se indique lo contrario.

  • Servicio administrado para Apache Spark. Conéctate a un clúster del servicio administrado para Apache Spark, de modo que puedas entregar metadatos para cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consultar conjuntos de datos de BigQuery en tus cargas de trabajo de Managed Service for Apache Spark
  • Catálogo de conocimiento. Consultar datos estructurados y semiestructurados descubiertos en un data lake de Knowledge Catalog
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
  • Logging y Monitoring. Integra Dataproc Metastore con los productos de Cloud Monitoring y Logging.
  • Autenticación y IAM. Se basa en la autenticación de OAuth estándar que usan otros productos deGoogle Cloud , que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso para recursos individuales.

Próximos pasos