Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che viene eseguito su Google Cloud. Un HMS è lo standard consolidato nell'ecosistema dei big data open source per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.
Dataproc Metastore è ad alta affidabilità, con ripristino automatico e serverless. Utilizzalo per gestire i metadati del data lake e fornire interoperabilità tra i vari motori e strumenti di elaborazione dei dati che utilizzi.
Come funziona Dataproc Metastore
Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Managed Service for Apache Spark. Un cluster Managed Service for Apache Spark include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.
Questa integrazione ti consente di conservare le informazioni sulle tabelle tra i job o di rendere i metadati disponibili per altri cluster e altri motori di elaborazione.
Ad esempio, l'implementazione di un metastore potrebbe aiutarti a indicare che un sottoinsieme dei tuoi file contiene dati sui ricavi, anziché monitorare manualmente i nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché, puoi collegarlo a un cluster Managed Service for Apache Spark ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.
Versioni di Dataproc Metastore
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.
Dataproc Metastore 2 è la nuova generazione del servizio che offre la scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per saperne di più, consulta Funzionalità e vantaggi.
Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per saperne di più, consulta Piani tariffari e configurazioni di scalabilità.
Casi d'uso comuni
Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, salvo diversa indicazione.
Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Managed Service for Apache Spark effimeri. Utilizza diversi motori software open source (OSS), come Apache Hive , Apache Spark, e Presto.
Crea una visualizzazione unificata dei dati. Fornisci interoperabilità tra Google Cloud i servizi, come Managed Service for Apache Spark, Knowledge Catalog, e BigQuery, oppure utilizza altre offerte di partner basate su open source su Google Cloud.
Funzionalità e vantaggi
Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, salvo diversa indicazione.
Compatibilità con software open source. Connettiti ai motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto.
Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e operative completamente configurate.
Integrazione. Esegui l'integrazione con altri Google Cloud prodotti, ad esempio utilizzando BigQuery come origine dei metadati per un cluster Managed Service for Apache Spark.
Sicurezza integrata. Utilizza protocolli di sicurezza consolidati, come Identity and Access Management (IAM) e l'autenticazione Kerberos. Google Cloud
Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive Metastore esterno in un servizio Dataproc Metastore.
Backup automatici. Configura i backup automatici del metastore per evitare la perdita di dati.
Monitoraggio del rendimento. Imposta i livelli di rendimento per rispondere dinamicamente a workload e picchi ad alta intensità, senza pre-riscaldamento o memorizzazione nella cache.
Alta affidabilità (HA).
- Dataproc Metastore 2. Fornisce alta affidabilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Questa operazione viene eseguita replicando automaticamente i database di backend e i server HMS in più zone della regione scelta. Oltre all'alta disponibilità a livello di zona, Dataproc Metastore 2 supporta l'alta disponibilità a livello di regione e il disaster recovery (RE).
- Dataproc Metastore 1. Per impostazione predefinita, fornisce alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Questa operazione viene eseguita replicando automaticamente i database di backend e i server HMS in più zone della regione scelta.
Per saperne di più sulle considerazioni specifiche per le regioni, consulta Area geografica e regioni.
Scalabilità.
- Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare il numero di risorse che il servizio deve utilizzare in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato per la scalabilità automatica quando necessario.
- Dataproc Metastore 1. Scegli tra un livello per sviluppatori o un livello Enterprise quando configuri il servizio. Questo livello determina il numero di risorse che il servizio deve utilizzare in un determinato momento.
Assistenza. Approfitta degli SLA standard Google Cloud e dei canali di assistenza.
Integrazioni con Google Cloud
Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, salvo diversa indicazione.
- Managed Service for Apache Spark. Connettiti a un cluster Managed Service for Apache Spark per poter pubblicare i metadati per i workload di big data OSS.
- BigQuery. Esegui query sui set di dati BigQuery nei workload di Managed Service for Apache Spark.
- Knowledge Catalog. Esegui query sui dati strutturati e semi-strutturati rilevati in un lake di Knowledge Catalog.
- Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per consentire la ricerca e la scoperta dei metadati.
- Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Cloud Logging.
- Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri Google Cloud prodotti, che supporta l'utilizzo di ruoli Identity and Access Management granulari per abilitare controllo dell'accesso per le singole risorse.
Passaggi successivi
- Inizia a utilizzare la guida rapida Deployment di un servizio Dataproc Metastore.
- Scopri i prezzi di Dataproc Metastore.
- Scopri le quote e i limiti di Dataproc Metastore.
- Leggi le note di rilascio di Dataproc Metastore.
- Accedi a Dataproc Metastore utilizzando la Google Cloud console, la Google Cloud CLI o l'API Dataproc Metastore.