Visão geral do metastore do Dataproc

O Dataproc Metastore é um metastore Apache Hive (HMS) totalmente gerenciado que é executado no Google Cloud. Um HMS é o padrão estabelecido no ecossistema de big data de código aberto para gerenciar metadados técnicos, como esquemas, partições e estatísticas de colunas em um banco de dados relacional.

O metastore do Dataproc é altamente disponível, com recuperação automática e sem servidor. Use-o para gerenciar metadados do data lake e fornecer interoperabilidade entre os vários mecanismos e ferramentas de processamento de dados que você está usando.

Como o metastore do Dataproc funciona

É possível usar um serviço do metastore do Dataproc conectando-o a um cluster do Serviço Gerenciado para Apache Spark. Um cluster do Serviço Gerenciado para Apache Spark inclui componentes que dependem de um HMS para impulsionar o planejamento e a execução de consultas.

Com essa integração, você pode manter as informações da tabela entre jobs ou disponibilizar metadados para outros clusters e mecanismos de processamento.

Por exemplo, a implementação de um metastore pode ajudar você a designar que um subconjunto dos seus arquivos contém dados de receita, em vez de rastrear manualmente os nomes dos arquivos. Nesse caso, é possível definir uma tabela para esses arquivos e armazenar os metadados no metastore do Dataproc. Depois, é possível conectá-lo a um cluster do Serviço Gerenciado para Apache Spark e consultar a tabela para obter informações usando o Hive, Spark SQL ou outros serviços de consulta.

Versões do metastore do Dataproc

Ao criar um serviço do metastore do Dataproc, é possível usar um serviço do metastore do Dataproc 2 ou um serviço do metastore do Dataproc 1.

  • O Metastore do Dataproc 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do Metastore do Dataproc 1. Para mais informações, consulte recursos e benefícios.

  • O metastore do Dataproc 2 tem um plano de preços diferente do metastore do Dataproc. Para mais informações, consulte planos de preços e configurações de escalonamento.

Casos de uso comuns

Todos os casos de uso listados nesta seção são compatíveis com o metastore do Dataproc 2 e o metastore do Dataproc 1, salvo indicação em contrário.

  • Atribua significado aos seus dados. Crie um repositório de metadados centralizado que seja compartilhado entre vários clusters efêmeros do Serviço Gerenciado para Apache Spark. Use diferentes mecanismos de software de código aberto (OSS, na sigla em inglês), como Apache Hive, Apache Spark e Presto.

  • Crie uma visualização unificada dos seus dados. Oferecer interoperabilidade entre serviços doGoogle Cloud , como o Serviço Gerenciado para Apache Spark, o Knowledge Catalog e o BigQuery, ou usar outras ofertas de parceiros baseadas em código aberto no Google Cloud.

Recursos e benefícios

Todos os recursos listados nesta seção são compatíveis com o metastore do Dataproc 2 e o metastore do Dataproc 1, salvo indicação contrária.

  • Compatibilidade com OSS. Conecte-se aos mecanismos de processamento de dados atuais, como Apache Hive, Apache Spark e Presto.

  • Gerenciamento. Crie ou atualize um metastore em minutos com tarefas de monitoramento e operação totalmente configuradas.

  • Integração. Integrar com outros produtos do Google Cloud , como usar o BigQuery como a origem de metadados para um cluster do Serviço Gerenciado para Apache Spark.

  • Segurança integrada. Use protocolos de segurança Google Cloud estabelecidos, como o gerenciamento de identidade e acesso (IAM) e a autenticação Kerberos.

  • Importação simples. Importe metadados armazenados em um metastore externo do Hive para um serviço do metastore do Dataproc.

  • Backups automáticos. Configure backups automáticos do metastore para evitar a perda de dados.

  • Monitoramento de desempenho. Defina níveis de desempenho para responder dinamicamente a cargas de trabalho e picos altamente intensivos, sem pré-aquecimento ou armazenamento em cache.

  • Alta disponibilidade (HA).

    • Dataproc Metastore 2 Oferece alta disponibilidade (HA) zonal sem exigir configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente bancos de dados de back-end e servidores HMS em várias zonas na região escolhida. Além da HA zonal, o metastore do Dataproc 2 é compatível com HA regional e recuperação de desastres (DR, na sigla em inglês).
    • Dataproc Metastore 1. Por padrão, oferece alta disponibilidade (HA) zonal sem exigir configuração específica ou gerenciamento contínuo. Isso é feito replicando automaticamente os bancos de dados de back-end e os servidores HMS em várias zonas na região escolhida.

    Para mais informações sobre considerações específicas de cada região, consulte Geografia e regiões.

  • Dimensionamento.

    • Dataproc Metastore 2 Use um fator de escalonamento horizontal para determinar quantos recursos seu serviço precisa usar em um determinado momento. O fator de escalonamento pode ser controlado manualmente ou definido para escalonamento automático quando necessário.
    • Dataproc Metastore 1. Escolha entre um nível de desenvolvedor ou empresarial ao configurar seu serviço. Esse nível determina quantos recursos seu serviço precisa usar em um determinado momento.
  • Suporte. Aproveite os SLAs e canais de suporte padrão Google Cloud .

Integrações com Google Cloud

Todas as integrações listadas nesta seção são compatíveis com o metastore do Dataproc 1 e o metastore do Dataproc 2, salvo indicação em contrário.

  • Serviço Gerenciado para Apache Spark. Conecte-se a um cluster do Serviço Gerenciado para Apache Spark para veicular metadados para cargas de trabalho de Big Data do OSS.
  • BigQuery. Consulte conjuntos de dados do BigQuery nas suas cargas de trabalho do Serviço Gerenciado para Apache Spark.
  • Knowledge Catalog. Consultar dados estruturados e semiestruturados descobertos em um data lake do Knowledge Catalog.
  • Data Catalog. Sincronize o metastore do Dataproc com o Data Catalog para ativar a pesquisa e a descoberta de metadados.
  • Geração de registros e monitoramento. Integre o metastore do Dataproc aos produtos do Cloud Monitoring e do Cloud Logging.
  • Autenticação e IAM. Use a autenticação OAuth padrão usada por outros produtos doGoogle Cloud , que permite usar papéis granulares do Identity and Access Management para ativar o controle de acesso de recursos individuais.

Próximas etapas