Use os conceitos a seguir para entender como o metastore do Dataproc funciona e os diferentes recursos que podem ser usados com o serviço.
Versões do metastore do Dataproc
Ao criar um serviço do metastore do Dataproc, é possível usar um serviço do metastore do Dataproc 2 ou um serviço do metastore do Dataproc 1.
Dataproc Metastore 2
O metastore do Dataproc 2 usa um fator de escalonamento para determinar quantos recursos o serviço usa em um determinado momento. Depois de criar um metastore do Dataproc 2, é possível escalonar o serviço para cima ou para baixo modificando o fator de escalonamento.
O metastore do Dataproc 2 é a nova geração do serviço que oferece escalonabilidade horizontal, além dos recursos do metastore do Dataproc. Para mais informações, consulte Recursos e benefícios.
O metastore do Dataproc 2 tem um plano de preços diferente do metastore do Dataproc. Para mais informações, consulte planos de preços e configurações de escalonamento.
Dataproc Metastore 1
O metastore do Dataproc 1 usa níveis de serviço para determinar quantos recursos o serviço usa em um determinado momento. Os níveis de serviço fornecem uma quantidade previsível e predeterminada de recursos.
Verificar a versão do metastore do Dataproc
É possível verificar qual versão do metastore do Dataproc você está usando no Google Cloud console.
- Dataproc Metastore 2: a tabela de configuração contém o seguinte valor: Edition Enterprise - Single Region.
- Dataproc Metastore 1: a tabela de configuração contém um dos seguintes valores: Tier: DEVELOPER ou Tier: ENTERPRISE.
Termos comuns do metastore do Dataproc
Os termos a seguir são usados com frequência no ecossistema e na documentação do metastore do Dataproc.
Serviços
- Apache Hive. O Hive é um conhecido sistema de data warehouse de código aberto, desenvolvido no Apache Hadoop. O Hive oferece uma linguagem de consulta do tipo SQL, chamada HiveQL, usada para analisar conjuntos de dados grandes e estruturados.
- Metastore do Apache Hive. O metastore do Hive contém metadados sobre as tabelas do Hive, como o esquema e a localização delas.
- Managed Service for Apache Spark. O Managed Service for Apache Spark é um serviço rápido, fácil de usar e totalmente gerenciado para executar cargas de trabalho do Apache Spark e do Apache Hadoop de maneira simples e econômica. Google Cloud Depois de criar um metastore do Dataproc, é possível se conectar a ele em um cluster do Managed Service for Apache Spark.
- Cluster do Managed Service for Apache Spark. Depois de criar um serviço do metastore do Dataproc, é possível se conectar a ele em um cluster do Managed Service for Apache Spark. Também é possível usar o metastore do Dataproc com vários outros clusters, como clusters autogerenciados do Apache Hive, Apache Spark ou Presto.
- Serviço do metastore do Dataproc. O nome da instância do metastore criada em Google Cloud. É possível ter um ou vários serviços de metastore diferentes na sua implementação.
- Private Service Connect. O Private Service Connect permite configurar uma conexão particular com os metadados do metastore do Dataproc nas redes VPC. É possível usá-lo para rede como uma alternativa ao peering de VPC.
- VPC Service Controls. O VPC Service Controls melhora a capacidade de reduzir o risco de exfiltração de dados de Google Cloud serviços, permitindo que você crie perímetros que protejam os recursos e dados dos serviços que você especificou.
Conceitos
- Tabelas. Todos os aplicativos Hive têm tabelas internas gerenciadas ou tabelas externas não gerenciadas que armazenam seus dados.
- Diretório de depósito do Hive. O local padrão em que os dados da tabela gerenciada são armazenados.
- Bucket de artefatos. Um bucket do Cloud Storage criado automaticamente no seu projeto com cada serviço de metastore criado. Esse bucket pode ser usado para armazenar os artefatos do serviço, como metadados exportados e dados de tabelas gerenciadas. Por padrão, o bucket de artefatos armazena o diretório de armazenamento padrão do serviço do metastore do Dataproc.
- Endpoints. Um serviço do metastore do Dataproc fornece aos clientes acesso aos metadados armazenados do metastore do Hive por um ou mais endpoints de rede. O metastore do Dataproc fornece URIs para esses endpoints.
- Protocolos de endpoint. O protocolo de rede usado para comunicação entre o metastore do Dataproc e os clientes do metastore do Hive. O metastore do Dataproc oferece suporte a endpoints do Apache Thrift e gRPC.
- Federação de metadados. Um recurso que permite acessar metadados armazenados em várias instâncias do metastore do Dataproc.
- Versões auxiliares. Um recurso que permite conectar várias versões de cliente do Hive ao mesmo serviço do metastore do Dataproc.
Conceitos do metastore do Hive
O uso de um serviço do metastore do Dataproc exige que você entenda os conceitos básicos do metastore do Hive. Para mais informações, consulte Metastore do Hive.
Requisitos de rede
O serviço do metastore do Dataproc exige acesso à rede para funcionar corretamente. Para mais informações, consulte Configurar requisitos de rede.
Configurações do projeto
Há várias configurações de projeto possíveis que podem ser usadas ao implantar um cluster do Managed Service for Apache Spark e um serviço do metastore do Dataproc. Para mais informações, consulte Implantação entre projetos.