Este documento explica os principais conceitos, elementos básicos, recursos principais e benefícios do Serviço Gerenciado para Apache Spark. Entender esses fundamentos ajuda você a usar o Serviço Gerenciado para Apache Spark de maneira eficaz para suas tarefas de processamento de dados.
O modelo baseado em clusters
Essa é a maneira padrão e centrada na infraestrutura de usar o Serviço Gerenciado para Apache Spark. Ele oferece controle total sobre um conjunto dedicado de máquinas virtuais para suas tarefas de processamento de dados.
- Clusters: um cluster é seu mecanismo pessoal de processamento de dados, composto de Google Cloud máquinas virtuais. Você cria um cluster para executar frameworks de código aberto, como o Apache Spark e o Apache Hadoop. Você tem controle total sobre o tamanho do cluster, os tipos de máquina e a configuração.
- Jobs: um job é uma tarefa específica, como um script PySpark ou uma consulta Hadoop. Em vez de executar um job diretamente em um cluster, você o envia ao Serviço Gerenciado para Apache Spark, que gerencia a execução do job para você. É possível enviar vários jobs para o cluster.
- Modelos de fluxo de trabalho: um modelo de fluxo de trabalho é uma definição reutilizável que orquestra uma série de jobs (um fluxo de trabalho). Ele pode definir dependências entre jobs, por exemplo, para executar um job de machine learning somente depois que um job de limpeza de dados for concluído. O fluxo de trabalho com modelo pode ser executado em um cluster atual ou em um cluster temporário (efêmero) criado para executar o fluxo de trabalho e excluído após a conclusão. Você pode usar o modelo para executar o fluxo de trabalho definido sempre que necessário.
- Políticas de escalonamento automático: uma política de escalonamento automático contém regras definidas para adicionar ou remover máquinas de worker de um cluster com base na carga de trabalho do cluster para otimizar dinamicamente o custo e a performance do cluster.
O modelo sem servidor
O Serviço Gerenciado para Apache Spark é o modelo moderno e de execução automatizada do Serviço Gerenciado para Apache Spark. Ele permite executar jobs sem provisionar, gerenciar ou escalonar a infraestrutura subjacente: o Serviço Gerenciado para Apache Spark cuida dos detalhes para você.
- Lotes: um lote (também chamado de carga de trabalho em lote) é o equivalente sem servidor de um job do Serviço Gerenciado para Apache Spark. Você envia seu código, como um job do Spark, para o serviço. O Serviço Gerenciado para Apache Spark provisiona os recursos necessários sob demanda, executa o job e os encerra. Você não cria nem gerencia recursos de cluster ou job. O serviço faz o trabalho para você.
- Sessões interativas: as sessões interativas oferecem um ambiente ativo e sob demanda para análise de dados exploratória, normalmente em um notebook do Jupyter. As sessões interativas oferecem a conveniência de um espaço de trabalho temporário e sem servidor que pode ser usado para executar consultas e desenvolver códigos sem precisar provisionar e gerenciar recursos de cluster e notebook.
- Modelos de sessão: um modelo de sessão é uma configuração reutilizável que pode ser usada para definir sessões interativas. O modelo contém configurações de sessão, como propriedades do Spark e dependências de biblioteca. Você usa o modelo para criar ambientes de sessão interativa para desenvolvimento, normalmente em um notebook do Jupyter.
Serviços de metastore
O Serviço Gerenciado para Apache Spark oferece serviços gerenciados para processamento de metadados, que são os dados sobre seus dados.
- Metastore: um metastore atua como um catálogo central para o esquema de dados, como nomes de tabelas e colunas e tipos de dados. Um metastore permite que diferentes serviços, clusters e jobs entendam a estrutura dos seus dados. Normalmente, o catálogo é armazenado no Cloud Storage.
- Federação: a federação de metadados é um recurso avançado que permite acessar e consultar dados de vários metastores como se você estivesse acessando um único metastore unificado.
Ambientes de notebook e desenvolvimento
Os notebooks e IDEs do Serviço Gerenciado para Apache Spark são vinculados a ambientes de desenvolvimento integrados em que você pode escrever e executar seu código.
- BigQuery Studio e Workbench: são ambientes unificados de análise e notebook. Eles permitem escrever código (por exemplo, em um notebook do Jupyter) e usar um cluster do Serviço Gerenciado para Apache Spark ou uma sessão sem servidor como o mecanismo de back-end avançado para executar seu código em grandes conjuntos de dados.
- Plug-in do Serviço Gerenciado para Apache Spark JupyterLab: essa extensão oficial do JupyterLab atua como um painel de controle do Serviço Gerenciado para Apache Spark no ambiente do notebook. Ele simplifica seu fluxo de trabalho, permitindo navegar, criar e gerenciar clusters e enviar jobs sem sair da interface do Jupyter. Saiba mais
- Conector Python do Serviço Gerenciado para Apache Spark Connect: essa biblioteca Python simplifica o processo de uso do Spark Connect com o Serviço Gerenciado para Apache Spark. Ele processa a autenticação e a configuração do endpoint, simplificando muito a conexão do ambiente Python local, como um notebook ou IDE, a um cluster remoto do Serviço Gerenciado para Apache Spark para desenvolvimento interativo. Saiba mais
Personalização do ambiente
O Serviço Gerenciado para Apache Spark oferece ferramentas e componentes para personalizar seu ambiente de acordo com necessidades específicas. A seção "Utilitários" do Google Cloud console contém ferramentas úteis para personalizar o ambiente do Serviço Gerenciado para Apache Spark.