Este documento explica os principais conceitos, elementos básicos, recursos principais e benefícios do Serviço Gerenciado para Apache Spark. Entender esses fundamentos ajuda você a usar o Serviço Gerenciado para Apache Spark de maneira eficaz nas suas tarefas de processamento de dados.
O modelo sem servidor
O Serviço Gerenciado para Apache Spark sem servidor é o modelo moderno e de execução automatizada do Serviço Gerenciado para Apache Spark. Ele permite executar jobs sem provisionar, gerenciar ou escalonar a infraestrutura subjacente. O Serviço Gerenciado para Apache Spark cuida dos detalhes para você.
- Lotes: um lote (também chamado de carga de trabalho em lote) é o equivalente sem servidor de um job do Serviço Gerenciado para Apache Spark. Você envia seu código, como um job do Spark, para o serviço. O Serviço Gerenciado para Apache Spark provisiona os recursos necessários sob demanda, executa o job e os encerra. Você não cria nem gerencia recursos de cluster ou job. O serviço faz o trabalho para você.
- Sessões interativas: as sessões interativas oferecem um ambiente ativo e sob demanda para análise de dados exploratória, normalmente em um notebook do Jupyter. As sessões interativas oferecem a conveniência de um espaço de trabalho temporário e sem servidor que pode ser usado para executar consultas e desenvolver códigos sem precisar provisionar e gerenciar recursos de cluster e notebook.
- Modelos de sessão: um modelo de sessão é uma configuração reutilizável que pode ser usada para definir sessões interativas. O modelo contém configurações de sessão, como propriedades do Spark e dependências de biblioteca. Você usa o modelo para criar ambientes de sessão interativa para desenvolvimento, normalmente em um notebook do Jupyter.
O modelo baseado em clusters
O Serviço Gerenciado para Apache Spark em clusters é a maneira padrão e centrada na infraestrutura de usar o Serviço Gerenciado para Apache Spark. Ele oferece controle total sobre um conjunto dedicado de máquinas virtuais para suas tarefas de processamento de dados.
- Clusters: um cluster é seu mecanismo pessoal de processamento de dados, composto de Google Cloud máquinas virtuais. Você cria um cluster para executar frameworks de código aberto, como o Apache Spark e o Apache Hadoop. Você tem controle total sobre o tamanho do cluster, os tipos de máquina e a configuração.
- Jobs: um job é uma tarefa específica, como um script PySpark ou uma consulta Hadoop. Em vez de executar um job diretamente em um cluster, você o envia para o Serviço Gerenciado para Apache Spark, que gerencia a execução do job para você. É possível enviar vários jobs para o cluster.
- Modelos de fluxo de trabalho: um modelo de fluxo de trabalho é uma definição reutilizável que orquestra uma série de jobs (um fluxo de trabalho). Ele pode definir dependências entre jobs, por exemplo, para executar um job de machine learning somente depois que um job de limpeza de dados for concluído. O fluxo de trabalho com modelo pode ser executado em um cluster atual ou em um cluster temporário (efêmero) criado para executar o fluxo de trabalho e excluído após a conclusão. Você pode usar o modelo para executar o fluxo de trabalho definido sempre que necessário.
- Políticas de escalonamento automático: uma política de escalonamento automático contém regras definidas para adicionar ou remover máquinas de worker de um cluster com base na carga de trabalho do cluster para otimizar dinamicamente o custo e a performance do cluster.
Personalização do ambiente
O Serviço Gerenciado para Apache Spark em clusters oferece recursos e componentes de cluster que podem ser usados para personalizar o ambiente do aplicativo.
Ambientes de notebook e desenvolvimento
Os notebooks e IDEs do Serviço Gerenciado para Apache Spark sem servidor são vinculados a ambientes de desenvolvimento integrados em que você pode escrever e executar seu código.
- BigQuery Studio e Workbench: são ambientes unificados de análise e notebook. Eles permitem escrever código (por exemplo, em um notebook do Jupyter) e usar um cluster do Serviço Gerenciado para Apache Spark ou uma sessão sem servidor como o mecanismo de back-end avançado para executar o código em grandes conjuntos de dados.
- Plug-in do Serviço Gerenciado para Apache Spark JupyterLab: essa
JupyterLabextensionoficial funciona como um painel de controle para o Serviço Gerenciado para Apache Spark sem servidor no ambiente do notebook. Ele simplifica o fluxo de trabalho, permitindo navegar, criar e gerenciar clusters e enviar jobs sem sair da interface do Jupyter. - Conector Python do Serviço Gerenciado para Apache Spark Connect: essa biblioteca Python simplifica o processo de uso do Spark Connect com o Serviço Gerenciado para Apache Spark. Ele processa a autenticação e a configuração do endpoint, simplificando muito a conexão do ambiente Python local, como um notebook ou IDE, a um cluster remoto do Serviço Gerenciado para Apache Spark para desenvolvimento interativo.
O modelo de contêiner
O Serviço Gerenciado para Apache Spark no Google Kubernetes Engine implanta clusters virtuais do Serviço Gerenciado para Apache Spark em um cluster do GKE. Ao contrário dos clusters do Serviço Gerenciado para Apache Spark, os clusters virtuais do Serviço Gerenciado para Apache Spark não provisionam VMs principais e de worker separadas. Em vez disso, eles provisionam pools de nós em um cluster do GKE. Os jobs do Serviço Gerenciado para Apache Spark no GKE são executados como pods nesses pools de nós. Os pools de nós e o agendamento de pods nos pools de nós são gerenciados pelo Serviço Gerenciado para Apache Spark no GKE.