"Serviço gerenciado para Apache Spark" é o novo nome do produto antes conhecido como "Dataproc no Compute Engine" (implantação de cluster) e "Google Cloud Serverless para Apache Spark" (implantação sem servidor).

Visão geral da implantação sem servidor do Managed Service for Apache Spark

A implantação sem servidor do Serviço Gerenciado para Apache Spark permite executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Serviço Gerenciado para Apache Spark. Há duas maneiras de executar cargas de trabalho do Serviço Gerenciado para Apache Spark: cargas de trabalho em lote e sessões interativas.

Cargas de trabalho em lote

Envie uma carga de trabalho em lote usando o Google Cloud console, a Google Cloud CLI ou a API REST. O Serviço Gerenciado para Apache Spark executa a carga de trabalho em uma infraestrutura de computação gerenciada, com o escalonamento automático de recursos conforme necessário. As cobranças são aplicadas somente ao momento em que a carga de trabalho está em execução.

Recursos de carga de trabalho em lote

É possível executar os seguintes tipos de carga de trabalho em lote:

PySpark
Spark SQL
Spark R
Spark (Java ou Scala)

É possível especificar as propriedades do Spark ao enviar uma carga de trabalho em lote.

Programar cargas de trabalho em lote

É possível programar uma carga de trabalho em lote do Spark como parte de um Airflow ou do Serviço Gerenciado para Apache Airflow usando um operador de lote do Airflow. Para mais informações, consulte Executar cargas de trabalho do Serviço Gerenciado para Apache Spark com o Airflow gerenciado.

Primeiros passos

Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

Sessões interativas

Escreva e execute códigos em notebooks do Jupyter durante uma sessão interativa. É possível criar uma sessão de notebook das seguintes maneiras:

Executar código PySpark em notebooks do BigQuery Studio. Abra um notebook do Python do BigQuery para criar uma sessão interativa do Serviço Gerenciado para Apache Spark com base no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Serviço Gerenciado para Apache Spark associada a ele.
Use o plug-in do JupyterLab para criar várias sessões de notebook do Jupyter com base em modelos criados e gerenciados. Ao instalar o plug-in em uma máquina local ou VM do Compute Engine, diferentes cards que correspondem a configurações de kernel do Spark aparecem na página do inicializador do JupyterLab. Clique em um card para criar uma sessão de notebook do Serviço Gerenciado para Apache Spark e comece a escrever e testar o código no notebook.

O plug-in do JupyterLab também permite usar a página do inicializador do JupyterLab para realizar as seguintes ações:
- Criar clusters do Serviço Gerenciado para Apache Spark.
- Enviar jobs para clusters.
- Visualizar registros do Spark. Google Cloud

Compliance da segurança

O Serviço Gerenciado para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC, e outros requisitos de segurança com que o Serviço Gerenciado para Apache Spark está em conformidade.

Visão geral da implantação sem servidor do Managed Service for Apache Spark Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.