Com a implantação sem servidor do Managed Service for Apache Spark, é possível executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Managed Service for Apache Spark. Há duas maneiras de executar cargas de trabalho do Managed Service for Apache Spark: em lote e em sessões interativas.
Cargas de trabalho em lote
Envie uma carga de trabalho em lote usando o console doGoogle Cloud , a Google Cloud CLI ou a API REST. O Managed Service para Apache Spark executa a carga de trabalho em uma infraestrutura de computação gerenciada, escalonando automaticamente os recursos conforme necessário. As cobranças se aplicam somente ao momento em que a carga de trabalho está em execução.
Recursos de carga de trabalho em lote
É possível executar os seguintes tipos de carga de trabalho em lote:
- PySpark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote.
Programar cargas de trabalho em lote
É possível programar uma carga de trabalho em lote do Spark como parte de um fluxo de trabalho do Airflow ou do Cloud Composer usando um operador em lote do Airflow. Para mais informações, consulte Executar cargas de trabalho do Managed Service para Apache Spark com o Cloud Composer.
Primeiros passos
Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.
Sessões interativas
Escrever e executar código em notebooks Jupyter durante uma sessão interativa. É possível criar uma sessão de notebook das seguintes maneiras:
Executar código PySpark em notebooks do BigQuery Studio. Abra um notebook Python do BigQuery para criar uma sessão interativa do Managed Service para Apache Spark baseada no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Managed Service para Apache Spark associada a ele.
Use o plug-in do JupyterLab para criar várias sessões de notebook Jupyter com base em modelos que você cria e gerencia. Ao instalar o plug-in em uma máquina local ou em uma VM do Compute Engine, diferentes cards correspondentes a diferentes configurações de kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Managed Service para Apache Spark e comece a escrever e testar seu código no notebook.
O plug-in do JupyterLab também permite usar a página de inicialização do JupyterLab para realizar as seguintes ações:
- Criar clusters do Managed Service for Apache Spark.
- Enviar jobs para clusters.
- Ver Google Cloud e registros do Spark.
Compliance da segurança
O Managed Service for Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança.