Google Cloud O Serverless para Apache Spark permite executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Serverless para Apache Spark: cargas de trabalho em lote e sessões interativas.
Cargas de trabalho em lote
Envie uma carga de trabalho em lote para o serviço Serverless para Apache Spark usando o consoleGoogle Cloud , Google Cloud CLI ou a API Dataproc. O serviço executa a carga de trabalho em uma infraestrutura de computação gerenciada, com escalonamento automático de recursos conforme necessário. As cobranças do Serverless para Apache Spark se aplicam somente ao momento em que a carga de trabalho está em execução.
Recursos de carga de trabalho em lote
É possível executar os seguintes tipos de carga de trabalho em lote do Serverless para Apache Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Serverless para Apache Spark.
Programar cargas de trabalho em lote
É possível programar uma carga de trabalho em lote do Spark como parte de um fluxo de trabalho do Airflow ou do Cloud Composer usando um operador em lote do Airflow. Para mais informações, consulte Executar cargas de trabalho do Serverless para Apache Spark com o Cloud Composer.
Primeiros passos
Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.
Sessões interativas
Escreva e execute código em notebooks do Jupyter durante uma sessão interativa do Serverless para Apache Spark. É possível criar uma sessão de notebook das seguintes maneiras:
Executar código PySpark em notebooks do BigQuery Studio. Abra um notebook Python do BigQuery para criar uma sessão interativa do Serverless para Apache Spark baseada no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Serverless para Apache Spark associada a ele.
Use o plug-in do Dataproc JupyterLab para criar várias sessões de notebook do Jupyter com base em modelos que você cria e gerencia. Ao instalar o plug-in em uma máquina local ou em uma VM do Compute Engine, diferentes cards correspondentes a diferentes configurações de kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Serverless para Apache Spark e comece a escrever e testar seu código no notebook.
O plug-in do JupyterLab para Dataproc também permite usar a página de início do JupyterLab para realizar as seguintes ações:
- Crie clusters do Dataproc no Compute Engine.
- Envie jobs para clusters do Dataproc no Compute Engine.
- Ver Google Cloud e registros do Spark.
Compliance da segurança
O Serverless para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança que o Dataproc atende.