Visão geral do Serverless para Apache Spark

Google Cloud O Serverless para Apache Spark permite executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Serverless para Apache Spark: cargas de trabalho em lote e sessões interativas.

Cargas de trabalho em lote

Envie uma carga de trabalho em lote para o serviço Serverless para Apache Spark usando o Google Cloud console, a CLI do Google Cloud ou a API Dataproc. O serviço executa a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático dos recursos conforme necessário. As cobranças do Serverless para Apache Spark se aplicam somente ao momento em que a carga de trabalho está em execução.

Recursos de carga de trabalho em lote

É possível executar os seguintes tipos de carga de trabalho em lote do Serverless para Apache Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

É possível especificar as propriedades do Spark ao enviar uma carga de trabalho em lote do Serverless para Apache Spark.

Programar cargas de trabalho em lote

É possível programar uma carga de trabalho em lote do Spark como parte de um Airflow ou do Cloud Composer usando um operador em lote do Airflow. Para mais informações, consulte Executar cargas de trabalho do Serverless para Apache Spark com o Cloud Composer.

Primeiros passos

Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

Sessões interativas

Escreva e execute códigos em notebooks do Jupyter durante uma sessão interativa do Serverless para Apache Spark. É possível criar uma sessão de notebook das seguintes maneiras:

  • Executar código PySpark em notebooks do BigQuery Studio. Abra um notebook do Python do BigQuery para criar uma sessão interativa do Serverless para Apache Spark baseada no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Serverless para Apache Spark associada a ele.

  • Use o plug-in do Dataproc JupyterLab para criar várias sessões de notebook do Jupyter com base em modelos criados e gerenciados. Ao instalar o plug-in em uma máquina local ou VM do Compute Engine, diferentes cards que correspondem a configurações de kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Serverless para Apache Spark e comece a escrever e testar o código no notebook.

    O plug-in do Dataproc JupyterLab também permite usar a página de inicialização do JupyterLab para realizar as seguintes ações:

    • Criar clusters do Dataproc no Compute Engine.
    • Enviar jobs para clusters do Dataproc no Compute Engine.
    • Visualizar Google Cloud registros do Spark.

Compliance da segurança

O Serverless para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC, e outros requisitos de segurança com que o Dataproc está em conformidade.