Vista geral do Apache Spark sem servidor

Google Cloud O Serverless para Apache Spark permite-lhe executar cargas de trabalho do Spark sem ter de aprovisionar e gerir o seu próprio cluster do Dataproc. Existem duas formas de executar cargas de trabalho do Serverless para Apache Spark: cargas de trabalho em lote e sessões interativas.

Cargas de trabalho em lote

Envie uma carga de trabalho em lote para o serviço Serverless para Apache Spark através da Google Cloud consola, da CLI do Google Cloud ou da API Dataproc. O serviço executa a carga de trabalho numa infraestrutura de computação gerida, escalando automaticamente os recursos conforme necessário. As cobranças do Serverless para Apache Spark aplicam-se apenas ao tempo em que a carga de trabalho está a ser executada.

Capacidades de carga de trabalho em lote

Pode executar os seguintes tipos de cargas de trabalho em lote do Serverless para Apache Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

Pode especificar propriedades do Spark quando envia uma carga de trabalho em lote sem servidor para o Apache Spark.

Agende cargas de trabalho em lote

Pode agendar uma carga de trabalho em lote do Spark como parte de um fluxo de trabalho do Airflow ou do Cloud Composer através de um operador em lote do Airflow. Para mais informações, consulte o artigo Execute cargas de trabalho sem servidor para Apache Spark com o Cloud Composer.

Começar

Para começar, consulte o artigo Execute uma carga de trabalho em lote do Apache Spark.

Sessões interativas

Escrever e executar código em blocos de notas do Jupyter durante uma sessão interativa do Serverless para Apache Spark. Pode criar uma sessão do bloco de notas das seguintes formas:

  • Execute código PySpark nos blocos de notas do BigQuery Studio. Abra um bloco de notas Python do BigQuery para criar uma sessão interativa sem servidor para Apache Spark baseada no Spark Connect. Cada bloco de notas do BigQuery só pode ter uma sessão do Serverless para Apache Spark ativa associada.

  • Use o plug-in Dataproc JupyterLab para criar várias sessões do bloco de notas Jupyter a partir de modelos que cria e gere. Quando instala o plug-in numa máquina local ou numa VM do Compute Engine, são apresentados diferentes cartões que correspondem a diferentes configurações do kernel do Spark na página do Launcher do JupyterLab. Clique num cartão para criar uma sessão de bloco de notas do Serverless for Apache Spark e, de seguida, comece a escrever e testar o seu código no bloco de notas.

    O plug-in Dataproc JupyterLab também lhe permite usar a página de lançamento do JupyterLab para realizar as seguintes ações:

    • Crie clusters do Dataproc no Compute Engine.
    • Envie tarefas para o Dataproc em clusters do Compute Engine.
    • Veja os registos Google Cloud e do Spark.

Conformidade de segurança

O Serverless para Apache Spark cumpre todos os requisitos de residência de dados, CMEK, VPC-SC> e outros requisitos de segurança com os quais o Dataproc está em conformidade.