A implantação sem servidor do Serviço Gerenciado para Apache Spark permite executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Serviço Gerenciado para Apache Spark. Há duas maneiras de executar cargas de trabalho do Serviço Gerenciado para Apache Spark: cargas de trabalho em lote e sessões interativas.
Cargas de trabalho em lote
Envie uma carga de trabalho em lote usando o Google Cloud console, a Google Cloud CLI ou a API REST. O Serviço Gerenciado para Apache Spark executa a carga de trabalho em uma infraestrutura de computação gerenciada, com o escalonamento automático de recursos conforme necessário. As cobranças são aplicadas somente ao momento em que a carga de trabalho está em execução.
Recursos de carga de trabalho em lote
É possível executar os seguintes tipos de carga de trabalho em lote:
- PySpark
- Spark SQL
- Spark R
- Spark (Java ou Scala)
É possível especificar as propriedades do Spark ao enviar uma carga de trabalho em lote.
Programar cargas de trabalho em lote
É possível programar uma carga de trabalho em lote do Spark como parte de um Airflow ou do Serviço Gerenciado para Apache Airflow usando um operador de lote do Airflow. Para mais informações, consulte Executar cargas de trabalho do Serviço Gerenciado para Apache Spark com o Airflow gerenciado.
Primeiros passos
Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.
Sessões interativas
Escreva e execute códigos em notebooks do Jupyter durante uma sessão interativa. É possível criar uma sessão de notebook das seguintes maneiras:
Executar código PySpark em notebooks do BigQuery Studio. Abra um notebook do Python do BigQuery para criar uma sessão interativa do Serviço Gerenciado para Apache Spark com base no Spark Connect. Cada notebook do BigQuery pode ter apenas uma sessão ativa do Serviço Gerenciado para Apache Spark associada a ele.
Use o plug-in do JupyterLab para criar várias sessões de notebook do Jupyter com base em modelos criados e gerenciados. Ao instalar o plug-in em uma máquina local ou VM do Compute Engine, diferentes cards que correspondem a configurações de kernel do Spark aparecem na página do inicializador do JupyterLab. Clique em um card para criar uma sessão de notebook do Serviço Gerenciado para Apache Spark e comece a escrever e testar o código no notebook.
O plug-in do JupyterLab também permite usar a página do inicializador do JupyterLab para realizar as seguintes ações:
- Criar clusters do Serviço Gerenciado para Apache Spark.
- Enviar jobs para clusters.
- Visualizar registros do Spark. Google Cloud
Compliance da segurança
O Serviço Gerenciado para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC, e outros requisitos de segurança com que o Serviço Gerenciado para Apache Spark está em conformidade.