Il deployment serverless di Managed Service for Apache Spark consente di eseguire workload Spark senza dover eseguire il provisioning e gestire il tuo cluster Managed Service for Apache Spark. Esistono due modi per eseguire i workload di Managed Service for Apache Spark: workload batch e sessioni interattive.
Workload batch
Invia un workload batch utilizzando la Google Cloud console, Google Cloud CLI o l'API REST. Managed Service for Apache Spark esegue il carico di lavoro su un'infrastruttura di calcolo gestita, scalando automaticamente le risorse in base alle esigenze. Gli addebiti si applicano solo al periodo di esecuzione del workload.
Funzionalità dei workload batch
Puoi eseguire i seguenti tipi di workload batch:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puoi specificare le proprietà di Spark quando invii un workload batch.
Pianificare i workload batch
Puoi pianificare un workload batch Spark come parte di un Airflow o Managed Service for Apache Airflow utilizzando un operatore batch Airflow. Per saperne di più, consulta Eseguire workload Managed Service for Apache Spark con Managed Airflow.
Inizia
Per iniziare, consulta Eseguire un workload batch Apache Spark.
Sessioni interattive
Scrivi ed esegui il codice nei notebook Jupyter durante una sessione interattiva. Puoi creare una sessione di notebook nei seguenti modi:
Esegui il codice PySpark nei notebook di BigQuery Studio. Apri un notebook Python di BigQuery per creare una sessione interattiva di Managed Service for Apache Spark basata su Spark Connect. Ogni notebook BigQuery può avere associata una sola sessione di Managed Service for Apache Spark attiva.
Utilizza il plug-in JupyterLab per creare più sessioni di notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede che corrispondono a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione di notebook Managed Service for Apache Spark, quindi inizia a scrivere e testare il codice nel notebook.
Il plug-in JupyterLab consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Managed Service for Apache Spark.
- Invia job ai cluster.
- Visualizza i log di Spark. Google Cloud
Conformità ai requisiti di sicurezza
Managed Service for Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC, e altri requisiti di sicurezza con cui Managed Service for Apache Spark è conforme.