Google Cloud Serverless per Apache Spark consente di eseguire workload Spark senza richiedere il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire i workload Serverless per Apache Spark: workload batch e sessioni interattive.
Workload batch
Invia un workload batch al servizio Serverless per Apache Spark utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc. Il servizio esegue il workload su un'infrastruttura di calcolo gestita, scalando le risorse in base alle esigenze. I costi di Serverless per Apache Spark si applicano solo al periodo di esecuzione del workload.
Funzionalità dei workload batch
Puoi eseguire i seguenti tipi di workload batch Serverless per Apache Spark:
- PySpark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puoi specificare le proprietà Spark quando invii un workload batch Serverless per Apache Spark.
Pianifica i workload batch
Puoi pianificare un carico di lavoro batch Spark nell'ambito di un flusso di lavoro Airflow o Cloud Composer utilizzando un operatore batch Airflow. Per maggiori informazioni, vedi Esegui carichi di lavoro Serverless per Apache Spark con Cloud Composer.
Inizia
Per iniziare, vedi Esegui un workload batch Apache Spark.
Sessioni interattive
Scrivi ed esegui codice nei notebook Jupyter durante una sessione interattiva di Serverless per Apache Spark. Puoi creare una sessione del notebook nei seguenti modi:
Esegui il codice PySpark nei notebook di BigQuery Studio. Apri un notebook Python BigQuery per creare una sessione interattiva Serverless per Apache Spark basata su Spark Connect. A ogni notebook BigQuery può essere associata una sola sessione Serverless per Apache Spark attiva.
Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni del notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del notebook Serverless per Apache Spark, poi inizia a scrivere e testare il codice nel notebook.
Il plug-in JupyterLab di Dataproc ti consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Dataproc su Compute Engine.
- Invia job ai cluster Dataproc su Compute Engine.
- Visualizza i log Google Cloud e Spark.
Conformità ai requisiti di sicurezza
Serverless per Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza a cui Dataproc è conforme.