"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica di Managed Service for Apache Spark serverless

Managed Service for Apache Spark serverless ti consente di eseguire workload Spark senza richiedere il provisioning e la gestione del tuo cluster. Esistono due modi per eseguire i workload di Managed Service for Apache Spark: batch e sessioni interattive.

Workload batch

Invia un carico di lavoro batch utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API REST. Managed Service for Apache Spark esegue il workload su un'infrastruttura di calcolo gestita, scalando automaticamente le risorse in base alle esigenze. Gli addebiti si applicano solo al periodo di esecuzione del workload.

Funzionalità del workload batch

Puoi eseguire i seguenti tipi di carichi di lavoro batch:

PySpark
Spark SQL
Spark R
Spark (Java o Scala)

Puoi specificare le proprietà Spark quando invii un carico di lavoro batch.

Pianifica i workload batch

Puoi pianificare un workload batch Spark nell'ambito di un workflow Airflow o Managed Service for Apache Airflow utilizzando un operatore batch Airflow. Per maggiori informazioni, vedi Esegui carichi di lavoro serverless Managed Service for Apache Spark con Managed Airflow.

Inizia

Per iniziare, consulta Esegui un workload batch Apache Spark.

Sessioni interattive

Scrivi ed esegui codice nei notebook Jupyter durante una sessione interattiva. Puoi creare una sessione del notebook nei seguenti modi:

Esegui il codice PySpark nei notebook di BigQuery Studio. Apri un notebook Python BigQuery per creare una sessione interattiva basata su Spark Connect. A ogni notebook BigQuery può essere associata una sola sessione attiva.
Utilizza il plug-in JupyterLab per creare più sessioni del notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del notebook Managed Service for Apache Spark, quindi inizia a scrivere e testare il codice nel notebook.

Il plug-in JupyterLab ti consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Managed Service for Apache Spark.
- Inviare job ai cluster.
- Visualizza i log Google Cloud e Spark.
Utilizza Google Cloud Data Agent Kit per VS Code per gestire l'intero ciclo di vita del carico di lavoro dei dati all'interno dell'IDE. Data Agent Kit fornisce il supporto di Data Cloud per Managed Service for Apache Spark, consentendoti di sviluppare codice, creare sessioni interattive e creare pipeline direttamente da VS Code.

Conformità ai requisiti di sicurezza

Managed Service for Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza a cui Managed Service for Apache Spark è conforme.

Panoramica di Managed Service for Apache Spark serverless Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.