Questa pagina mostra come creare sessioni interattive e modelli di sessione Serverless per Apache Spark. Un modello di sessione può essere utilizzato per creare più sessioni interattive in base alla configurazione del modello di sessione.
Creare una sessione interattiva
Puoi utilizzare Google Cloud CLI o l'API Dataproc per creare una sessione interattiva Serverless per Apache Spark.
gcloud
Puoi utilizzare il
gcloud beta dataproc sessions create command SESSION_NAME per
creare una sessione interattiva Serverless per Apache Spark.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Sostituisci o aggiungi quanto segue:
SESSION_ID: obbligatorio. Un ID per la sessione.
REGION: obbligatorio. Una regione disponibile in cui localizzare la sessione.
--version: facoltativo. Una versione del runtime Spark supportata. Se non utilizzi questo flag per specificare una versione, viene utilizzata la versione del runtime Spark predefinita corrente.--container-image: Facoltativo. Un'immagine container personalizzata da utilizzare per la sessione.--property: facoltativo. Una o più proprietà Spark separate da virgole per la sessione.--service-account: facoltativo. Il service account da utilizzare per la sessione. Se non viene specificato, viene utilizzato il service account Compute Engine predefinito.--subnet: facoltativo. Il nome di una subnet nella regione della sessione. Se non viene specificato, Serverless per Apache Spark utilizza la subnetdefaultnella regione della sessione. Serverless per Apache Spark abilita l'accesso privato Google (PGA) nella subnet. Per i requisiti di connettività di rete, vedi Google Cloud Configurazione di rete di Serverless per Apache Spark.
REST
Puoi utilizzare l'API Dataproc
sessions.create
per creare una sessione interattiva Serverless per Apache Spark.
Note:
name: obbligatorio. Nome della sessione.version:facoltativo. Una delle versioni del runtime Spark supportate per la sessione. Se non specifichi una versione, viene utilizzata la versione predefinita corrente.containerImage: facoltativo. Un'immagine container personalizzata da utilizzare per la sessione.properties:facoltativo. Un mapping dei nomi delle proprietà della sessione ai valori. Vedi Proprietà Spark.serviceAccount: facoltativo. Il service account da utilizzare per eseguire la sessione. Se non viene specificato, viene utilizzato il service account Compute Engine predefinito.subnetworkUri:facoltativo. Il nome di una subnet nella regione della sessione. Se non viene specificato, Serverless per Apache Spark utilizza la subnetdefaultnella regione della sessione. Serverless per Apache Spark abilita l'accesso privato Google (PGA) nella subnet. Per i requisiti di connettività di rete, vedi Google Cloud Configurazione di rete di Serverless per Apache Spark.
Creare un modello di sessione
Un modello di sessione Serverless per Apache Spark definisce le impostazioni di configurazione per la creazione di una o più sessioni interattive Serverless per Apache Spark. Puoi utilizzare la Google Cloud console, gcloud CLI o l'API Dataproc per creare un modello di sessione Serverless per Apache Spark per una sessione Jupyter o Spark Connect sessione.
Console
Per creare un modello di sessione Serverless per Apache Spark utilizzando la Google Cloud console, completa i seguenti passaggi:
Nella Google Cloud console, vai alla pagina Modelli di sessione.
- Fai clic su Crea.
Nella pagina Crea modello di sessione, inserisci o conferma le impostazioni di configurazione del modello. Tieni presente quanto segue:
- ID runtime del modello: obbligatorio. Accetta l'ID (nome) predefinito o specifica un nome di runtime del modello.
- Regione: obbligatorio. Accetta la regione predefinita o specifica un a regione disponibile per le sessioni del modello.
- Versione del runtime: facoltativo. I runtime di sessione selezionabili corrispondono a
versioni del runtime Serverless per Apache Spark.
- Requisito per la sessione del notebook di BigQuery Studio: se stai creando un modello da utilizzare per le sessioni Spark Connect del notebook di BigQuery Studio, deve utilizzare la versione del runtime Spark 2.3 o successive.
- Tipo di configurazione del modello: obbligatorio. Seleziona un tipo. Se
selezioni
Jupyter, specifica il Nome visualizzato e seleziona il Tipo di kernel Jupyter. Vedi anche Avviare un notebook Jupyter su Serverless per Apache Spark.- Requisito per la sessione del notebook di BigQuery Studio: le sessioni del notebook di BigQuery Studio devono specificare Spark Connect come tipo di configurazione del modello.
- Service account: facoltativo. Il service account da utilizzare per eseguire le sessioni con modello. Se non viene specificato, viene utilizzato il service account Compute Engine predefinito.
- Immagine container personalizzata: facoltativo. Un' immagine container personalizzata da utilizzare per le sessioni con modello.
- Proprietà: facoltativo. Fai clic su Aggiungi elemento per ogni proprietà da impostare per le sessioni con modello. Per ulteriori informazioni, vedi Proprietà Spark.
- Configurazione di rete: * obbligatorio. Seleziona una subnet nella regione della sessione. Serverless per Apache Spark abilita l'accesso privato Google (PGA) nella subnet specificata. Per i requisiti di connettività di rete, vedi Google Cloud Configurazione di rete di Serverless per Apache Spark.
Fai clic su Invia per creare il modello di sessione.
gcloud
Non puoi creare direttamente un modello di sessione Serverless per Apache Spark utilizzando la
gcloud CLI, ma puoi utilizzare il gcloud beta dataproc session-templates import
comando per importare un modello di sessione esistente. Puoi modificare il modello importato,
e poi esportarlo utilizzando il gcloud beta dataproc session-templates export comando.
REST
Puoi utilizzare l'API Dataproc
sessionTemplates.create
per creare un modello di sessione Serverless per Apache Spark.
Note:
name: obbligatorio. Nome del modello di sessione.version:facoltativo. Una delle versioni del runtime Spark supportate per le sessioni con modello. Se non specifichi una versione, viene utilizzata la versione predefinita.- Requisito per la sessione del notebook di BigQuery Studio: se stai creando un modello da utilizzare per le sessioni Spark Connect del notebook di BigQuery Studio, deve utilizzare la versione del runtime Spark 2.3 o successive.
sessionConfig: specificajupyter_sessionospark_connect_session. Se specifichijupyter_session, specifica ancheJupyterConfig.display_nameeJupyterConfig.kernel. Vedi anche Avviare un notebook Jupyter su Serverless per Apache Spark.- Requisito per la sessione del notebook di BigQuery Studio: le sessioni del notebook di BigQuery Studio devono specificare Spark Connect come tipo di configurazione del modello.
containerImage: facoltativo. Un'immagine container personalizzata da utilizzare per le sessioni con modello.properties:facoltativo. Un mapping dei nomi delle proprietà della sessione ai valori. Vedi Proprietà Spark.serviceAccount: facoltativo. Un service account da utilizzare per eseguire le sessioni con modello. Se non viene specificato, viene utilizzato il service account Compute Engine predefinito.subnetworkUri:facoltativo. Il nome di una subnet nella regione della sessione. Se non viene specificato, Serverless per Apache Spark utilizza la subnetdefaultnella regione della sessione. Serverless per Apache Spark abilita l'accesso privato Google (PGA) nella subnet. Per i requisiti di connettività di rete, vedi Google Cloud Configurazione di rete di Serverless per Apache Spark.