Scopri come addestrare modelli di AI e ML nell'estensione Google Cloud Data Agent Kit per Visual Studio Code.
In questa guida rapida, utilizzerai un modello di sessione e un notebook Jupyter di esempio per prevedere gli importi delle mance dei taxi di New York. Utilizzando un kernel Jupyter remoto con PySpark, provi vari modelli come regressione lineare, foresta casuale e XGBoost. Questo processo ti consente di eseguire l'addestramento e l'inferenza distribuiti. Mostra la scalabilità su più macchine utilizzando Spark ML e la libreria XGBoost.
Sebbene non trattati in questa guida rapida, esistono diversi modi per addestrare modelli di AI e ML utilizzando l'estensione Google Cloud Data Agent Kit per Visual Studio Code:
- Se il set di dati di addestramento è di grandi dimensioni o vuoi utilizzare le funzionalità di addestramento distribuito offerte da Apache Spark, puoi utilizzare i notebook Spark con kernel remoti.
- Se il tuo set di dati si trova in BigQuery e BigQuery ML supporta il tuo caso d'uso, puoi utilizzare un notebook BigQuery DataFrames.
- Se il tuo set di dati è piccolo e vuoi addestrare il modello localmente, puoi utilizzare un notebook Python.
Crea un modello di runtime Spark
I modelli di runtime Spark serverless consentono di avviare una sessione Apache Spark con un determinato insieme di configurazioni. Per creare un nuovo modello di runtime serverless, completa i seguenti passaggi:
- Nella barra delle attività dell'IDE, fai clic sull'icona Google Cloud Data Agent Kit.
- Nel menu Google Cloud Data Agent Kit, espandi Apache Spark.
- Espandi Serverless e fai clic su + Crea runtime serverless. Viene visualizzato un modulo di creazione di Serverless Runtime.
- Nel campo Nome visualizzato, inserisci
ai-ml-tutorial. - Vai alla sezione Scalabilità automatica.
- Imposta
spark.dynamicAllocation.enabledsu false nell'elenco a discesa. Questa impostazione è necessaria per il funzionamento di XGBoost con Apache Spark. - Lascia invariati i valori predefiniti di tutti gli altri campi.
- Fai clic su Invia.
Crea un nuovo notebook
Successivamente, crea un nuovo notebook Spark:
- In Apache Spark nella scheda Google Cloud Data Agent Kit, fai clic su + Nuovo notebook Spark.
- Scegli Kernel remoto per il tipo di kernel.
- Fai clic su Inizia con un notebook di esempio.
- Nell'elenco degli esempi, seleziona Data Science con PySpark e XGBoost distribuito. Viene visualizzato un notebook Jupyter senza titolo.
Addestra il modello
- Nella scheda del blocco note, fai clic su Esegui tutto. Il selettore del kernel ti chiede di selezionare un kernel con cui eseguire il notebook.
- Fai clic su Seleziona un altro kernel.
- Fai clic su Kernel Spark remoti.
- Seleziona ai-ml-tutorial on Serverless Spark, il modello Runtime che hai creato in precedenza.
Mentre il sistema crea la sessione Serverless
Spark, viene visualizzata la seguente notifica: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando
il notebook si connette al kernel PySpark remoto, l'esecuzione inizia dalla
prima cella. Questo processo richiede circa 2-3 minuti.
Controllare la sessione Spark
- Nella scheda Google Cloud Data Agent Kit, in Apache Spark, espandi il modello di runtime ai-ml-tutorial. L'IDE mostra l'elenco delle sessioni interattive che hai creato con questo modello di runtime.
- Individua la sessione creata dal sistema eseguendo il notebook nella parte superiore dell'elenco. Fai clic sulla sessione per visualizzarne i dettagli. Puoi esaminare la configurazione della sessione e le risorse utilizzate dal sistema per eseguire il notebook.
Esegui la pulizia
Dopo aver eseguito correttamente il notebook, esegui i seguenti passaggi di pulizia.
- Nella scheda Google Cloud Data Agent Kit, in Apache Spark, fai clic con il tasto destro del mouse su Serverless e seleziona Elenca runtime serverless. Viene visualizzato l'elenco dei runtime serverless.
- Fai clic sul menu Azione per
ai-ml-tutorialper elencare tutte le sessioni interattive che il sistema ha creato dal tuo modello. - Nella sezione Azioni, fai clic su Elimina.
- Torna alla finestra Serverless Runtimes.
- Nella sezione Azioni per
ai-ml-tutorial, fai clic su Elimina. - Fai clic su Conferma per eliminare il modello che hai creato per questo tutorial.