Scopri come addestrare i modelli di AI e ML nell'estensione Google Cloud Data Agent Kit per Visual Studio Code.
In questa guida rapida, utilizzerai un modello di sessione e un notebook Jupyter di esempio per prevedere gli importi delle mance dei taxi di New York. Utilizzando un kernel Jupyter remoto con PySpark, proverai vari modelli come la regressione lineare, la foresta casuale e XGBoost. Questo processo ti consente di eseguire l'addestramento e l'inferenza distribuiti. Dimostra la scalabilità su più macchine utilizzando Spark ML e la libreria XGBoost.
Sebbene non sia trattato in questa guida rapida, esistono diversi modi per addestrare i modelli di AI e ML utilizzando l'estensione Google Cloud Data Agent Kit per Visual Studio Code:
- Se il set di dati di addestramento è di grandi dimensioni o se vuoi utilizzare le funzionalità di addestramento distribuito offerte da Apache Spark, puoi utilizzare i notebook Spark con kernel remoti.
- Se il set di dati si trova in BigQuery e BigQuery ML supporta il tuo caso d'uso, puoi utilizzare un notebook BigQuery DataFrames.
- Se il set di dati è di piccole dimensioni e vuoi addestrare il modello localmente, puoi utilizzare un notebook Python.
Prima di iniziare
Prima di iniziare, segui questi passaggi:
- Installa l'estensione.
- Configura le impostazioni dell'estensione.
- Consulta le indicazioni riportate in Trovare ed esplorare i dati.
Creare un modello di runtime Spark
I modelli di runtime Spark serverless consentono di avviare una sessione Apache Spark con un determinato set di configurazioni. Per creare un nuovo modello di runtime serverless, completa i seguenti passaggi:
- Nella barra delle attività dell'IDE, fai clic sull'icona Google Cloud Data Agent Kit.
- Nel menu Google Cloud Data Agent Kit, espandi Apache Spark.
- Espandi Serverless e fai clic su + Crea runtime serverless. Viene visualizzato un modulo di creazione del runtime serverless.
- Nel campo Nome visualizzato, inserisci
ai-ml-tutorial. - Vai alla sezione Scalabilità automatica.
- Imposta
spark.dynamicAllocation.enabledsu false nell'elenco a discesa. Questa impostazione è necessaria per il funzionamento di XGBoost con Apache Spark. - Lascia tutti gli altri campi impostati sui valori predefiniti.
- Fai clic su Invia.
Crea un nuovo notebook
Poi, crea un nuovo notebook Spark:
- In Apache Spark nella scheda Google Cloud Data Agent Kit, fai clic su + Nuovo Spark Notebook.
- Scegli Kernel remoto per il tipo di kernel.
- Fai clic su Inizia con un notebook di esempio.
- Nell'elenco degli esempi, seleziona Data Science with PySpark and Distributed XGBoost. Viene visualizzato un notebook Jupyter senza titolo.
Addestra il modello
- Nella scheda del notebook, fai clic su Esegui tutto. Il selettore del kernel ti chiede di selezionare un kernel con cui eseguire il notebook.
- Fai clic su Seleziona un altro kernel.
- Fai clic su Kernel Spark remoti.
- Seleziona ai-ml-tutorial su Spark serverless, il modello di runtime che hai creato in precedenza.
Mentre il sistema crea la sessione Spark serverless, viene visualizzata la seguente notifica: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando il notebook si connette al kernel PySpark remoto, l'esecuzione inizia dalla prima cella. Questo processo richiede circa 2-3 minuti.
Esaminare la sessione Spark
- Nella scheda Google Cloud Data Agent Kit, in Apache Spark, espandi il modello di runtime ai-ml-tutorial. L'IDE visualizza l'elenco delle sessioni interattive che hai creato con questo modello di runtime.
- Individua la sessione creata dal sistema eseguendo il notebook nella parte superiore dell'elenco. Fai clic sulla sessione per visualizzarne i dettagli. Puoi esaminare la configurazione della sessione e le risorse utilizzate dal sistema per eseguire il notebook.
Libera spazio
Dopo aver eseguito correttamente il notebook, segui questi passaggi per la pulizia.
- Nella scheda Google Cloud Data Agent Kit, in Apache Spark, fai clic con il tasto destro del mouse su Serverless e seleziona Elenca runtime serverless. Viene visualizzato l'elenco dei runtime serverless.
- Fai clic sul menu Azione per
ai-ml-tutorialper elencare tutte le sessioni interattive create dal sistema dal tuo modello. - In Azioni, fai clic su Elimina.
- Torna alla finestra Runtime serverless.
- In Azioni per
ai-ml-tutorial, fai clic su Elimina. - Fai clic su Conferma per eliminare il modello creato per questo tutorial.