Addestrare modelli di AI e ML

Scopri come addestrare modelli di AI e ML nell'estensione Google Cloud Data Agent Kit per Antigravity.

In questa guida rapida, utilizzerai un modello di sessione e un notebook Jupyter di esempio per prevedere gli importi delle mance dei taxi di New York. Utilizzando un kernel Jupyter remoto con PySpark, provi vari modelli come regressione lineare, foresta casuale e XGBoost. Questo processo ti consente di eseguire l'addestramento e l'inferenza distribuiti. Mostra la scalabilità su più macchine utilizzando Spark ML e la libreria XGBoost.

Sebbene non trattati in questa guida rapida, esistono diversi modi per addestrare modelli di AI e ML utilizzando l'estensione Google Cloud Data Agent Kit per Antigravity:

  • Se il set di dati di addestramento è di grandi dimensioni o vuoi utilizzare le funzionalità di addestramento distribuito offerte da Apache Spark, puoi utilizzare i notebook Spark con kernel remoti.
  • Se il tuo set di dati si trova in BigQuery e BigQuery ML supporta il tuo caso d'uso, puoi utilizzare un notebook BigQuery DataFrames.
  • Se il tuo set di dati è piccolo e vuoi addestrare il modello localmente, puoi utilizzare un notebook Python.

Crea un modello di runtime Spark

I modelli di runtime Spark serverless consentono di avviare una sessione Apache Spark con un determinato insieme di configurazioni. Per creare un nuovo modello di runtime serverless, completa i seguenti passaggi:

  1. Nella barra delle attività dell'IDE, fai clic sull'icona Google Cloud Data Agent Kit.
  2. Nel menu Google Cloud Data Agent Kit, espandi Apache Spark.
  3. Espandi Serverless e fai clic su + Crea runtime serverless. Viene visualizzato un modulo di creazione di Serverless Runtime.
  4. Nel campo Nome visualizzato, inserisci ai-ml-tutorial.
  5. Vai alla sezione Scalabilità automatica.
  6. Imposta spark.dynamicAllocation.enabled su false nell'elenco a discesa. Questa impostazione è necessaria per il funzionamento di XGBoost con Apache Spark.
  7. Lascia invariati i valori predefiniti di tutti gli altri campi.
  8. Fai clic su Invia.

Crea un nuovo notebook

Successivamente, crea un nuovo notebook Spark:

  1. In Apache Spark nella scheda Google Cloud Data Agent Kit, fai clic su + Nuovo notebook Spark.
  2. Scegli Kernel remoto per il tipo di kernel.
  3. Fai clic su Inizia con un notebook di esempio.
  4. Nell'elenco degli esempi, seleziona Data Science con PySpark e XGBoost distribuito. Viene visualizzato un notebook Jupyter senza titolo.

Addestra il modello

  1. Nella scheda del blocco note, fai clic su Esegui tutto. Il selettore del kernel ti chiede di selezionare un kernel con cui eseguire il notebook.
  2. Fai clic su Seleziona un altro kernel.
  3. Fai clic su Kernel Spark remoti.
  4. Seleziona ai-ml-tutorial on Serverless Spark, il modello Runtime che hai creato in precedenza.

Mentre il sistema crea la sessione Serverless Spark, viene visualizzata la seguente notifica: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Quando il notebook si connette al kernel PySpark remoto, l'esecuzione inizia dalla prima cella. Questo processo richiede circa 2-3 minuti.

Controllare la sessione Spark

  1. Nella scheda Google Cloud Data Agent Kit, in Apache Spark, espandi il modello di runtime ai-ml-tutorial. L'IDE mostra l'elenco delle sessioni interattive che hai creato con questo modello di runtime.
  2. Individua la sessione creata dal sistema eseguendo il notebook nella parte superiore dell'elenco. Fai clic sulla sessione per visualizzarne i dettagli. Puoi esaminare la configurazione della sessione e le risorse utilizzate dal sistema per eseguire il notebook.

Esegui la pulizia

Dopo aver eseguito correttamente il notebook, esegui i seguenti passaggi di pulizia.

  1. Nella scheda Google Cloud Data Agent Kit, in Apache Spark, fai clic con il tasto destro del mouse su Serverless e seleziona Elenca runtime serverless. Viene visualizzato l'elenco dei runtime serverless.
  2. Fai clic sul menu Azione per ai-ml-tutorial per elencare tutte le sessioni interattive che il sistema ha creato dal tuo modello.
  3. Nella sezione Azioni, fai clic su Elimina.
  4. Torna alla finestra Serverless Runtimes.
  5. Nella sezione Azioni per ai-ml-tutorial, fai clic su Elimina.
  6. Fai clic su Conferma per eliminare il modello che hai creato per questo tutorial.

Passaggi successivi