Valutazione del modello in Agent Platform

Il servizio di valutazione dell'AI di inferenza ti consente di valutare le prestazioni del modello in base a casi d'uso specifici. Puoi anche fare riferimento alla valutazione come osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Agent Platform può essere inserita nel tipico flusso di lavoro di machine learning in diversi modi:

  • Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirne il deployment. Confronta le metriche di valutazione di più modelli per decidere quale modello eseguire il deployment.

  • Dopo aver eseguito il deployment del modello in produzione, valutalo periodicamente con i nuovi dati in entrata. Se le metriche di valutazione mostrano che le prestazioni del modello stanno peggiorando, valuta la possibilità di riaddestrarlo. Questo processo è chiamato valutazione continua.

Il modo in cui interpreti e utilizzi queste metriche dipende dalle tue esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza inferiore per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti concentrerai durante l'iterazione del modello.

Alcune metriche chiave fornite dal servizio di valutazione del modello di AI predittiva includono le seguenti:

Funzionalità

Per valutare un modello con Agent Platform, devi disporre di un modello addestrato, di un output di inferenza batch e di un set di dati di dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione del modello che utilizza Agent Platform:

  1. Addestra un modello. Puoi farlo in Gemini Enterprise Agent Platform utilizzando AutoML o l'addestramento personalizzato.

  2. Esegui un job di inferenza batch sul modello per generare i risultati dell'inferenza.

  3. Prepara i dati di dati empirici reali, ovvero i dati "etichettati correttamente" come determinato dalle persone. I dati empirici reali sono in genere il set di dati di test utilizzato durante il processo di addestramento del modello.

  4. Esegui un job di valutazione sul modello, che valuta l'accuratezza dei risultati dell'inferenza batch rispetto ai dati empirici reali.

  5. Analizza le metriche risultanti dal job di valutazione.

  6. Esegui l'iterazione del modello per verificare se puoi migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni del modello.

Puoi eseguire la valutazione del modello in Agent Platform in diversi modi:

  • Crea valutazioni tramite Gemini Enterprise Agent Platform Model Registry nella Google Cloud console.

  • Utilizza le valutazioni del modello di Agent Platform come un componente della pipeline con le pipeline di Gemini Enterprise Agent Platform. Puoi creare esecuzioni e modelli di pipeline che includono le valutazioni del modello come parte del flusso di lavoro MLOps automatizzato.

    Puoi eseguire il componente di valutazione del modello da solo o con altri componenti della pipeline, come il componente di inferenza batch.

Agent Platform supporta la valutazione dei seguenti tipi di modello:

Immagine

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage location:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: L' area sotto la curva di precisione-richiamo, chiamata anche precisione media. Questo valore è compreso tra zero e uno, dove un valore più alto indica un modello di qualità migliore.
  • Perdita logaritmica: l'entropia incrociata tra le inferenze del modello e i valori target Questo valore è compreso tra zero e infinito, dove un valore più basso indica un modello di qualità migliore.
  • Soglia di confidenza: un punteggio di confidenza che determina le inferenze da restituire. Un modello restituisce inferenze che hanno questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Agent Platform restituisce le metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce precisione e richiamo.
  • Richiamo: la frazione di inferenze con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle inferenze di classificazione prodotte dal modello che sono risultate corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra cosa ha previsto il modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.

Tabulare

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage location:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: L' area sotto la curva di precisione-richiamo, chiamata anche precisione media. Questo valore è compreso tra zero e uno, dove un valore più alto indica un modello di qualità migliore.
  • AuROC: L' area sotto la curva delle caratteristiche operative del ricevitore. Questo valore è compreso tra zero e uno, dove un valore più alto indica un modello di qualità migliore.
  • Perdita logaritmica: l'entropia incrociata tra le inferenze del modello e i valori target Questo valore è compreso tra zero e infinito, dove un valore più basso indica un modello di qualità migliore.
  • Soglia di confidenza: un punteggio di confidenza che determina le inferenze da restituire. Un modello restituisce inferenze che hanno questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Agent Platform restituisce le metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce precisione e richiamo.
  • Richiamo: la frazione di inferenze con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di inferenza più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Precisione: la frazione delle inferenze di classificazione prodotte dal modello che sono risultate corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di inferenza più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica di richiamo a 1 e precisione a 1.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra cosa ha previsto il modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.
  • Conteggio di veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Conteggio di veri positivi: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
  • Conteggio di falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
  • Conteggio di falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
  • Tasso di falsi positivi: la frazione di risultati previsti in modo errato rispetto a tutti i risultati previsti.
  • Tasso di falsi positivi a 1: il tasso di falsi positivi quando si considera solo l'etichetta con il punteggio di inferenza più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Attribuzioni delle funzionalità del modello: Agent Platform mostra l'impatto di ciascuna funzionalità su un modello. I valori sono forniti come percentuale per ogni funzionalità: più alta è la percentuale, maggiore è l'impatto della funzionalità sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano pertinenti per i tuoi dati e il tuo problema aziendale.

Regressione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage location:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza media dei quadrati tra i valori target e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. In modo simile al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'RMSLE penalizza in misura maggiore la sottoinferenza rispetto alla sovrainferenza. Può anche essere una buona metrica quando non vuoi penalizzare le differenze per i valori di inferenza elevati più di quanto non faresti per i valori di inferenza bassi. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica è compresa tra zero e uno. Un valore più alto indica una migliore aderenza alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, il MAPE non è definito.
  • Attribuzioni delle funzionalità del modello: Agent Platform mostra l'impatto di ciascuna funzionalità su un modello. I valori sono forniti come percentuale per ogni funzionalità: più alta è la percentuale, maggiore è l'impatto della funzionalità sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano pertinenti per i tuoi dati e il tuo problema aziendale.

Previsione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage location:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza media dei quadrati tra i valori target e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. In modo simile al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'RMSLE penalizza in misura maggiore la sottoinferenza rispetto alla sovrainferenza. Può anche essere una buona metrica quando non vuoi penalizzare le differenze per i valori di inferenza elevati più di quanto non faresti per i valori di inferenza bassi. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica è compresa tra zero e uno. Un valore più alto indica una migliore aderenza alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, il MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE, Weighted Absolute Percentage Error) è la differenza complessiva tra il valore previsto da un modello e i valori osservati rispetto ai valori osservati. Rispetto all'RMSE, il WAPE è ponderato in base alle differenze complessive anziché alle differenze individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
  • RMSPE: l'errore percentuale quadratico medio (RMSPE, Root Mean Squared Percentage Error) mostra l'RMSE come percentuale dei valori effettivi anziché come numero assoluto. Un valore più basso indica un modello di qualità migliore.
  • Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, al quantile 0,5, i valori osservati dovrebbero essere inferiori ai valori previsti nel 50% dei casi.
  • Quantile osservato: mostra la percentuale di valori effettivi inferiori al valore previsto per un determinato quantile.
  • Perdita di pinball scalata: la perdita di pinball scalata a un determinato quantile. Un valore più basso indica un modello di qualità migliore al quantile specificato.

Tutorial sui notebook

AutoML: tabulare

Addestramento personalizzato: tabulare

Gemini Enterprise Agent Platform Model Registry

Passaggi successivi