Metriche di Cloud Monitoring per Agent Platform

Gemini Enterprise Agent Platform esporta le metriche in Cloud Monitoring. Agent Platform mostra anche alcune di queste metriche nella console Google Cloud di Agent Platform. Puoi utilizzare Cloud Monitoring per creare dashboard o configurare avvisi basati sulle metriche. Ad esempio, puoi ricevere avvisi se la latenza di previsione di un modello in Agent Platform diventa troppo elevata.

Le sezioni seguenti descrivono le metriche fornite nella console Google Cloud di Agent Platform, che potrebbero essere metriche dirette o calcolate che Agent Platform invia a Cloud Monitoring.

Per visualizzare un elenco della maggior parte delle metriche che Agent Platform esporta in Cloud Monitoring, consulta aiplatform. Per le metriche di addestramento personalizzato, consulta i tipi di metriche che iniziano con training nella sezione ml.

Metriche di monitoraggio dell'addestramento personalizzato

Quando esegui l'addestramento personalizzato, puoi monitorare i seguenti tipi di utilizzo delle risorse per ogni nodo di addestramento:

  • Utilizzo di CPU o GPU di ogni nodo di addestramento
  • Utilizzo di memoria di ogni nodo di addestramento
  • Utilizzo della rete (byte inviati al secondo e byte ricevuti al secondo)

Se utilizzi l'ottimizzazione degli iperparametri, puoi visualizzare le metriche per ogni prova.

Per visualizzare queste metriche dopo aver avviato l'addestramento personalizzato, procedi come segue:

  1. Nella console Google Cloud , vai a una delle seguenti pagine, a seconda che tu stia utilizzando l'ottimizzazione degli iperparametri:

  2. Fai clic sul nome della risorsa di formazione personalizzata.

    Se hai creato una risorsa TrainingPipeline personalizzata, fai clic sul nome del job creato da TrainingPipeline; ad esempio, TRAINING_PIPELINE_NAME-custom-job o TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Fai clic sulla scheda CPU, GPU o Rete per visualizzare i grafici di utilizzo della metrica che ti interessa.

    Se utilizzi l'ottimizzazione degli iperparametri, puoi fare clic su una riga nella tabella Prove di ottimizzazione degli iperparametri per visualizzare le metriche per una prova specifica.

Per visualizzare metriche meno recenti o personalizzare la visualizzazione delle metriche, utilizza Monitoring. Agent Platform esporta le metriche di addestramento personalizzate in Monitoring come tipi di metriche con il prefisso ml.googleapis.com/training. Il tipo di risorsa monitorata è cloudml_job.

Tieni presente che AI Platform Training esporta le metriche in Monitoring con gli stessi tipi di metriche e tipo di risorsa.

Metriche di monitoraggio degli endpoint

Dopo aver eseguito il deployment di un modello su un endpoint, puoi monitorare l'endpoint per comprendere le prestazioni e l'utilizzo delle risorse del modello. Puoi monitorare metriche come i pattern di traffico, i tassi di errore, la latenza e l'utilizzo delle risorse per assicurarti che il tuo modello risponda alle richieste in modo coerente e prevedibile. Ad esempio, potresti rieseguire il deployment del modello con un tipo di macchina diverso per ottimizzare i costi. Dopo aver apportato la modifica, puoi monitorare il modello per verificare se le modifiche hanno influito negativamente sul suo rendimento.

In Cloud Monitoring, il tipo di risorsa monitorata per i modelli di cui è stato eseguito il deployment è aiplatform.googleapis.com/Endpoint.

Metriche delle prestazioni

Le metriche sul rendimento possono aiutarti a trovare informazioni sui pattern di traffico, sugli errori e sulla latenza del tuo modello. Puoi visualizzare le seguenti metriche sul rendimento nella console Google Cloud .

  • Previsioni al secondo: il numero di previsioni al secondo per le previsioni online e batch. Se hai più di un'istanza per richiesta, ogni istanza viene conteggiata in questo grafico.
  • Percentuale di errori di previsione: il tasso di errori prodotti dal modello. Una percentuale di errori elevata potrebbe indicare un problema con il modello o con le richieste al modello. Visualizza il grafico dei codici di risposta per determinare quali errori si verificano.
  • Latenza del modello (solo per modelli tabulari e personalizzati): il tempo trascorso per eseguire il calcolo.
  • Latenza di overhead (solo per modelli tabellari e personalizzati): il tempo totale trascorso a elaborare una richiesta, al di fuori del calcolo.
  • Durata latenza totale: il tempo totale che una richiesta trascorre nel servizio, ovvero la latenza del modello più la latenza di overhead.

Utilizzo delle risorse

Le metriche di utilizzo delle risorse possono aiutarti a monitorare l'utilizzo della CPU, della memoria e della rete del modello. Puoi visualizzare le seguenti metriche di utilizzo nella consoleGoogle Cloud .

  • Conteggio repliche: il numero di repliche attive utilizzate dal modello di cui è stato eseguito il deployment.
  • Replica target: il numero di repliche attive richieste per il modello di cui è stato eseguito il deployment.
  • Utilizzo della CPU: tasso di utilizzo corrente dei core della CPU della replica del modello di cui è stato eseguito il deployment. Il 100% rappresenta un core della CPU completamente utilizzato, quindi una replica può raggiungere un utilizzo superiore al 100% se il tipo di macchina ha più core.
  • Memoria utilizzata: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment e attualmente in uso.
  • Byte di rete inviati: il numero di byte inviati tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
  • Byte di rete ricevuti: il numero di byte ricevuti tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
  • Ciclo di servizio medio dell'acceleratore: la frazione media di tempo nell'ultimo periodo di campionamento durante il quale uno o più acceleratori hanno eseguito attivamente l'elaborazione.
  • Memoria utilizzata dall'acceleratore: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment.

Visualizzare i grafici delle metriche di monitoraggio degli endpoint

  1. Vai alla pagina Endpoint della Agent Platform nella consoleGoogle Cloud .

    Vai alla pagina Endpoint

  2. Fai clic sul nome di un endpoint per visualizzarne le metriche.

  3. Sotto gli intervalli del grafico, fai clic su Rendimento o Utilizzo delle risorse per visualizzare le metriche relative al rendimento o all'utilizzo delle risorse.

    Puoi selezionare intervalli diversi per il grafico per visualizzare i valori delle metriche in un periodo di tempo specifico, ad esempio 1 ora, 12 ore o 14 giorni.

    Se hai più modelli di cui è stato eseguito il deployment nell'endpoint, puoi selezionare o deselezionare i modelli per visualizzare o nascondere le metriche per modelli specifici. Se selezioni più modelli, la console raggruppa alcune metriche del modello in un unico grafico. Ad esempio, se una metrica fornisce un solo valore per modello, la console raggruppa le metriche del modello in un unico grafico, ad esempio l'utilizzo della CPU. Per le metriche che possono avere più valori per modello, la console fornisce un grafico per ogni modello. Ad esempio, la console fornisce un grafico dei codici di risposta per ogni modello.

Metriche di monitoraggio di Vertex AI Feature Store (legacy)

Dopo aver creato un feature store utilizzando Vertex AI Feature Store (legacy), puoi monitorare le sue prestazioni e l'utilizzo delle risorse, ad esempio le latenze di pubblicazione dell'archivio online o il numero di nodi di archiviazione online. Ad esempio, potresti voler monitorare le modifiche alle metriche di pubblicazione dell'archivio online dopo aver aggiornato il numero di nodi dell'archivio online di un featurestore.

In Cloud Monitoring, il tipo di risorsa monitorata per un feature store è aiplatform.googleapis.com/Featurestore.

Metriche

  • Dimensioni richiesta: le dimensioni della richiesta per tipo di entità nell'archivio di caratteristiche.
  • Scrittura di archiviazione offline per la scrittura di streaming: il numero di richieste di scrittura di streaming elaborate per l'archiviazione offline.
  • Tempo di ritardo della scrittura in streaming nell'archivio offline: il tempo trascorso (in secondi) tra la chiamata all'API di scrittura e la scrittura nell'archivio offline.
  • Conteggio nodi: il numero di nodi di erogazione online per il tuo archivio di caratteristiche.
  • Latenza: il tempo totale che una richiesta di erogazione online o importazione di flussi di dati trascorre nel servizio.
  • Query al secondo: il numero di query di erogazione online o importazione di flussi di dati gestite dal tuo archivio di caratteristiche.
  • Percentuale di errori: la percentuale di errori che il tuo archivio di caratteristiche produce durante la gestione delle richieste di erogazione online o di importazione di flussi di dati.
  • Utilizzo della CPU: la frazione di CPU allocata dall'archivio di caratteristiche utilizzata dallo spazio di archiviazione online. Questo numero può superare il 100% se lo spazio di archiviazione per la pubblicazione online è sovraccarico. Valuta la possibilità di aumentare il numero di nodi di erogazione online di Feature Store per ridurre l'utilizzo della CPU.
  • Utilizzo CPU - nodo più attivo: il carico della CPU per il nodo più attivo nello spazio di archiviazione online del feature store.
  • Archiviazione offline totale: quantità di dati archiviati nell'archiviazione offline di Feature Store.
  • Spazio di archiviazione online totale: la quantità di dati archiviati nello spazio di archiviazione online dell'archivio delle funzionalità.
  • Throughput di erogazione online: in MBps, il throughput per le richieste di erogazione online.

Visualizza i grafici delle metriche di monitoraggio di Feature Store

  1. Vai alla pagina Funzionalità di Agent Platform nella consoleGoogle Cloud .

    Vai alla pagina Funzionalità

  2. Nella colonna Feature Store, fai clic sul nome di un feature store per visualizzarne le metriche.

    Puoi selezionare intervalli diversi per il grafico per visualizzare i valori delle metriche in un periodo di tempo specifico, ad esempio 1 ora, 1 giorno o 1 settimana.

    Per alcune metriche di erogazione online, puoi scegliere di visualizzare le metriche per un metodo specifico, che suddivide ulteriormente le metriche per tipo di entità. Ad esempio, puoi visualizzare la latenza per il metodo ReadFeatureValues o il metodo StreamingReadFeatureValues.

Metriche di monitoraggio di Vertex AI Feature Store

Dopo aver configurato l'erogazione online utilizzando Vertex AI Feature Store, puoi monitorarne le prestazioni e l'utilizzo delle risorse. Ad esempio, puoi monitorare i carichi della CPU, il numero di nodi per l'erogazione online ottimizzata e il numero di richieste di erogazione.

In Cloud Monitoring, il tipo di risorsa monitorata per un'istanza del negozio online è aiplatform.googleapis.com/FeatureOnlineStore.

Metriche

  • Byte archiviati: la quantità di dati in byte nell'istanza dell'archivio online.

  • Carico CPU: il carico medio della CPU dei nodi nell'istanza del negozio online.

  • Carico CPU (nodo più attivo): il carico della CPU del nodo più attivo nell'istanza dell'online store.

  • Conteggio nodi: il numero di nodi di erogazione online per un'istanza di negozio online configurata per l'erogazione online tramite Bigtable.

  • Numero di nodi ottimizzati: il numero di nodi di erogazione online per un'istanza di negozio online configurata per l'erogazione online ottimizzata.

  • Conteggio richieste: il numero di richieste ricevute dall'istanza del negozio online.

  • Latenza di richiesta: la latenza di richiesta lato server dell'istanza del negozio online.

  • Conteggio byte risposta: la quantità di dati in byte inviati nelle risposte di erogazione online.

  • Età dei dati in uso: l'età dei dati in uso in secondi, misurata come la differenza tra l'ora attuale e l'ora dell'ultima sincronizzazione.

  • Sincronizzazioni in corso: il numero di sincronizzazioni in corso in un determinato momento.

  • Dati in uso per ora di sincronizzazione: suddivisione dei dati nell'istanza dell'online store in base al timestamp della sincronizzazione.