Monitorar modelos

Este documento explica como monitorar o comportamento, a integridade e a performance dos modelos totalmente gerenciados na Gemini Enterprise Agent Platform. Ele descreve como usar o painel de observabilidade de modelos pré-criado para entender o uso do modelo, identificar problemas de latência e solucionar erros.

Você vai aprender a fazer o seguinte:

  • Acessar e interpretar o painel de observabilidade de modelos.
  • Conferir as métricas de monitoramento disponíveis.
  • Monitorar o tráfego de endpoints de modelos usando o Metrics Explorer.

Acessar e interpretar o painel de observabilidade de modelos

A IA generativa na Gemini Enterprise Agent Platform oferece um painel de observabilidade de modelos pré-criado para conferir o comportamento, a integridade e a performance de modelos totalmente gerenciados. Os modelos totalmente gerenciados, também conhecidos como modelo como serviço (MaaS, na sigla em inglês), são fornecidos pelo Google e incluem os modelos do Gemini e de parceiros com endpoints gerenciados. As métricas de modelos auto-hospedados não estão incluídas no painel.

A IA generativa na Gemini Enterprise Agent Platform coleta e informa automaticamente a atividade dos modelos de MaaS para ajudar você a solucionar problemas de latência e monitorar a capacidade rapidamente.

Um painel de observabilidade de modelo de amostra no console do Cloud
Exemplo de painel de observabilidade de modelos

Caso de uso

Como desenvolvedor de aplicativos, você pode conferir como os usuários estão interagindo com os modelos que você expôs. Por exemplo, é possível conferir como o uso do modelo (solicitações de modelo por segundo) e a intensidade de computação dos comandos do usuário (latências de invocação do modelo) estão evoluindo ao longo do tempo. Consequentemente, como essas métricas estão relacionadas ao uso do modelo, também é possível estimar os custos de execução de cada modelo.

Quando um problema surgir, você poderá solucioná-lo rapidamente no painel. É possível verificar se os modelos estão respondendo de maneira confiável e oportuna, conferindo as taxas de erro da API, as latências do primeiro token e a capacidade de processamento de tokens.

Métricas de monitoramento disponíveis

O painel de observabilidade de modelos mostra um subconjunto de métricas coletadas pelo Cloud Monitoring, como a solicitação de modelo por segundo (QPS), a capacidade de processamento de tokens e as latências do primeiro token. Acesse o painel para conferir todas as métricas disponíveis.

Limitações

A Agent Platform captura métricas do painel apenas para chamadas de API para o endpoint de um modelo. Google Cloud O uso do console, como métricas do Vertex AI Studio, não é adicionado ao painel.

Ver o painel

  1. Na seção Agent Platform do Google Cloud console, acesse a página Painel.

Acessar a Agent Platform 1. No painel, em "Observabilidade de modelos", clique em Mostrar todas as métricas para conferir o painel de observabilidade de modelos no console do Google Cloud Observability.

  1. Para conferir as métricas de um modelo específico ou em um local específico, defina um ou mais filtros na parte de cima da página do painel.

    Para ver uma descrição de cada métrica, consulte a seção "aiplatform" na Google Cloud página de métricas.

Monitorar o tráfego de endpoints de modelos

Siga as instruções abaixo para monitorar o tráfego do seu endpoint no Metrics Explorer.

  1. No Google Cloud console do, acesse a página do Metrics Explorer.

    Acesse o Metrics Explorer

  2. Selecione o projeto para o qual você quer conferir as métricas.

  3. No menu suspenso Métrica, clique em Selecionar uma métrica.

  4. Na barra de pesquisa Filtrar por nome do recurso ou da métrica, digite Gemini Enterprise Agent Platform Endpoint.

  5. Selecione a categoria de métrica Endpoint da Agent Platform > Previsão. Em Métricas ativas, selecione uma das seguintes métricas:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    Clique em Aplicar. Para adicionar mais de uma métrica, clique em Adicionar consulta.

    É possível filtrar ou agregar as métricas usando os seguintes menus suspensos:

    • Para selecionar e conferir um subconjunto dos dados com base em critérios especificados, use o menu suspenso Filtrar. Por exemplo, para filtrar o modelo gemini-2.0-flash-001, use endpoint_id = gemini-2p0-flash-001 (observe que o . na versão do modelo é substituído por um p).

    • Para combinar vários pontos de dados em um único valor e conferir uma visualização resumida das métricas, use o menu suspenso Agregação. Por exemplo, é possível agregar a soma de response_code.

  6. Também é possível configurar alertas para o endpoint. Para mais informações, consulte Gerenciar políticas de alertas.

Para conferir as métricas adicionadas ao projeto usando um painel, consulte Visão geral dos painéis.

A seguir