En este documento, se explica cómo supervisar el comportamiento, el estado y el rendimiento de tus modelos completamente administrados en Gemini Enterprise Agent Platform. Se describe cómo usar el panel de observabilidad del modelo integrado para obtener estadísticas sobre el uso del modelo, identificar problemas de latencia y solucionar errores.
Aprenderás a hacer lo siguiente:
- Acceder al panel de observabilidad del modelo y comprenderlo
- Ver las métricas de supervisión disponibles
- Supervisar el tráfico del extremo del modelo con el Explorador de métricas
Accede al panel de observabilidad del modelo y compréndelo
La IA generativa en Gemini Enterprise Agent Platform proporciona un panel de observabilidad del modelo integrado para ver el comportamiento, el estado y el rendimiento de los modelos completamente administrados. Los modelos completamente administrados, también conocidos como modelo como servicio (MaaS), son proporcionados por Google e incluyen los modelos Gemini de Google y los modelos de socios con extremos administrados. Las métricas de los modelos autoalojados no se incluyen en el panel.
La IA generativa en Gemini Enterprise Agent Platform recopila y genera informes automáticamente sobre la actividad de los modelos de MaaS para ayudarte a solucionar rápidamente los problemas de latencia y supervisar la capacidad.
Caso de uso
Como desarrollador de aplicaciones, puedes ver cómo interactúan tus usuarios con los modelos que expusiste. Por ejemplo, puedes ver cómo evolucionan con el tiempo el uso del modelo (solicitudes de modelos por segundo) y la intensidad de procesamiento de las instrucciones del usuario (latencias de invocación del modelo). En consecuencia, como estas métricas están relacionadas con el uso del modelo, también puedes estimar los costos de ejecución de cada modelo.
Cuando surge un problema, puedes solucionarlo rápidamente desde el panel. Para ello, consulta las tasas de error de la API, las latencias del primer token y la capacidad de procesamiento de tokens para verificar si los modelos responden de manera confiable y oportuna.
Métricas de supervisión disponibles
El panel de observabilidad del modelo muestra un subconjunto de métricas que recopila Cloud Monitoring, como la solicitud de modelo por segundo (QPS), la capacidad de procesamiento de tokens y las latencias del primer token. Consulta el panel para ver todas las métricas disponibles.
Limitaciones
Agent Platform captura las métricas del panel solo para las llamadas a la API al extremo de un modelo. Google Cloud El uso de la consola, como las métricas de Vertex AI Studio, no se agrega al panel.
Visualiza el panel
- En la sección Agent Platform de la Google Cloud consola de, ve a la páginaPanel.
Ir a Agent Platform 1. En el panel, en Observabilidad del modelo, haz clic en Mostrar todas las métricas para ver el panel de observabilidad del modelo en la consola de Google Cloud Observability.
Para ver las métricas de un modelo específico o en una ubicación en particular, configura uno o más filtros en la parte superior de la página del panel.
Para obtener descripciones de cada métrica, consulta la sección "
aiplatform" en la Google Cloud página de métricas.
Supervisa el tráfico del extremo del modelo
Sigue las instrucciones a continuación para supervisar el tráfico a tu extremo en el Explorador de métricas.
En la Google Cloud consola de, ve a la página Explorador de métricas.
Selecciona el proyecto para el que deseas ver las métricas.
En el menú desplegable Métrica, haz clic en Seleccionar una métrica.
En la barra de búsqueda Filtrar por nombre de recurso o métrica, ingresa
Gemini Enterprise Agent Platform Endpoint.Selecciona la categoría de métricas Extremo de Agent Platform > Predicción. En Métricas activas, selecciona cualquiera de las siguientes métricas:
prediction/online/error_countprediction/online/prediction_countprediction/online/prediction_latenciesprediction/online/response_count
Haz clic en Aplicar. Para agregar más de una métrica, haz clic en Agregar consulta.
Puedes filtrar o agregar tus métricas con los siguientes menús desplegables:
Para seleccionar y ver un subconjunto de tus datos según los criterios especificados, usa el menú desplegable Filtro. Por ejemplo, para filtrar el modelo
gemini-2.0-flash-001, usaendpoint_id = gemini-2p0-flash-001(ten en cuenta que el.en la versión del modelo se reemplaza por unap).Para combinar varios puntos de datos en un solo valor y ver una vista resumida de tus métricas, usa el menú desplegable Agregación. Por ejemplo, puedes agregar la Suma de
response_code.
De manera opcional, puedes configurar alertas para tu extremo. Para obtener más información, consulta Administra políticas de alertas.
Para ver las métricas que agregas a tu proyecto con un panel, consulta Descripción general de los paneles.
¿Qué sigue?
- Para obtener información sobre cómo crear alertas para tu panel, consulta Descripción general de alertas.
- Para obtener información sobre la retención de datos de métricas, consulta las Cuotas y límites de Monitoring.
- Para obtener información sobre los datos en reposo, consulta Protección de datos en reposo.
- Para ver una lista de todas las métricas que recopila Cloud Monitoring, consulta la
"
aiplatform" sección en la Google Cloud página de métricas.