Este documento descreve os registros e as métricas que a API conectada do Gemini no Google Distributed Cloud coleta e exporta.
Configurar a geração de registros e o monitoramento
Antes de começar a coletar registros e métricas, faça o seguinte:
Ative as APIs de geração de registros usando os seguintes comandos:
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Substitua
PROJECT_IDpelo ID do projeto Google Cloud de destino.Conceda os papéis necessários para gravar registros e métricas:
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"Substitua
PROJECT_IDpelo ID do projeto Google Cloud de destino.
Registros
Esta seção lista os tipos de recursos do Cloud Logging compatíveis com o Gemini na API conectada do GDC. Para ver os registros da API conectada do Gemini no GDC, use o Explorador de registros no console do Google Cloud . O registro em log do Gemini na API conectada do GDC} está sempre ativado.
O tipo de recurso registrado da API Gemini no GDC connected é aiplatform.googleapis.com/Endpoint.
Também é possível capturar e recuperar registros conectados da API Gemini no GDC usando a API Cloud Logging. Para informações sobre como configurar esse mecanismo de registro em log, consulte a documentação das bibliotecas de cliente do Cloud Logging.
Métricas
Esta seção lista as métricas do Cloud Monitoring compatíveis com a API conectada do Gemini no GDC. Para conferir as métricas da API conectada do Gemini no GDC, use o Metrics Explorer no console doGoogle Cloud .
Métricas do cluster do Distributed Cloud conectado
Os endpoints de API do Gemini no GDC connected são implantados em clusters conectados do Distributed Cloud. Consulte Registros e métricas para informações sobre registros e métricas do Distributed Cloud Connected.
Métricas do gateway de inferência
| Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
|---|---|---|---|---|---|---|---|
| ig_ops_successful_incoming_requests | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | CUMULATIVE | INT64 | modelo | |
| ig_ops_unique_users | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | CUMULATIVE | INT64 | modelo | |
| ig_tokens_per_minute | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | CUMULATIVE | DISTRIBUTION | modelo |
| ig_total_response_time | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | CUMULATIVE | DISTRIBUTION | modelo |
| ig_ops_ffmpeg_image_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | CUMULATIVE | DISTRIBUTION | modelo |
| ig_ops_ffmpeg_video_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | CUMULATIVE | DISTRIBUTION | modelo |
| ig_ops_ffmpeg_audio_latency | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | CUMULATIVE | DISTRIBUTION | modelo |
| ig_time_to_first_token | Histograma | double | janela de contexto do modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | CUMULATIVE | DISTRIBUTION | janela de contexto do modelo |
| ig_time_per_output_token | Histograma | double | janela de contexto do modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | CUMULATIVE | DISTRIBUTION | janela de contexto do modelo |
| ig_cache_hit | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | CUMULATIVE | DISTRIBUTION | model _gdch_project | |
| ig_cache_miss | Contador | modelo | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | CUMULATIVE | DISTRIBUTION | model _gdch_project |
Métricas do GenAI Router
| Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
|---|---|---|---|---|---|---|---|
| llm_total_request_latency_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
| llm_unary_request_latency_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
| llm_streaming_ttft_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
| llm_streaming_tpot_milliseconds | Histograma | double | Modelo de janela de contexto | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | CUMULATIVE | DISTRIBUTION | Modelo de janela de contexto |
| llm_input_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | CUMULATIVE | DISTRIBUTION | modelo |
| llm_output_token_count | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | CUMULATIVE | DISTRIBUTION | modelo |
| llm_success_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | CUMULATIVE | INT64 | modelo |
| llm_failure_response_count | Contador | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | CUMULATIVE | INT64 | modelo |
| llm_text_tokenization_latency_milliseconds | Histograma | double | modelo | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | CUMULATIVE | DISTRIBUTION | modelo |
| llm_image_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | CUMULATIVE | DISTRIBUTION | ||
| llm_audio_tokenization_latency_milliseconds | Histograma | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | CUMULATIVE | DISTRIBUTION |
Métricas da GPU
| Nome da métrica do Prometheus | Tipo de métrica | Tipo de dados | Rótulos | Tipo de químico | Chemist metric_kind | Chemist value_type | Rótulos de produtos químicos |
|---|---|---|---|---|---|---|---|
| DCGM_FI_DEV_MEM_COPY_UTIL | Medidor | int64 | gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | MEDIDOR | INT64 | uuid gpu_model |
| DCGM_FI_DEV_MEMORY_TEMP | Medidor | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | MEDIDOR | INT64 | Igual ao acima |
| DCGM_FI_DEV_POWER_USAGE | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | MEDIDOR | DOUBLE | Igual ao acima |
| DCGM_FI_DEV_GPU_TEMP | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | MEDIDOR | INT64 | Igual ao acima |
| DCGM_FI_DEV_GPU_UTIL | Medidor | double | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | MEDIDOR | INT64 | Igual ao acima |
| DCGM_FI_DEV_ENC_UTIL | Medidor | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | MEDIDOR | INT64 | Igual ao acima |
| DCGM_FI_DEV_XID_ERRORS | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_POWER_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_THERMAL_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_LOW_UTIL_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | CUMULATIVE | INT64 | Igual ao acima |
| DCGM_FI_DEV_RELIABILITY_VIOLATION | Contador | int64 | Igual ao acima | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | CUMULATIVE | INT64 | Igual ao acima |