TensorFlow Serving

Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere le metriche da TensorFlow Serving. Questo documento mostra come eseguire le seguenti operazioni:

  • Configurare TF Serving per la generazione di report sulle metriche.
  • Accedere a una dashboard predefinita in Cloud Monitoring per visualizzare le metriche.

Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi la raccolta con deployment autonomo, consulta la documentazione di TF Serving per informazioni sull'installazione.

Queste istruzioni sono fornite a titolo di esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Se hai difficoltà a installare un'applicazione o un esportatore a causa di policy di sicurezza o aziendali restrittive, ti consigliamo di consultare la documentazione open source per ricevere assistenza.

Per informazioni su TensorFlow Serving, vedi TF Serving. Per informazioni sulla configurazione di TF Serving su Google Kubernetes Engine, consulta la guida di GKE per TF Serving.

Prerequisiti

Per raccogliere le metriche da TF Serving utilizzando Managed Service per Prometheus e la raccolta gestita, il deployment deve soddisfare i seguenti requisiti:

  • Il cluster deve eseguire Google Kubernetes Engine versione 1.28.15-gke.2475000 o successive.
  • Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per maggiori informazioni, consulta la guida introduttiva alla raccolta gestita.

TF Serving espone le metriche in formato Prometheus quando il flag --monitoring_config_file viene utilizzato per specificare un file contenente un buffer di protocollo MonitoringConfig.

Di seguito è riportato un esempio di buffer di protocollo MonitoringConfig:

prometheus_config {
  enable: true,
  path: "/monitoring/prometheus/metrics"
}

Se segui la guida alla configurazione di Google Kubernetes Engine, Pubblica un modello con una singola GPU in GKE, il buffer di protocollo MonitoringConfig viene definito come parte della configurazione predefinita.

Se configuri TF Serving autonomamente, segui questi passaggi per specificare il buffer di protocollo MonitoringConfig:

  1. Crea un file denominato monitoring_config.txt contenente il buffer di protocollo MonitoringConfig nella directory del modello, prima di caricare la directory nel bucket Cloud Storage.

  2. Carica la directory del modello nel bucket Cloud Storage:

    gcloud storage cp MODEL_DIRECTORY gs://CLOUD_STORAGE_BUCKET_NAME --recursive
    
  3. Imposta la variabile di ambiente PATH_TO_MONITORING_CONFIG sul percorso del file monitoring_config.txt caricato, ad esempio:

    export PATH_TO_MONITORING_CONFIG=/data/tfserve-model-repository/monitoring_config.txt
    
  4. Aggiungi il seguente flag e valore al comando del container nel file YAML di deployment del container:

    "--monitoring_config=$PATH_TO_MONITORING_CONFIG"
    

    Ad esempio, il comando potrebbe essere simile al seguente:

    command: [ "tensorflow_model_server", "--model_name=$MODEL_NAME", "--model_base_path=/data/tfserve-model-repository/$MODEL_NAME", "--rest_api_port=8000", "--monitoring_config_file=$PATH_TO_MONITORING_CONFIG" ]
    

Modificare la configurazione di TF Serving

Modifica la configurazione di TF Serving come mostrato nell'esempio seguente:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tfserve-deployment
  labels:
    app: tfserve-server
spec:
  selector:
    matchLabels:
      app: tfserve
  replicas: 1
  template:
    metadata:
      labels:
        app: tfserve
      annotations:
        gke-gcsfuse/volumes: 'true'
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
      containers:
        - name: tfserve-server
          image: 'tensorflow/serving:2.13.1-gpu'
          command:
            - tensorflow_model_server
            - '--model_name=$MODEL_NAME'
            - '--model_base_path=/data/tfserve-model-repository/$MODEL_NAME'
            - '--rest_api_port=8000'
+           - '--monitoring_config_file=$PATH_TO_MONITORING_CONFIG'
          ports:
            - name: http
              containerPort: 8000
            - name: grpc
              containerPort: 8500
          resources:
            ...
          volumeMounts:
            - name: gcs-fuse-csi-vol
              mountPath: /data
              readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
        - name: gcs-fuse-csi-vol
          csi:
            driver: gcsfuse.csi.storage.gke.io
            readOnly: false
            volumeAttributes:
              bucketName: $GSBUCKET
              mountOptions: implicit-dirs

Devi aggiungere alla configurazione tutte le righe precedute dal simbolo +.

Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizzare Terraform per gestire le configurazioni.

Per verificare che TF Serving emetta le metriche sugli endpoint previsti, procedi nel seguente modo:

  1. Configura l'inoltro della porta utilizzando il seguente comando:
      kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000
    
  2. Accedi all'endpoint localhost:8000/monitoring/prometheus/metrics utilizzando il browser o l'utilità curl in un'altra sessione del terminale.

Definire una risorsa PodMonitoring

Per l'individuazione dei target, l'operatore Managed Service per Prometheus richiede una risorsa PodMonitoring che corrisponda a TF Serving nello stesso spazio dei nomi.

Puoi utilizzare la seguente configurazione PodMonitoring:

# Copyright 2025 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: tfserve
  labels:
    app.kubernetes.io/name: tfserve
    app.kubernetes.io/part-of: google-cloud-managed-prometheus
spec:
  endpoints:
  - port: 8000
    scheme: http
    interval: 30s
    path: /monitoring/prometheus/metrics
  selector:
    matchLabels:
      app: tfserve

Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:

kubectl apply -n NAMESPACE_NAME -f FILE_NAME

Puoi anche utilizzare Terraform per gestire le configurazioni.

Verificare la configurazione

Puoi utilizzare Metrics Explorer per verificare di aver configurato correttamente TF Serving. Cloud Monitoring potrebbe richiedere uno o due minuti per importare le metriche.

Per verificare che le metriche siano state importate:

  1. Nella Google Cloud console, vai alla  Esplora metriche pagina:

    Vai a Esplora metriche

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Nella barra degli strumenti del riquadro del generatore di query, seleziona il pulsante il cui nome è  PromQL.
  3. Inserisci ed esegui la seguente query:
    up{job="tfserve", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}

Visualizzare dashboard

L'integrazione di Cloud Monitoring include la dashboard Panoramica di TensorFlow Serving Prometheus. Le dashboard vengono installate automaticamente quando configuri l'integrazione. Puoi anche visualizzare le anteprime statiche delle dashboard senza installare l'integrazione.

Per visualizzare una dashboard installata:

  1. Nella Google Cloud console, vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Seleziona la scheda Elenco dashboard.
  3. Scegli la categoria Integrazioni.
  4. Fai clic sul nome della dashboard, ad esempio Panoramica di TensorFlow Serving Prometheus.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella Google Cloud console, vai alla  pagina Integrazioni:

    Vai a Integrazioni

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.

  2. Fai clic sul filtro della piattaforma di deployment Kubernetes Engine.
  3. Individua l'integrazione di TensorFlow Serving e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard.

Risoluzione dei problemi

Per informazioni sulla risoluzione dei problemi di importazione delle metriche, vedi Problemi con la raccolta dagli esportatori in Risoluzione dei problemi lato importazione.