Esta página se ha traducido con Cloud Translation API.

Servir un modelo con una sola GPU en GKE

Autopilot Standard

En este tutorial se muestra cómo desplegar y servir un modelo de lenguaje extenso (LLM) con GPUs en Google Kubernetes Engine (GKE) con NVIDIA Triton Inference Server y TensorFlow Serving. De esta forma, se proporciona una base para comprender y explorar el despliegue práctico de LLMs para la inferencia en un entorno de Kubernetes gestionado. Despliega un contenedor prediseñado en un clúster de GKE con una sola GPU L4 Tensor Core y prepara la infraestructura de GKE para realizar inferencias online.

Este tutorial está dirigido a ingenieros de aprendizaje automático, administradores y operadores de plataformas, y a especialistas en datos e IA que quieran alojar un modelo de aprendizaje automático preentrenado en un clúster de GKE. Para obtener más información sobre los roles habituales y las tareas de ejemplo que se mencionan en el Google Cloud contenido, consulta Roles y tareas habituales de usuario de GKE.

Antes de leer esta página, asegúrate de que conoces los siguientes conceptos:

Objetivos

Crea un clúster de GKE Autopilot o Estándar.
Configura un segmento de Cloud Storage en el que se encuentre el modelo preentrenado.
Implementa el framework de inferencia online que selecciones.
Realiza una solicitud de prueba al servicio desplegado.

Costes

En este tutorial se usan los siguientes componentes facturables de Google Cloud:

GKE
Cloud Storage
Aceleradores de GPU L4
Tráfico de salida

Usa la calculadora de precios para generar una estimación de costes basada en el uso previsto.

Cuando termines este tutorial, puedes evitar que se te siga facturando eliminando los recursos que has creado. Para obtener más información, consulta la sección Limpiar.

Antes de empezar

Configurar el proyecto

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Roles required to create a project

To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Roles required to create a project

To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the GKE API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Definir valores predeterminados para Google Cloud CLI

En la Google Cloud consola, inicia una instancia de Cloud Shell:
Abrir Cloud Shell

Descarga el código fuente de esta aplicación de ejemplo:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
cd kubernetes-engine-samples/ai-ml/gke-online-serving-single-gpu

Define las variables de entorno predeterminadas:
```
gcloud config set project PROJECT_ID
gcloud config set compute/region COMPUTE_REGION
```
Sustituye los siguientes valores:
- PROJECT_ID: tu Google Cloud ID de proyecto.
- COMPUTE_REGION: la región de Compute Engine que admite el tipo de acelerador que quieres usar. Por ejemplo, us-central1 para la GPU L4.

En Cloud Shell, crea las siguientes variables de entorno:

export PROJECT_ID=$(gcloud config get project)
export REGION=$(gcloud config get compute/region)
export K8S_SA_NAME=gpu-k8s-sa
export GSBUCKET=$PROJECT_ID-gke-bucket
export MODEL_NAME=mnist
export CLUSTER_NAME=online-serving-cluster

Crear un clúster de GKE

Puedes servir modelos en una sola GPU en un clúster Autopilot o Standard de GKE. Te recomendamos que uses un clúster de Autopilot para disfrutar de una experiencia de Kubernetes totalmente gestionada. Con Autopilot de GKE, los recursos se escalan automáticamente en función de las solicitudes del modelo.

Para elegir el modo de funcionamiento de GKE que mejor se adapte a tus cargas de trabajo, consulta Elegir un modo de funcionamiento de GKE.

Autopilot

Ejecuta el siguiente comando para crear un clúster de Autopilot de GKE:

  gcloud container clusters create-auto ${CLUSTER_NAME} \
      --location=${REGION} \
      --project=${PROJECT_ID} \
      --release-channel=rapid

GKE crea un clúster de Autopilot con nodos de CPU y GPU según lo soliciten las cargas de trabajo desplegadas.

Estándar

Ejecuta el siguiente comando para crear un clúster estándar de GKE:

  gcloud container clusters create ${CLUSTER_NAME} \
    --project=${PROJECT_ID}  \
    --location=${REGION}  \
    --workload-pool=${PROJECT_ID}.svc.id.goog \
    --addons GcsFuseCsiDriver \
    --release-channel=rapid \
    --num-nodes=1

La creación del clúster puede tardar varios minutos.

Ejecuta el siguiente comando para crear el grupo de nodos:

  gcloud container node-pools create gpupool \
    --accelerator type=nvidia-l4,count=1,gpu-driver-version=latest \
    --project=${PROJECT_ID} \
    --location=${REGION} \
    --node-locations=${REGION}-a \
    --cluster=${CLUSTER_NAME} \
    --machine-type=g2-standard-8 \
    --num-nodes=1

GKE crea un grupo de nodos que contiene una GPU L4 por cada nodo.

Crea un segmento de Cloud Storage

Crea un segmento de Cloud Storage para almacenar el modelo preentrenado que se va a servir.

En Cloud Shell, ejecuta lo siguiente:

gcloud storage buckets create gs://$GSBUCKET

Configurar el clúster para acceder al bucket mediante Workload Identity Federation for GKE

Para permitir que tu clúster acceda al segmento de Cloud Storage, haz lo siguiente:

Crea una Google Cloud cuenta de servicio.
Crea una ServiceAccount de Kubernetes en tu clúster.
Vincula la cuenta de servicio de Kubernetes a la Google Cloud cuenta de servicio.

Crea una Google Cloud cuenta de servicio

En la Google Cloud consola, ve a la página Crear cuenta de servicio:

Ir a Crear cuenta de servicio
En el campo ID de cuenta de servicio, introduce gke-ai-sa.
Haz clic en Crear y continuar.
En la lista Rol, selecciona el rol Cloud Storage > Storage Insights Collector Service.
Haz clic en Añadir otro rol.
En la lista Seleccionar un rol, selecciona el rol Cloud Storage > Administrador de objetos de Storage.
Haz clic en Continuar y, a continuación, en Hecho.

Crear una ServiceAccount de Kubernetes en tu clúster

En Cloud Shell, haz lo siguiente:

Crea un espacio de nombres de Kubernetes:

kubectl create namespace gke-ai-namespace

Crea una cuenta de servicio de Kubernetes en el espacio de nombres:

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-ai-namespace

Vincula la cuenta de servicio de Kubernetes a la Google Cloud cuenta de servicio.

En Cloud Shell, ejecuta los siguientes comandos:

Añade un enlace de gestión de identidades y accesos a la cuenta de servicio Google Cloud :

gcloud iam service-accounts add-iam-policy-binding gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:PROJECT_ID.svc.id.goog[gke-ai-namespace/gpu-k8s-sa]"

La marca --member proporciona la identidad completa de la cuenta de servicio de Kubernetes en Google Cloud.

Anota la cuenta de servicio de Kubernetes:

kubectl annotate serviceaccount gpu-k8s-sa \
    --namespace gke-ai-namespace \
    iam.gke.io/gcp-service-account=gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com

Implementar el servidor de inferencia online

Cada framework de inferencia online espera encontrar el modelo de aprendizaje automático preentrenado en un formato específico. En la siguiente sección se muestra cómo implementar el servidor de inferencia en función del framework que quieras usar:

Triton

En Cloud Shell, copia el modelo de aprendizaje automático preentrenado en el bucket de Cloud Storage:
```
gcloud storage cp src/triton-model-repository gs://$GSBUCKET --recursive
```
Despliega el framework mediante un Deployment. Un Deployment es un objeto de la API de Kubernetes que te permite ejecutar varias réplicas de pods distribuidas entre los nodos de un clúster:
```
envsubst < src/gke-config/deployment-triton.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Valida que GKE haya implementado el framework:

kubectl get deployments --namespace=gke-ai-namespace

Cuando el framework esté listo, el resultado será similar al siguiente:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
triton-deployment    1/1     1            1           5m29s

Despliega los servicios para acceder a la implementación:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-triton.yaml

Comprueba que se haya asignado la IP externa:

kubectl get services --namespace=gke-ai-namespace

El resultado debería ser similar al siguiente:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
triton-server   LoadBalancer   34.118.227.176   35.239.54.228   8000:30866/TCP,8001:31035/TCP,8002:30516/TCP   5m14s

Anota la dirección IP de triton-server en la columna EXTERNAL-IP.

Comprueba que el servicio y la implementación funcionan correctamente:

curl -v EXTERNAL_IP:8000/v2/health/ready

El resultado debería ser similar al siguiente:

...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain
...

TF Serving

En Cloud Shell, copia el modelo de aprendizaje automático preentrenado en el bucket de Cloud Storage:
```
gcloud storage cp src/tfserve-model-repository gs://$GSBUCKET --recursive
```
Despliega el framework mediante un Deployment. Un Deployment es un objeto de la API de Kubernetes que te permite ejecutar varias réplicas de pods distribuidas entre los nodos de un clúster:
```
envsubst < src/gke-config/deployment-tfserve.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Valida que GKE haya implementado el framework:

kubectl get deployments --namespace=gke-ai-namespace

Cuando el framework esté listo, el resultado será similar al siguiente:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
tfserve-deployment   1/1     1            1           5m29s

Despliega los servicios para acceder a la implementación:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-tfserve.yaml

Comprueba que se haya asignado la IP externa:

kubectl get services --namespace=gke-ai-namespace

El resultado debería ser similar al siguiente:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
tfserve-server  LoadBalancer   34.118.227.176   35.239.54.228   8500:30003/TCP,8000:32194/TCP                  5m14s

Anota la dirección IP de tfserve-server en la columna EXTERNAL-IP.

Comprueba que el servicio y la implementación funcionan correctamente:

curl -v EXTERNAL_IP:8000/v1/models/mnist

Sustituye EXTERNAL_IP por tu dirección IP externa.

El resultado debería ser similar al siguiente:

...
< HTTP/1.1 200 OK
< Content-Type: application/json
< Date: Thu, 12 Oct 2023 19:01:19 GMT
< Content-Length: 154
<
{
  "model_version_status": [
        {
        "version": "1",
        "state": "AVAILABLE",
        "status": {
          "error_code": "OK",
          "error_message": ""
        }
      }
    ]
}

Aplicar el modelo

Triton

Crea un entorno virtual de Python en Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Instala los paquetes de Python necesarios.

pip install -r src/client/triton-requirements.txt

Prueba el servidor de inferencia de Triton cargando una imagen:
```
cd src/client
python triton_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png
```
Haz los cambios siguientes:
- EXTERNAL_IP: tu dirección IP externa.
- TEST_IMAGE: El nombre del archivo que corresponde a la imagen que quieres probar. Puedes usar las imágenes almacenadas en src/client/images.
En función de la imagen que uses, el resultado será similar al siguiente:
```
Calling Triton HTTP Service      ->      Prediction result: 7
```

TF Serving

Crea un entorno virtual de Python en Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Instala los paquetes de Python necesarios.

pip install -r src/client/tfserve-requirements.txt

Prueba TensorFlow Serving con algunas imágenes.

cd src/client
python tfserve_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png

Haz los cambios siguientes:

EXTERNAL_IP: tu dirección IP externa.
TEST_IMAGE: un valor de 0 a 9. Puedes usar las imágenes almacenadas en src/client/images.

En función de la imagen que utilices, obtendrás un resultado similar a este:

  Calling TensorFlow Serve HTTP Service    ->      Prediction result: 5

Observar el rendimiento del modelo

Triton

Para observar el rendimiento del modelo, puedes usar la integración del panel de control de Triton en Cloud Monitoring. Con este panel de control, puede ver métricas de rendimiento críticas, como el rendimiento de tokens, la latencia de las solicitudes y las tasas de error.

Para usar el panel de control de Triton, debes habilitar Google Cloud Managed Service para Prometheus, que recoge las métricas de Triton, en tu clúster de GKE. Triton expone métricas en formato Prometheus de forma predeterminada, por lo que no es necesario instalar ningún exportador adicional.

Después, puede ver las métricas en el panel de control de Triton. Para obtener información sobre cómo usar Google Cloud Managed Service para Prometheus y recoger métricas de tu modelo, consulta la guía de observabilidad de Triton en la documentación de Cloud Monitoring.

TF Serving

Para observar el rendimiento del modelo, puedes usar la integración del panel de control de TF Serving en Cloud Monitoring. Con este panel de control, puede ver métricas de rendimiento críticas, como el rendimiento de tokens, la latencia de las solicitudes y las tasas de error.

Para usar el panel de control de TF Serving, debes habilitar Google Cloud Managed Service para Prometheus, que recoge las métricas de TF Serving, en tu clúster de GKE.

Después, puede ver las métricas en el panel de control de TF Serving. Para obtener información sobre cómo usar Google Cloud Managed Service para Prometheus y recoger métricas de tu modelo, consulta la guía de observabilidad de TF Serving en la documentación de Cloud Monitoring.

Limpieza

Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos que has creado en esta guía, haz una de las siguientes acciones:

Mantener el clúster de GKE: elimina los recursos de Kubernetes del clúster y los recursos de Google Cloud .
Mantener el Google Cloud proyecto: elimina el clúster de GKE y los Google Cloud recursos.
Eliminar el proyecto

Elimina los recursos de Kubernetes del clúster y los recursos de Google Cloud .

Elimina el espacio de nombres de Kubernetes y las cargas de trabajo que hayas desplegado:

Triton

kubectl -n gke-ai-namespace delete -f src/gke-config/service-triton.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-triton.yaml
kubectl delete namespace gke-ai-namespace

TF Serving

kubectl -n gke-ai-namespace delete -f src/gke-config/service-tfserve.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-tfserve.yaml
kubectl delete namespace gke-ai-namespace

Elimina el segmento de Cloud Storage:
1. Ve a la página Segmentos:
  
  Ir a Contenedores
2. Marca la casilla de PROJECT_ID-gke-bucket.
3. Haz clic en Eliminar.
4. Para confirmar la eliminación, escribe DELETE y haz clic en Eliminar.
Elimina la Google Cloud cuenta de servicio:
1. Ve a la página Cuentas de servicio:
  
  Ir a Cuentas de servicio
2. Selecciona el proyecto.
3. Marca la casilla de gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Haz clic en Eliminar.
5. Para confirmar que quieres eliminarlo, haz clic en Eliminar.

Eliminar el clúster de GKE y los recursos de Google Cloud

Elimina el clúster de GKE:
1. Ve a la página Clústeres:
  
  Ir a Clústeres
2. Marca la casilla de online-serving-cluster.
3. Haz clic en Eliminar.
4. Para confirmar la eliminación, escribe online-serving-cluster y haz clic en Eliminar.
Elimina el segmento de Cloud Storage:
1. Ve a la página Segmentos:
  
  Ir a Contenedores
2. Marca la casilla de PROJECT_ID-gke-bucket.
3. Haz clic en Eliminar.
4. Para confirmar la eliminación, escribe DELETE y haz clic en Eliminar.
Elimina la Google Cloud cuenta de servicio:
1. Ve a la página Cuentas de servicio:
  
  Ir a Cuentas de servicio
2. Selecciona el proyecto.
3. Marca la casilla de gke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Haz clic en Eliminar.
5. Para confirmar que quieres eliminarlo, haz clic en Eliminar.

Eliminar el proyecto

Precaución: Eliminar un proyecto tiene los siguientes efectos:

Se elimina todo el contenido del proyecto. Si has usado un proyecto que ya existía para las tareas de este documento, cuando lo elimines, también se eliminará cualquier otro trabajo que hayas realizado en él.
Se pierden los IDs de proyecto personalizados. Cuando creaste este proyecto, es posible que hayas creado un ID de proyecto personalizado que quieras usar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, elimina los recursos seleccionados dentro del proyecto en lugar de eliminar todo el proyecto.

Si tienes previsto consultar varias arquitecturas, tutoriales o guías de inicio rápido, reutilizar los proyectos puede ayudarte a no superar los límites de cuota de proyectos.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Servir un modelo con una sola GPU en GKE Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Objetivos

Costes

Antes de empezar

Configurar el proyecto

Definir valores predeterminados para Google Cloud CLI

Crear un clúster de GKE

Autopilot

Estándar

Crea un segmento de Cloud Storage

Configurar el clúster para acceder al bucket mediante Workload Identity Federation for GKE

Crea una Google Cloud cuenta de servicio

Crear una ServiceAccount de Kubernetes en tu clúster

Vincula la cuenta de servicio de Kubernetes a la Google Cloud cuenta de servicio.

Implementar el servidor de inferencia online

Triton

TF Serving

Aplicar el modelo

Triton

TF Serving

Observar el rendimiento del modelo

Triton

TF Serving

Limpieza

Elimina los recursos de Kubernetes del clúster y los recursos de Google Cloud .

Triton

TF Serving

Eliminar el clúster de GKE y los recursos de Google Cloud

Eliminar el proyecto

Siguientes pasos

Servir un modelo con una sola GPU en GKE