Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Usa vLLM en GKE para ejecutar la inferencia con Llama 4

En este instructivo, se muestra cómo implementar y entregar un modelo de lenguaje grande (LLM) Llama 4 Scout (17B x 16E) de 17 mil millones de parámetros con el framework de vLLM. Implementas este modelo en una sola instancia de máquina virtual (VM) A4 en Google Kubernetes Engine (GKE).

Este instructivo está dirigido a ingenieros de aprendizaje automático (AA), administradores y operadores de plataformas, y especialistas en datos y en IA que estén interesados en usar las capacidades de organización de contenedores de Kubernetes para controlar las cargas de trabajo de inferencia.

Objetivos

Accede a Llama 4 con Hugging Face.
Prepara tu entorno.
Crear un clúster de GKE en modo Autopilot
Crea un secreto de Kubernetes para las credenciales de Hugging Face.
Implementa un contenedor de vLLM en tu clúster de GKE.
Interactúa con Llama 4 usando curl.
Realizar una limpieza

Costos

En este instructivo, se usan componentes facturables de Google Cloud, que incluyen lo siguiente:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.

Antes de comenzar

Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Instala Google Cloud CLI.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a la gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un Google Cloud proyecto.

Roles necesarios para seleccionar o crear un proyecto

Selecciona un proyecto: Para seleccionar un proyecto, no se requiere un rol de IAM específico. Puedes seleccionar cualquier proyecto en el que se te haya otorgado un rol.
Crear un proyecto: Para crear un proyecto, necesitas el rol de Creador de proyectos (roles/resourcemanager.projectCreator), que contiene el permiso resourcemanager.projects.create. Obtén más información para otorgar roles.

Crea un Google Cloud proyecto:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto Google Cloud que estás creando.
Selecciona el proyecto Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre de tu proyecto de Google Cloud .

Verifica que la facturación esté habilitada para tu proyecto de Google Cloud .

Habilita la API necesaria:

Roles necesarios para habilitar las APIs

Para habilitar APIs, necesitas el permiso serviceusage.services.enable. Si creaste el proyecto, es probable que ya tengas este permiso a través del rol de propietario (roles/owner). De lo contrario, puedes obtener este permiso a través del rol de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin). Obtén más información para otorgar roles.

gcloud services enable container.googleapis.com

Instala Google Cloud CLI.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a la gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un Google Cloud proyecto.

Roles necesarios para seleccionar o crear un proyecto

Selecciona un proyecto: Para seleccionar un proyecto, no se requiere un rol de IAM específico. Puedes seleccionar cualquier proyecto en el que se te haya otorgado un rol.
Crear un proyecto: Para crear un proyecto, necesitas el rol de Creador de proyectos (roles/resourcemanager.projectCreator), que contiene el permiso resourcemanager.projects.create. Obtén más información para otorgar roles.

Crea un Google Cloud proyecto:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto Google Cloud que estás creando.
Selecciona el proyecto Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre de tu proyecto de Google Cloud .

Verifica que la facturación esté habilitada para tu proyecto de Google Cloud .

Habilita la API necesaria:

Roles necesarios para habilitar las APIs

gcloud services enable container.googleapis.com

Otorga roles a tu cuenta de usuario. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/container.admin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
```
Reemplaza lo siguiente:
- PROJECT_ID: ID del proyecto
- USER_IDENTIFIER: Es el identificador de tu cuenta de usuario de . Por ejemplo, myemail@example.com.
- ROLE: Es el rol de IAM que otorgas a tu cuenta de usuario.
Accede a tu cuenta de Hugging Face o crea una.

Accede a Llama 4 con Hugging Face

Para usar Hugging Face y acceder a Llama 4, haz lo siguiente:

Firma el acuerdo de consentimiento para usar Llama 4.
Crea un token de acceso de Hugging Face read.
Copia y guarda el valor del token de acceso read. La usarás más adelante en este instructivo.

Prepara el entorno

Para preparar tu entorno, configura las siguientes variables:

export PROJECT_ID="YOUR_PROJECT_ID"
export RESERVATION_NAME="YOUR_RESERVATION_NAME"
export REGION="YOUR_CLUSTER_REGION"
export CLUSTER_NAME="YOUR_CLUSTER_NAME"
export HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"
export NETWORK="YOUR_NETWORK_NAME"
export SUBNETWORK="YOUR_SUBNETWORK_NAME"

gcloud config set project ${PROJECT_ID}
gcloud config set billing/quota_project ${PROJECT_ID}

Reemplaza lo siguiente:

YOUR_PROJECT_ID: Es el ID del Google Cloud proyecto en el que deseas crear el clúster de GKE.
YOUR_RESERVATION_NAME: Es la URL de la reserva que deseas usar para crear tu clúster de GKE. Según el proyecto en el que existe la reserva, especifica uno de los siguientes valores:
- La reserva existe en tu proyecto: YOUR_RESERVATION_NAME
- La reserva existe en otro proyecto, y tu proyecto puede usarla. Especifica la ruta de acceso completa, a menudo denominada RESERVATION_URL: projects/YOUR_RESERVATION_PROJECT_ID/reservations/YOUR_RESERVATION_NAME. Reemplaza YOUR_RESERVATION_PROJECT_ID por el ID del proyecto en el que se creó la reserva compartida.
  
  Asegúrate de que tu proyecto tenga los permisos necesarios para usar las reservas del otro proyecto.
YOUR_CLUSTER_REGION: Es la región en la que deseas crear tu clúster de GKE. Solo puedes crear el clúster en la región en la que existe tu reserva.
YOUR_CLUSTER_NAME: Es el nombre del clúster de GKE que se creará.
YOUR_HUGGING_FACE_TOKEN: El token de acceso de Hugging Face que creaste en la sección anterior.
YOUR_NETWORK_NAME: Es la red que usa el clúster de GKE. Especifica uno de los siguientes valores:
- Si creaste una red personalizada, especifica su nombre.
- De lo contrario, especifica default.
YOUR_SUBNETWORK_NAME: Es la subred que usa el clúster de GKE. Especifica uno de los siguientes valores:
- Si creaste una subred personalizada, especifica su nombre. Solo puedes especificar una subred que exista en la misma región que la reserva.
- De lo contrario, especifica default.

Crea y configura recursos de Google Cloud

Sigue las instrucciones de esta sección para crear los recursos necesarios.

Crea un clúster de GKE en modo Autopilot

Para crear un clúster de GKE en modo Autopilot, ejecuta el siguiente comando:

gcloud container clusters create-auto "${CLUSTER_NAME}" \
    --project="${PROJECT_ID}" \
    --region="${REGION}" \
    --release-channel=rapid \
    --network="${NETWORK}" \
    --subnetwork="${SUBNETWORK}"

La creación del clúster de GKE puede tardar un tiempo en completarse. Para verificar que Google Cloud haya terminado de crear tu clúster, ve a Clústeres de Kubernetes en la consola de Google Cloud .

Crea un secreto de Kubernetes para almacenar tus credenciales de Hugging Face

Para crear un secreto de Kubernetes que almacene tus credenciales de Hugging Face, haz lo siguiente:

Configura kubectl para comunicarse con tu clúster de GKE:

gcloud container clusters get-credentials "${CLUSTER_NAME}" \
    --location="${REGION}"

Crea un secreto de Kubernetes que contenga el token de Hugging Face read access que creaste en un paso anterior:

kubectl create secret generic hf-secret \
    --from-literal=hf_api_token="${HF_TOKEN}" \
    --dry-run=client -o yaml | kubectl apply -f -

Implementa un contenedor de vLLM en tu clúster de GKE

Para implementar el contenedor de vLLM y entregar el modelo de Llama-4-Scout-17B-16E-Instruct, haz lo siguiente:

Crea un archivo vllm-l4-17b.yaml con la implementación de vLLM que elijas:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-llama4-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: llama4-server
  template:
    metadata:
      labels:
        app: llama4-server
        ai.gke.io/model: llama-4-scout-17b
        ai.gke.io/inference-server: vllm
        examples.ai.gke.io/source: user-guide
    spec:
      containers:
      - name: inference-server
        image: us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250722_0916_RC01
        resources:
          requests:
            cpu: "10"
            memory: "128Gi"
            ephemeral-storage: "240Gi"
            nvidia.com/gpu: "8"
          limits:
            cpu: "10"
            memory: "128Gi"
            ephemeral-storage: "240Gi"
            nvidia.com/gpu: "8"
        command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
        args:
        - --model=$(MODEL_ID)
        - --tensor-parallel-size=8
        - --host=0.0.0.0
        - --port=8000
        - --max-model-len=4096
        - --max-num-seqs=4
        env:
        - name: MODEL_ID
          value: meta-llama/Llama-4-Scout-17B-16E-Instruct
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
        startupProbe:
          httpGet:
            path: /health
            port: 8000
          failureThreshold: 200
          periodSeconds: 15
        livenessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 15
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 15
          periodSeconds: 5
      volumes:
      - name: dshm
        emptyDir:
            medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-b200
        cloud.google.com/reservation-name: ${RESERVATION_NAME}
        cloud.google.com/reservation-affinity: "specific"
        cloud.google.com/gke-gpu-driver-version: latest
---
apiVersion: v1
kind: Service
metadata:
  name: llm-service
spec:
  selector:
    app: llama4-server
  type: ClusterIP
  ports:
    - protocol: TCP
      port: 8000
      targetPort: 8000
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: vllm-llama4-monitoring
spec:
  selector:
    matchLabels:
      app: llama4-server
  endpoints:
  - port: 8000
    path: /metrics
    interval: 30s

Aplica el archivo vllm-l4-17b.yaml a tu clúster de GKE:
```
envsubst < vllm-l4-17b.yaml | kubectl apply -f -
```
Durante el proceso de implementación, el contenedor debe descargar el modelo Llama-4-Scout-17B-16E-Instruct de Hugging Face. Por este motivo, la implementación del contenedor puede tardar hasta 30 minutos en completarse.
Para ver el estado de finalización, ejecuta el siguiente comando:
```
kubectl wait \
    --for=condition=Available \
    --timeout=3000s \
    deployment/vllm-llama4-deployment
```
La marca--timeout=3000s permite que el comando supervise la implementación durante un máximo de 50 minutos.

Interactúa con Llama 4 usando curl

Para verificar el modelo Llama 2 Scout que implementaste, haz lo siguiente:

Configura la redirección de puertos a Llama 4 Scout:

kubectl port-forward service/llm-service 8000:8000

Abre una nueva ventana de terminal. Luego, puedes chatear con tu modelo usando curl:

curl http://127.0.0.1:8000/v1/chat/completions \
     -X POST \
     -H "Content-Type: application/json" \
     -d '{
       "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
       "messages": [
         {
           "role": "user",
           "content": "Describe a sailboat in one short sentence?"
         }
       ]
     }' | jq .

El resultado que ves es similar al siguiente:

{
      "id": "chatcmpl-ec0ad6310c494a889b17600881c06e3d",
      "object": "chat.completion",
      "created": 1754073279,
      "model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
      "choices": [
        {
          "index": 0,
          "message": {
            "role": "assistant",
            "content": "A sailboat is a type of watercraft that uses the wind for propulsion, typically featuring a hull, mast, and one or more sails.",
            "refusal": null,
            "annotations": null,
            "audio": null,
            "function_call": null,
            "tool_calls": [],
            "reasoning_content": null
          },
          "logprobs": null,
          "finish_reason": "stop",
          "stop_reason": null
        }
      ],
      "service_tier": null,
      "system_fingerprint": null,
      "usage": {
        "prompt_tokens": 19,
        "total_tokens": 49,
        "completion_tokens": 30,
        "prompt_tokens_details": null
      },
      "prompt_logprobs": null,
      "kv_transfer_params": null
    }

Observa el rendimiento del modelo

Para observar el rendimiento de tu modelo, puedes usar la integración del panel de vLLM en Cloud Monitoring. Puedes usar este panel para ver métricas de rendimiento críticas, como la capacidad de procesamiento de tokens, la latencia de las solicitudes y las tasas de error.

Para obtener información sobre cómo usar Google Cloud Managed Service para Prometheus para recopilar métricas de tu modelo, consulta la guía de observabilidad de vLLM en la documentación de Cloud Monitoring.

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra recursos

Para borrar la implementación y el servicio en el archivo vllm-l4-17b.yaml y el secreto de Kubernetes del clúster de GKE, ejecuta el siguiente comando:
```
kubectl delete -f vllm-l4-17b.yaml
kubectl delete secret hf-secret
```

Para borrar tu clúster de GKE, ejecuta el siguiente comando:

gcloud container clusters delete ${CLUSTER_NAME} \
    --region=${REGION} \
    --quiet

Borra tu proyecto

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo su contenido. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los IDs personalizados de los proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID personalizado del proyecto que desees utilizar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto, en lugar de todo el proyecto.

Si planeas explorar varios instructivos, arquitecturas o guías de inicio rápido, reutilizar proyectos puede ser útil para no exceder los límites de cuota de los proyectos.

Borra un Google Cloud proyecto:

gcloud projects delete PROJECT_ID

¿Qué sigue?

Obtén más información para administrar clústeres de GKE optimizados para IA