Se usó la API de Cloud Translation para traducir esta página.

Implementa una aplicación de IA con agentes en GKE con el kit de desarrollo de agentes (ADK) y un LLM autohospedado

Autopilot estándar

En este instructivo, se muestra cómo implementar y administrar aplicaciones de IA/ML basadas en agentes en contenedores con Google Kubernetes Engine (GKE). Si combinas el kit de desarrollo de agentes (ADK) de Google con un modelo de lenguaje grande (LLM) autoalojado, como Llama 3.1, que se entrega con vLLM, puedes poner en funcionamiento agentes de IA de manera eficiente y a gran escala, y mantener el control total de la pila de modelos. En este instructivo, se explica el proceso integral para llevar un agente basado en Python desde el desarrollo hasta la implementación en producción en un clúster de GKE Autopilot con aceleración de GPU.

Este instructivo está dirigido a ingenieros de aprendizaje automático (AA), desarrolladores y arquitectos de nube que estén interesados en usar las capacidades de organización de contenedores de Kubernetes para entregar aplicaciones de IA/AA basadas en agentes. Para obtener más información sobre los roles comunes y las tareas de ejemplo a los que hacemos referencia en el contenido de Google Cloud, consulta Roles de usuario y tareas comunes de GKE Enterprise.

Antes de comenzar, asegúrate de conocer la siguiente información:

Fondo

En esta sección, se describen las tecnologías clave que se usan en este instructivo.

Kit de desarrollo de agentes (ADK)

El Kit de desarrollo de agentes (ADK) es un framework flexible y modular para desarrollar y, luego, implementar agentes de IA. Si bien está optimizado para Gemini y el ecosistema de Google, el ADK no requiere que uses un modelo o una implementación específicos, y está diseñado para ser compatible con otros frameworks. El ADK se diseñó para que el desarrollo de agentes se asemeje más al desarrollo de software, de modo que los desarrolladores puedan crear, implementar y coordinar con mayor facilidad arquitecturas basadas en agentes que abarcan desde tareas básicas hasta flujos de trabajo complejos.

Para obtener más información, consulta la documentación del ADK.

Servicio de Kubernetes administrado por GKE

Google Cloud ofrece una variedad de servicios, incluido GKE, que es adecuado para implementar y administrar cargas de trabajo de IA/AA. GKE es un servicio administrado de Kubernetes que simplifica la implementación, el escalamiento y la administración de aplicaciones en contenedores. GKE proporciona la infraestructura necesaria, incluidos recursos escalables, procesamiento distribuido y redes eficientes, para satisfacer las demandas computacionales de los LLM.

Para obtener más información sobre los conceptos clave de Kubernetes, consulta Comienza a aprender sobre Kubernetes. Para obtener más información sobre GKE y cómo te ayuda a escalar, automatizar y administrar Kubernetes, consulta la Descripción general de GKE.

vLLM

vLLM es un framework de entrega de LLM de código abierto altamente optimizado que puede aumentar la capacidad de procesamiento de entrega en GPUs, con funciones como las siguientes:

Implementación optimizada de transformadores con PagedAttention.
Agrupación en lotes continua para mejorar la capacidad de procesamiento general de la entrega
Paralelismo de tensor y entrega distribuida en varias GPUs

Para obtener más información, consulta la documentación de vLLM.

Objetivos

En este instructivo, se muestra cómo realizar lo siguiente:

Configura tu entorno de Google Cloud .
Aprovisiona un clúster de GKE habilitado para GPU.
Implementa un modelo Llama 3.1 con el servidor de inferencia de vLLM.
Compila una imagen de contenedor para tu agente basado en el ADK.
Implementa el agente en el clúster de GKE y conéctalo al LLM alojado por tu cuenta.
Prueba el agente implementado.

Arquitectura

En este instructivo, se presenta una arquitectura escalable para implementar aplicaciones de IA con agentes en GKE. La aplicación del agente del ADK se ejecuta en un grupo de nodos de CPU estándar, y el LLM autohospedado (Llama 3.1 en vLLM) se ejecuta en un grupo de nodos habilitado para GPU, ambos dentro del mismo clúster de GKE. Esta arquitectura separa la lógica de la aplicación del agente de la carga de trabajo de inferencia del LLM, lo que permite que cada componente se escale y administre de forma independiente.

La arquitectura tiene dos componentes principales, cada uno en su propia Deployment de GKE:

Aplicación del agente de ADK: La lógica comercial y las herramientas (como get_weather) personalizadas de tu agente se encuentran en una imagen de contenedor. La imagen se ejecuta en un grupo de nodos de CPU estándar y se comunica con el LLM a través de un servicio interno de Kubernetes.
LLM autoalojado (Llama 3.1 en vLLM): El modelo Llama 3.1 se ejecuta en un servidor vLLM dedicado en un grupo de nodos habilitado para GPU. Esta implementación usa una imagen de contenedor pública (vllm/vllm-openai:v0.8.5) que está configurada para descargar y entregar el modelo especificado de Hugging Face cuando se inicia el contenedor. El agente se comunica con este servidor a través de una API de REST expuesta por el servicio de Kubernetes de vllm-llama3-service.

Tanto el agente del ADK como las implementaciones de vLLM se ejecutan en el mismo clúster de GKE. Esta colocación conjunta dentro de un solo clúster simplifica la administración, la implementación y las redes, a la vez que permite la asignación de hardware especializado para los componentes de la aplicación.

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

Revisa los precios de cada servicio para comprender los costos potenciales.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin, roles/cloudbuild.builds.editor, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Ir a IAM
2. Selecciona el proyecto.
3. Haz clic en Otorgar acceso.
4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.
5. En la lista Seleccionar un rol, elige uno.
6. Para otorgar roles adicionales, haz clic en Agregar otro rol y agrega uno más.
7. Haz clic en Guardar.
8. Obtén un token de acceso de lectura de Hugging Face para descargar el modelo de Llama. También debes solicitar acceso al modelo Llama 3.1.

Implementa una aplicación de IA con agentes en GKE con el kit de desarrollo de agentes (ADK) y un LLM autohospedado

Fondo

Kit de desarrollo de agentes (ADK)

Servicio de Kubernetes administrado por GKE

vLLM

Objetivos

Arquitectura

Costos

Antes de comenzar

Check for the roles

Grant the roles

Prepare el entorno

Clona el proyecto de ejemplo

Crea y configura recursos de Google Cloud

gcloud

Autopilot

Estándar

Terraform

Configura `kubectl` para comunicarse con tu clúster

Compila la imagen del agente

Implementa el modelo

Implementa la aplicación del agente

Prueba tu agente implementado

Realiza una limpieza

Borra los recursos implementados

gcloud

Terraform

¿Qué sigue?

Implementa una aplicación de IA con agentes en GKE con el kit de desarrollo de agentes (ADK) y un LLM autohospedado Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Fondo

Kit de desarrollo de agentes (ADK)

Servicio de Kubernetes administrado por GKE

vLLM

Objetivos

Arquitectura

Costos

Antes de comenzar

Check for the roles

Grant the roles

Prepare el entorno

Clona el proyecto de ejemplo

Crea y configura recursos de Google Cloud

gcloud

Autopilot

Estándar

Terraform

Configura kubectl para comunicarse con tu clúster

Compila la imagen del agente

Implementa el modelo

Implementa la aplicación del agente

Prueba tu agente implementado

Realiza una limpieza

Borra los recursos implementados

gcloud

Terraform

¿Qué sigue?

Implementa una aplicación de IA con agentes en GKE con el kit de desarrollo de agentes (ADK) y un LLM autohospedado

Configura `kubectl` para comunicarse con tu clúster