Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted

Autopilot Standard

Questo tutorial mostra come eseguire il deployment e gestire applicazioni di AI/ML agentiche containerizzate utilizzando Google Kubernetes Engine (GKE). Combinando Google Agent Development Kit (ADK) con un modello linguistico di grandi dimensioni (LLM) self-hosted come Llama 3.1 fornito da vLLM, puoi rendere operativi gli agenti AI in modo efficiente e su scala, mantenendo il pieno controllo dello stack di modelli. Questo tutorial illustra l'intero processo di sviluppo e deployment di un agente basato su Python in produzione su un cluster GKE Autopilot con accelerazione GPU.

Questo tutorial è rivolto a ingegneri di machine learning (ML), sviluppatori e architetti cloud interessati a utilizzare le funzionalità di orchestrazione dei container Kubernetes per pubblicare applicazioni di AI/ML basate su agenti. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud GKE Enterprise, consulta Ruoli e attività comuni degli utenti di GKE Enterprise.

Prima di iniziare, assicurati di avere familiarità con quanto segue:

Sfondo

Questa sezione descrive le tecnologie chiave utilizzate in questo tutorial.

Agent Development Kit (ADK)

Agent Development Kit (ADK) è un framework flessibile e modulare per lo sviluppo e il deployment di agenti AI. Sebbene sia ottimizzato per Gemini e l'ecosistema Google, ADK non richiede l'utilizzo di un modello o di un deployment specifico ed è progettato per la compatibilità con altri framework. ADK è stato progettato per rendere lo sviluppo di agenti più simile allo sviluppo di software, in modo che gli sviluppatori possano creare, eseguire il deployment e orchestrare più facilmente architetture agentiche che vanno dalle attività di base ai workflow complessi.

Per saperne di più, consulta la documentazione dell'ADK.

Servizio Kubernetes gestito GKE

Google Cloud offre una gamma di servizi, tra cui GKE, particolarmente adatti al deployment e alla gestione dei workload AI/ML. GKE è un servizio Kubernetes gestito che semplifica il deployment, lo scaling e la gestione delle applicazioni containerizzate. GKE fornisce l'infrastruttura necessaria, tra cui risorse scalabili, computing distribuito e networking efficiente, per gestire le richieste di calcolo degli LLM.

Per ulteriori informazioni sui concetti chiave di Kubernetes, consulta Inizia a scoprire Kubernetes. Per saperne di più su GKE e su come ti aiuta a scalare, automatizzare e gestire Kubernetes, consulta la panoramica di GKE.

vLLM

vLLM è un framework di erogazione degli LLM open source altamente ottimizzato che può aumentare la velocità effettiva di erogazione sulle GPU, con funzionalità come le seguenti:

Implementazione ottimizzata del transformer con PagedAttention.
Batching continuo per migliorare la velocità effettiva complessiva della pubblicazione.
Parallelismo dei tensori e pubblicazione distribuita su più GPU.

Per saperne di più, consulta la documentazione di vLLM.

Obiettivi

Questo tutorial mostra come:

Configura l'ambiente. Google Cloud
Esegui il provisioning di un cluster GKE abilitato per la GPU.
Esegui il deployment di un modello Llama 3.1 utilizzando il server di inferenza vLLM.
Crea un'immagine container per l'agente basato sull'ADK.
Esegui il deployment dell'agente nel cluster GKE e connettilo all'LLM self-hosted.
Testa l'agente di cui hai eseguito il deployment.

Architettura

Questo tutorial presenta un'architettura scalabile per il deployment di applicazioni di AI agentica su GKE. L'applicazione agente ADK viene eseguita su un pool di nodi CPU standard e l'LLM autogestito (Llama 3.1 su vLLM) viene eseguito su un pool di nodi abilitato alla GPU, entrambi all'interno dello stesso cluster GKE. Questa architettura separa la logica dell'applicazione dell'agente dal carico di lavoro di inferenza del LLM, il che consente di scalare e gestire ogni componente in modo indipendente.

L'architettura ha due componenti principali, ognuno nel proprio deployment GKE:

Applicazione agente ADK: la logica di business e gli strumenti personalizzati dell'agente (come get_weather) si trovano in un'immagine container. L'immagine viene eseguita su un pool di nodi CPU standard e comunica con l'LLM utilizzando un servizio Kubernetes interno.
LLM self-hosted (Llama 3.1 su vLLM): il modello Llama 3.1 viene eseguito su un server vLLM dedicato in un pool di nodi abilitato per la GPU. Questo deployment utilizza un'immagine container pubblica (vllm/vllm-openai:v0.8.5) configurata per scaricare e pubblicare il modello specificato da Hugging Face all'avvio del container. L'agente comunica con questo server tramite un'API REST esposta dal servizio Kubernetes vllm-llama3-service.

Sia l'agente ADK che i deployment vLLM vengono eseguiti sullo stesso cluster GKE. Questa collocazione all'interno di un singolo cluster semplifica il networking, la gestione e il deployment, consentendo comunque l'assegnazione di hardware specializzato per i componenti dell'applicazione.

Costi

Questo tutorial utilizza i seguenti componenti fatturabili di Google Cloud:

Esamina i prezzi di ogni servizio per comprendere i costi potenziali.

Prima di iniziare

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin, roles/cloudbuild.builds.editor, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Vai a IAM
2. Seleziona il progetto.
3. Fai clic su Concedi l'accesso.
4. Nel campo Nuove entità, inserisci il tuo identificatore dell'utente. In genere si tratta dell'indirizzo email di un Account Google.
5. Nell'elenco Seleziona un ruolo, seleziona un ruolo.
6. Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ogni ruolo successivo.
7. Fai clic su Salva.
8. Ottieni un token di accesso in lettura da Hugging Face per scaricare il modello Llama. Devi anche richiedere l'accesso al modello Llama 3.1.

Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted

Sfondo

Agent Development Kit (ADK)

Servizio Kubernetes gestito GKE

vLLM

Obiettivi

Architettura

Costi

Prima di iniziare

Check for the roles

Grant the roles

Prepara l'ambiente

Clona il progetto di esempio

Creare e configurare risorse Google Cloud

gcloud

Autopilot

Standard

Terraform

Configura `kubectl` per comunicare con il cluster

Crea l'immagine dell'agente

Esegui il deployment del modello

Esegui il deployment dell'applicazione agente

Testare l'agente di cui è stato eseguito il deployment

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

gcloud

Terraform

Passaggi successivi

Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Sfondo

Agent Development Kit (ADK)

Servizio Kubernetes gestito GKE

vLLM

Obiettivi

Architettura

Costi

Prima di iniziare

Check for the roles

Grant the roles

Prepara l'ambiente

Clona il progetto di esempio

Creare e configurare risorse Google Cloud

gcloud

Autopilot

Standard

Terraform

Configura kubectl per comunicare con il cluster

Crea l'immagine dell'agente

Esegui il deployment del modello

Esegui il deployment dell'applicazione agente

Testare l'agente di cui è stato eseguito il deployment

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

gcloud

Terraform

Passaggi successivi

Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted

Configura `kubectl` per comunicare con il cluster