Questa guida fornisce una panoramica sull'utilizzo di Cloud Run per ospitare app, eseguire inferenze e creare workflow di AI.
Cloud Run per l'hosting di applicazioni di AI, agenti ed endpoint API scalabili
Cloud Run fornisce una piattaforma completamente gestita che scala le tue app e i tuoi carichi di lavoro di AI.
Quando ospiti app di AI su Cloud Run, in genere hai i seguenti componenti architetturali:
- Serving e orchestrazione: esegui il deployment del codice o del container dell'applicazione su Cloud Run.
- Modelli di AI: utilizzi modelli di AI di Google, modelli open source o modelli personalizzati con la tua app.
- Integrazioni: puoi connetterti a servizi Google Cloud o di terze parti per memoria, database, archiviazione, sicurezza e altro ancora.
- Strumenti: puoi connetterti a strumenti per altre attività e operazioni.
Il seguente diagramma mostra una panoramica di alto livello dell'utilizzo di Cloud Run come piattaforma di hosting per le app di AI:
Come mostrato nel diagramma:
All'interno del livello di gestione e orchestrazione, un servizio Cloud Run funge da endpoint API scalabile per la logica principale della tua applicazione. Gestisce in modo efficiente più utenti simultanei tramite la scalabilità automatica, on demand e rapida delle istanze.
Porta il tuo container da eseguire il deployment in Cloud Run. Puoi pacchettizzare l'applicazione e la relativa dipendenza in un container oppure fornire il codice sorgente e lasciare che Cloud Run lo compili automaticamente in un container per il deployment. Per i deployment del codice sorgente, puoi utilizzare qualsiasi linguaggio, framework open source o SDK per creare le tue app di AI.
La tua app AI funge da endpoint API scalabile che gestisce le richieste in entrata e invia i dati a un modello di AI preaddestrato per l'elaborazione, quindi restituisce i risultati.
Cloud Run è integrato con i modelli di Google, come i modelli Gemini e Vertex AI, e può essere integrato con modelli open source, come Llama e Gemma. Se hai un modello personalizzato che hai addestrato tu, puoi utilizzarlo anche con la tua risorsa Cloud Run.
Google Cloud offre un'ampia gamma di soluzioni per supportare l'infrastruttura della tua applicazione AI. Alcune Google Cloud integrazioni che funzionano bene con la tua app AI includono:
- Memoria e database
- Breve termine
- Memorystore è un servizio di gestione dei dati di memorizzazione nella cache e temporanea ad accesso elevato che fornisce una cache veloce ed esterna per l'archiviazione dei dati a breve termine.
- Lungo termine
- AlloyDB per PostgreSQL
è un database compatibile con PostgreSQL progettato per carichi di lavoro
transazionali e analitici impegnativi. Offre la generazione di vector embedding integrata e un indice vettoriale ad alta velocità, il che lo rende veloce per la ricerca semantica rispetto all'implementazione
pgvectorstandard. - Cloud SQL è un servizio di database relazionale per MySQL, PostgreSQL e SQL Server che può fungere anche da archivio vettoriale con l'estensione
pgvectorper PostgreSQL. - Firestore è un servizio di database di documenti NoSQL scalabile che include funzionalità di ricerca vettoriale integrate.
- AlloyDB per PostgreSQL
è un database compatibile con PostgreSQL progettato per carichi di lavoro
transazionali e analitici impegnativi. Offre la generazione di vector embedding integrata e un indice vettoriale ad alta velocità, il che lo rende veloce per la ricerca semantica rispetto all'implementazione
- Breve termine
- Spazio di archiviazione
- Cloud Storage è una soluzione di archiviazione di oggetti per contenere grandi set di dati per l'addestramento dei modelli, file di input/output per l'applicazione o artefatti del modello.
- Sicurezza
- Secret Manager è un servizio di gestione di secret e credenziali che fornisce un modo sicuro e centralizzato per archiviare dati sensibili come chiavi API, password e credenziali, spesso necessari alle applicazioni di AI per interagire con servizi esterni.
Per saperne di più, vedi Connettersi ai servizi Google Cloud .
- Memoria e database
Gli strumenti consentono alle tue app e ai tuoi modelli di AI di interagire con servizi, API o siti web eseguiti esternamente o su Cloud Run.
Ad esempio, se la tua app AI è un agente AI, il tuo agente potrebbe inviare una richiesta a un server MCP per eseguire uno strumento esterno o utilizzare strumenti in esecuzione nel tuo container, come l'esecuzione di codice, l'utilizzo del computer, il recupero di informazioni e così via.
Ospitare modelli su Cloud Run per l'inferenza AI
Oltre a creare applicazioni e agenti che utilizzano un modello linguistico di grandi dimensioni (LLM), puoi anche attivare le GPU con Cloud Run per eseguire modelli preaddestrati o personalizzati con deployment automatico per l'inferenza dell'AI.
Le GPU Cloud Run consentono di gestire il gran numero di operazioni necessarie per eseguire attività computazionalmente impegnative per i carichi di lavoro di inferenza AI. Esegui il deployment di modelli di AI come immagini container o dal codice sorgente e utilizza una serie di metodi per eseguire il deployment delle risorse Cloud Run.