Documentazione sull'orchestrazione di AI/ML su Cloud Run
Cloud Run è una piattaforma completamente gestita che ti consente di eseguire le tue applicazioni containerizzate, inclusi i carichi di lavoro di AI/ML, direttamente sull'infrastruttura scalabile di Google. Gestisce l'infrastruttura per te, così puoi concentrarti sulla scrittura del codice anziché dedicare tempo al funzionamento, alla configurazione e allo scaling delle risorse Cloud Run. Le funzionalità di Cloud Run forniscono quanto segue:
- Acceleratori hardware: accedi e gestisci le GPU per l'inferenza su larga scala.
- Supporto dei framework: esegui l'integrazione con i framework di servizio dei modelli che già conosci e di cui ti fidi, come Hugging Face, TGI e vLLM.
- Piattaforma gestita: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.
Esplora i nostri tutorial e le best practice per scoprire come Cloud Run può ottimizzare i tuoi carichi di lavoro di AI/ML.
Inizia la tua proof of concept con 300 $ di credito gratuito
- Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
- Usufruisci dell'utilizzo gratuito di oltre 20 prodotti popolari, tra cui Compute Engine e le API AI.
- Nessun addebito automatico, nessun impegno.
Continua a esplorare con oltre 20 prodotti sempre senza costi.
Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Esegui soluzioni di AI
- Concept
- Concept
- Istruzioni
- Istruzioni
- Istruzioni
- Tutorial
- Concept
- Concept
Inferenza con le GPU
- Tutorial
- Guida
- Tutorial
- Best practice
- Tutorial
- Tutorial
- Best practice
- Best practice
Risoluzione dei problemi
- Concept
- Istruzioni
- Istruzioni
- Istruzioni
Risorse correlate
Esegui le tue applicazioni di inferenza AI su Cloud Run con le GPU NVIDIA
Utilizza le GPU NVIDIA L4 su Cloud Run per l'inferenza AI in tempo reale, inclusi i vantaggi di avvio a freddo rapido e scalabilità a zero per i modelli linguistici di grandi dimensioni (LLM).
Cloud Run: il modo più veloce per portare le tue applicazioni di AI in produzione
Scopri come utilizzare Cloud Run per applicazioni di AI pronte per la produzione. Questa guida descrive casi d'uso come la suddivisione del traffico per i prompt dei test A/B, i pattern RAG (Retrieval-Augmented Generation) e la connettività agli spazi vettoriali.
Deployment dell'AI semplificato: esegui il deployment della tua app su Cloud Run da AI Studio o da agenti AI compatibili con MCP
Deployment con un clic da Google AI Studio a Cloud Run e al server MCP (Model Context Protocol) di Cloud Run per abilitare gli agenti AI negli IDE o negli SDK per agenti ed eseguire il deployment delle app.
Potenziare Cloud Run con la potenza della GPU: una nuova era per i carichi di lavoro di AI
Integra le GPU NVIDIA L4 con Cloud Run per la gestione efficiente in termini di costi degli LLM. Questa guida enfatizza la scalabilità a zero e fornisce i passaggi di deployment per modelli come Gemma 2 con Ollama.
Continui a creare pacchetti di modelli di AI nei container? Fai così su Cloud Run
Disaccoppia i file di modelli di grandi dimensioni dall'immagine container utilizzando Cloud Storage FUSE. Il disaccoppiamento migliora i tempi di compilazione, semplifica gli aggiornamenti e crea un'architettura di pubblicazione più scalabile.
Pacchettizza ed esegui il deployment dei tuoi modelli di machine learning su Google Cloud con Cog
Utilizza il framework Cog, ottimizzato per il servizio ML, per semplificare il packaging e il deployment dei container in Cloud Run.
Deployment e monitoraggio di modelli ML con Cloud Run: leggero, scalabile ed economico
Utilizza Cloud Run per l'inferenza ML leggera e crea uno stack di monitoraggio conveniente utilizzando servizi GCP nativi come Cloud Logging e BigQuery.
Deployment di un'app di AI generativa Google Cloud in un sito web con Cloud Run
Esegui il deployment di una semplice applicazione Flask che chiama l'API Vertex AI Generative AI su un servizio Cloud Run scalabile.
Deployment di Gemma direttamente da AI Studio a Cloud Run
Utilizza il codice Python di Gemma da AI Studio ed esegui il deployment direttamente in un'istanza Cloud Run, sfruttando Secret Manager per la gestione sicura delle chiavi API.