Documentazione sull'orchestrazione di AI/ML su Cloud Run

Cloud Run è una piattaforma completamente gestita che ti consente di eseguire le tue applicazioni containerizzate, inclusi i carichi di lavoro di AI/ML, direttamente sull'infrastruttura scalabile di Google. Gestisce l'infrastruttura per te, così puoi concentrarti sulla scrittura del codice anziché dedicare tempo al funzionamento, alla configurazione e allo scaling delle risorse Cloud Run. Le funzionalità di Cloud Run forniscono quanto segue:

  • Acceleratori hardware: accedi e gestisci le GPU per l'inferenza su larga scala.
  • Supporto dei framework: esegui l'integrazione con i framework di servizio dei modelli che già conosci e di cui ti fidi, come Hugging Face, TGI e vLLM.
  • Piattaforma gestita: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.

Esplora i nostri tutorial e le best practice per scoprire come Cloud Run può ottimizzare i tuoi carichi di lavoro di AI/ML.

  • Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
  • Usufruisci dell'utilizzo gratuito di oltre 20 prodotti popolari, tra cui Compute Engine e le API AI.
  • Nessun addebito automatico, nessun impegno.

Continua a esplorare con oltre 20 prodotti sempre senza costi.

Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Esplora la formazione autonoma, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi su come utilizzare e collegare i servizi Google Cloud .
Caso d'uso
Casi d'uso

Utilizza le GPU NVIDIA L4 su Cloud Run per l'inferenza AI in tempo reale, inclusi i vantaggi di avvio a freddo rapido e scalabilità a zero per i modelli linguistici di grandi dimensioni (LLM).

GPU LLM

Caso d'uso
Casi d'uso

Scopri come utilizzare Cloud Run per applicazioni di AI pronte per la produzione. Questa guida descrive casi d'uso come la suddivisione del traffico per i prompt dei test A/B, i pattern RAG (Retrieval-Augmented Generation) e la connettività agli spazi vettoriali.

Applicazioni di AI Suddivisione del traffico per i test A/B Pattern RAG Archivi vettoriali Connettività agli archivi vettoriali

Caso d'uso
Casi d'uso

Deployment con un clic da Google AI Studio a Cloud Run e al server MCP (Model Context Protocol) di Cloud Run per abilitare gli agenti AI negli IDE o negli SDK per agenti ed eseguire il deployment delle app.

Server MCP Deployment Cloud Run

Caso d'uso
Casi d'uso

Integra le GPU NVIDIA L4 con Cloud Run per la gestione efficiente in termini di costi degli LLM. Questa guida enfatizza la scalabilità a zero e fornisce i passaggi di deployment per modelli come Gemma 2 con Ollama.

LLM GPU Ollama Ottimizzazione dei costi

Caso d'uso
Casi d'uso

Disaccoppia i file di modelli di grandi dimensioni dall'immagine container utilizzando Cloud Storage FUSE. Il disaccoppiamento migliora i tempi di compilazione, semplifica gli aggiornamenti e crea un'architettura di pubblicazione più scalabile.

Packaging del modello Cloud Storage FUSE Best practice Modelli di grandi dimensioni

Caso d'uso
Casi d'uso

Utilizza il framework Cog, ottimizzato per il servizio ML, per semplificare il packaging e il deployment dei container in Cloud Run.

Ingranaggio Packaging del modello Deployment Tutorial

Caso d'uso
Casi d'uso

Utilizza Cloud Run per l'inferenza ML leggera e crea uno stack di monitoraggio conveniente utilizzando servizi GCP nativi come Cloud Logging e BigQuery.

Monitoraggio MLOps Efficienza dei costi Inferenza

Caso d'uso
Casi d'uso

Esegui il deployment di una semplice applicazione Flask che chiama l'API Vertex AI Generative AI su un servizio Cloud Run scalabile.

IA generativa Vertex AI Flask Deployment

Caso d'uso
Casi d'uso

Utilizza il codice Python di Gemma da AI Studio ed esegui il deployment direttamente in un'istanza Cloud Run, sfruttando Secret Manager per la gestione sicura delle chiavi API.

AI Studio Gemma Deployment Tutorial

Video correlati