Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Best practice: inferenza AI sui servizi Cloud Run con GPU

Questa pagina fornisce le best practice per ottimizzare le prestazioni quando utilizzi un servizio Cloud Run con GPU per l'inferenza AI, concentrandosi sui modelli linguistici di grandi dimensioni (LLM). Per creare ed eseguire il deployment di un servizio Cloud Run in grado di rispondere in tempo reale agli eventi di scalabilità, devi:

Utilizza modelli che vengono caricati rapidamente e richiedono una trasformazione minima in strutture pronte per la GPU e ottimizza il modo in cui vengono caricati.
Utilizza configurazioni che consentano l'esecuzione simultanea massima ed efficiente per ridurre il numero di GPU necessarie per gestire una richiesta target al secondo, mantenendo i costi contenuti.

Modi consigliati per caricare modelli di machine learning di grandi dimensioni su Cloud Run

Google consiglia di scaricare i modelli ML da Cloud Storage e di accedervi tramite Google Cloud CLI. In alternativa, puoi archiviare i modelli all'interno delle immagini container, ma questo metodo è più adatto a modelli più piccoli di dimensioni inferiori a 10 GB.

Compromessi tra archiviazione e caricamento dei modelli ML

Ecco un confronto delle opzioni:

Posizione modello	Tempo di deployment	Esperienza di sviluppo	Tempo di avvio del container	Costo di archiviazione
Cloud Storage, scaricati contemporaneamente utilizzando il comando Google Cloud CLI `gcloud storage cp` o l'API Storage di Cloud Storage, come mostrato nell'esempio di codice per il download simultaneo di Transfer Manager.	Più veloce. Modello scaricato durante l'avvio del container. Assicurati che all'istanza Cloud Run sia allocata RAM sufficiente per archiviare i file del modello.	Leggermente più difficile da configurare, perché dovrai installare Google Cloud CLI sull'immagine o aggiornare il codice per utilizzare l'API Cloud Storage. Per saperne di più su come recuperare le credenziali dal server dei metadati, consulta Introduzione all'identità del servizio.	Veloce quando utilizzi le ottimizzazioni di rete. Google Cloud CLI scarica il file del modello in parallelo.	Una copia in Cloud Storage.
Cloud Storage, caricato utilizzando il montaggio del volume Cloud Storage FUSE	Più veloce. Modello scaricato durante l'avvio del container.	Facile da configurare, non richiede modifiche all'immagine Docker.	Veloce quando utilizzi le ottimizzazioni di rete.	Una copia in Cloud Storage.
Immagine container	Veloce. L'importazione in Cloud Run di un'immagine contenente un modello di grandi dimensioni richiederà più tempo.	Dovrai creare una nuova immagine ogni volta che vuoi utilizzare un modello diverso. Le modifiche all'immagine container richiedono un nuovo deployment, che potrebbe essere lento per le immagini di grandi dimensioni.	Dipende dalle dimensioni del modello. Per modelli molto grandi, utilizza Cloud Storage per prestazioni più prevedibili ma più lente.	Potenzialmente più copie in Artifact Registry.
Internet	Lenta. Modello scaricato durante l'avvio del container.	In genere più semplice (molti framework scaricano i modelli da repository centrali).	In genere scarsa e imprevedibile: I framework possono applicare trasformazioni del modello durante l'inizializzazione. (Devi farlo in fase di compilazione). L'host del modello e le librerie per il download del modello potrebbero non essere efficienti. Esiste un rischio di affidabilità associato al download da internet. L'avvio del servizio potrebbe non riuscire se la destinazione di download non è disponibile e il modello sottostante scaricato potrebbe cambiare, il che riduce la qualità. Ti consigliamo l'hosting nel tuo bucket Cloud Storage.	Dipende dal provider host del modello.

Archivia i modelli in Cloud Storage

Per ottimizzare il caricamento dei modelli ML quando li carichi da Cloud Storage, utilizzando i montaggi dei volumi Cloud Storage o direttamente l'API Storage o la riga di comando di Cloud Storage, devi utilizzare VPC diretto con il valore dell'impostazione di uscita impostato su all-traffic, insieme all'accesso privato Google.

A un costo aggiuntivo, l'utilizzo di Rapid Cache può ridurre la latenza di caricamento del modello memorizzando in modo efficiente i dati sugli SSD per letture più rapide.

Per ridurre i tempi di lettura del modello, prova le seguenti opzioni di montaggio per attivare le funzionalità di Cloud Storage FUSE:

cache-dir: attiva la funzionalità di memorizzazione nella cache dei file con un montaggio del volume in memoria da utilizzare come directory sottostante per rendere persistenti i file. Imposta il valore dell'opzione di montaggio cache-dir sul nome del volume in memoria nel formato cr-volume:{volume name}. Ad esempio, se hai un volume in memoria denominato in-memory-1 che vuoi utilizzare come directory della cache, specifica cr-volume:in-memory-1. Quando questo valore è impostato, puoi anche impostare altri file-cache flag disponibili per la configurazione della cache.
enable-buffered-read: imposta il campo enable-buffered-read su true per il recupero asincrono delle parti di un oggetto Cloud Storage in un buffer in memoria. In questo modo, le letture successive vengono eseguite dal buffer anziché richiedere chiamate di rete. Quando configuri questo campo, puoi anche impostare il campo read-global-max-blocks per configurare il numero massimo di blocchi disponibili per le letture bufferizzate in tutti gli handle dei file.

Quando vengono utilizzati sia cache-dir che enable-buffered-read, cache-dir ha la precedenza. Tieni presente che l'attivazione di una di queste funzionalità modificherà la contabilizzazione delle risorse del processo Cloud Storage FUSE, che verranno conteggiate in base ai limiti di memoria del container. Valuta la possibilità di aumentare il limite di memoria del container seguendo le istruzioni su come configurare i limiti di memoria.

Archiviare modelli nelle immagini container

Se memorizzi il modello ML nell'immagine container, il caricamento del modello trarrà vantaggio dall'infrastruttura di streaming dei container ottimizzata di Cloud Run. Tuttavia, la creazione di immagini container che includono modelli ML è un processo che richiede molte risorse, soprattutto quando si lavora con modelli di grandi dimensioni. In particolare, il processo di compilazione può diventare un collo di bottiglia per la velocità effettiva di rete. Quando utilizzi Cloud Build, ti consigliamo di utilizzare una macchina di compilazione più potente con prestazioni di calcolo e networking migliorate. Per farlo, crea un'immagine utilizzando un file di configurazione della build che includa i seguenti passaggi:

steps:
- name: 'gcr.io/cloud-builders/docker'
  args: ['build', '-t', 'IMAGE', '.']
- name: 'gcr.io/cloud-builders/docker'
  args: ['push', 'IMAGE']
images:
- IMAGE
options:
 machineType: 'E2_HIGHCPU_32'
 diskSizeGb: '500'

Puoi creare una copia del modello per immagine se il livello contenente il modello è distinto tra le immagini (hash diverso). Potrebbero esserci costi aggiuntivi di Artifact Registry perché potrebbe esserci una copia del modello per immagine se il livello del modello è univoco per ogni immagine.

Caricare modelli da internet

Per ottimizzare il caricamento dei modelli ML da internet, instrada tutto il traffico tramite la rete VPC con il valore dell'impostazione di uscita impostato su all-traffic e configura Cloud NAT per raggiungere la rete internet pubblica con una larghezza di banda elevata.

Considerazioni su build, deployment, runtime e progettazione del sistema

Le sezioni seguenti descrivono le considerazioni relative a build, deployment, runtime e progettazione del sistema.

Al tempo di compilazione

Il seguente elenco mostra gli aspetti da tenere in considerazione quando pianifichi la build:

Scegli un'immagine di base adatta. Ti consigliamo di iniziare con un'immagine di Deep Learning Containers o del registro di container NVIDIA per il framework ML che utilizzi. Queste immagini hanno installato i pacchetti più recenti relativi alle prestazioni. Non è consigliabile creare un'immagine personalizzata.
Scegli modelli quantizzati a 4 bit per massimizzare la concorrenza, a meno che tu non possa dimostrare che influiscono sulla qualità dei risultati. La quantizzazione produce modelli più piccoli e più veloci, riducendo la quantità di memoria GPU necessaria per gestire il modello e può aumentare il parallelismo in fase di runtime. Idealmente, i modelli devono essere addestrati alla profondità di bit di destinazione anziché essere quantizzati.
Scegli un formato del modello con tempi di caricamento rapidi per ridurre al minimo il tempo di avvio del container, ad esempio GGUF. Questi formati riflettono in modo più accurato il tipo di quantizzazione target e richiedono meno trasformazioni quando vengono caricati sulla GPU. Per motivi di sicurezza, non utilizzare checkpoint in formato pickle.
Crea e preriscalda le cache LLM al tempo di compilazione. Avvia l'LLM sulla macchina di build durante la creazione dell'immagine Docker. Abilita la memorizzazione nella cache dei prompt e fornisci prompt comuni o di esempio per preparare la cache per l'utilizzo reale. Salva gli output generati per caricarli in fase di runtime.
Salva il tuo modello di inferenza generato durante il tempo di compilazione. Ciò consente di risparmiare tempo significativo rispetto al caricamento di modelli archiviati in modo meno efficiente e all'applicazione di trasformazioni come la quantizzazione all'avvio del container.

Al momento del deployment

Il seguente elenco mostra le considerazioni da tenere presenti quando pianifichi l'implementazione:

Assicurati di impostare la concorrenza del servizio in modo accurato in Cloud Run.
Modifica i probe di avvio in base alla tua configurazione.

I probe di avvio determinano se il container è stato avviato ed è pronto ad accettare il traffico. Tieni presenti questi punti chiave quando configuri i probe di avvio:

Tempo di avvio adeguato: lascia tempo sufficiente per l'inizializzazione e il caricamento completi del container, inclusi i modelli.
Verifica della preparazione del modello: configura il probe in modo che venga superato solo quando l'applicazione è pronta a gestire le richieste. Molti motori di pubblicazione lo ottengono automaticamente quando il modello viene caricato nella memoria della GPU, impedendo richieste premature.

Tieni presente che Ollama può aprire una porta TCP prima che venga caricato un modello. Per risolvere questo problema:

Modelli di precaricamento: consulta la documentazione di Ollama per indicazioni sul precaricamento del modello all'avvio.

In fase di esecuzione

Gestisci attivamente la finestra contestuale supportata. Più piccola è la finestra contestuale supportata, più query puoi supportare in esecuzione in parallelo. I dettagli su come farlo dipendono dal framework.
Utilizza le cache LLM generate al tempo di compilazione. Fornisci gli stessi flag che hai utilizzato durante il tempo di compilazione quando hai generato la cache di prompt e prefisso.
Carica dal modello salvato che hai appena scritto. Consulta Compromessi tra archiviazione e caricamento dei modelli per un confronto su come caricare il modello.
Valuta la possibilità di utilizzare una cache delle coppie chiave-valore quantizzata se il tuo framework la supporta. In questo modo è possibile ridurre i requisiti di memoria per query e configurare un maggiore parallelismo. Tuttavia, può influire anche sulla qualità.
Regola la quantità di memoria GPU da riservare a pesi, attivazioni e cache chiave-valore del modello. Impostalo sul valore più alto possibile senza che si verifichi un errore di esaurimento della memoria.
Verifica se il tuo framework offre opzioni per migliorare le prestazioni di avvio del container (ad esempio, utilizzando la parallelizzazione del caricamento del modello).
Configura correttamente la concorrenza all'interno del codice del servizio. Assicurati che il codice del servizio sia configurato per funzionare con le impostazioni di concorrenza del servizio Cloud Run.

A livello di progettazione del sistema

Aggiungi cache semantiche, se opportuno. In alcuni casi, la memorizzazione nella cache di intere query e risposte può essere un ottimo modo per limitare il costo delle query comuni.
Controlla la varianza nei preamboli. Le cache dei prompt sono utili solo quando contengono i prompt in sequenza. Le cache vengono memorizzate nella cache in base al prefisso. Gli inserimenti o le modifiche nella sequenza indicano che non sono memorizzati nella cache o sono presenti solo parzialmente.

Scalabilità automatica e GPU

Se utilizzi la scalabilità automatica predefinita di Cloud Run, Cloud Run scala automaticamente il numero di istanze di ogni revisione in base a fattori quali l'utilizzo della CPU e la concorrenza delle richieste. Tuttavia, Cloud Run non scala automaticamente il numero di istanze in base all'utilizzo della GPU.

Per una revisione con una GPU, se la revisione non ha un utilizzo significativo della CPU, Cloud Run esegue lo scale out per la concorrenza delle richieste. Per ottenere uno scaling ottimale per la concorrenza delle richieste, devi impostare un numero massimo di richieste in parallelo per istanza ottimale, come descritto nella sezione successiva.

Numero massimo di richieste in parallelo per istanza

L'impostazione Numero massimo di richieste in parallelo per istanza controlla il numero massimo di richieste che Cloud Run invia a una singola istanza contemporaneamente. Devi ottimizzare la concorrenza in modo che corrisponda alla concorrenza massima che il codice all'interno di ogni istanza può gestire con buone prestazioni.

Concorrenza massima e workload AI

Quando esegui un workload di inferenza AI su una GPU in ogni istanza, la concorrenza massima che il codice può gestire con un buon rendimento dipende da dettagli specifici del framework e dell'implementazione. I seguenti fattori influiscono sull'impostazione ottimale del numero massimo di richieste simultanee:

Numero di istanze del modello caricate sulla GPU
Numero di query parallele per modello
Utilizzo del batching
Parametri di configurazione batch specifici
Quantità di lavoro non GPU

Se il numero massimo di richieste simultanee è impostato su un valore troppo elevato, le richieste potrebbero finire per attendere all'interno dell'istanza l'accesso alla GPU, il che comporta un aumento della latenza. Se il numero massimo di richieste simultanee è impostato su un valore troppo basso, la GPU potrebbe essere sottoutilizzata, il che comporta che Cloud Run faccia lo scale out su un numero di istanze superiore al necessario.

Una regola generale per configurare il numero massimo di richieste simultanee per i carichi di lavoro AI è:

(Number of model instances * parallel queries per model) + (number of model instances * ideal batch size)

Ad esempio, supponiamo che un'istanza carichi 3 istanze del modello sulla GPU e che ogni istanza del modello possa gestire 4 query parallele. La dimensione del batch ideale è anche 4, perché è il numero di query parallele che ogni istanza del modello può gestire. Utilizzando la regola empirica, imposteresti le richieste simultanee massime 24: (3 * 4) + (3 * 4).

Tieni presente che questa formula è solo una regola empirica. L'impostazione ideale per il numero massimo di richieste simultanee dipende dai dettagli specifici della tua implementazione. Per ottenere il rendimento ottimale effettivo, ti consigliamo di testare il carico del servizio con diverse impostazioni del numero massimo di richieste simultanee per valutare quale opzione offre il rendimento migliore.

Compromessi tra velocità effettiva, latenza e costi

Consulta Compromessi tra velocità effettiva, latenza e costi per l'impatto delle richieste simultanee massime su velocità effettiva, latenza e costi. Tieni presente che tutti i servizi Cloud Run che utilizzano GPU devono avere configurata la fatturazione basata sulle istanze.

Best practice: inferenza AI sui servizi Cloud Run con GPU Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.