Esegui il deployment di modelli di AI generativa

Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa in un endpoint per l'inferenza online.

Controlla Model Garden

Se il modello è in Model Garden, puoi eseguirne il deployment facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.

Vai a Model Garden

In alternativa, puoi eseguire una delle seguenti operazioni:

Gestire le inferenze con NVIDIA NIM

NVIDIA Inference Microservices (NIM) sono modelli di AI preaddestrati e ottimizzati confezionati come microservizi. Sono progettati per semplificare il deployment di AI ad alte prestazioni e pronte per la produzione nelle applicazioni.

NVIDIA NIM può essere utilizzato insieme a Artifact Registry e Gemini Enterprise Agent Platform per eseguire il deployment di modelli di AI generativa per l'inferenza online.

Impostazioni per i container personalizzati

Questa sezione descrive i campi di containerSpec del modello che potresti dover specificare durante l'importazione di modelli di AI generativa.

Puoi specificare questi campi utilizzando l'API REST di Agent Platform o il gcloud ai models upload comando. Per saperne di più, vedi Campi API relativi ai container.

sharedMemorySizeMb

Alcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione tra processi (IPC) che consente a più processi di accedere e manipolare un blocco di memoria comune. La dimensione predefinita della memoria condivisa è 64 MB.

Alcuni server del modello, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza memoria condivisa sufficiente, alcuni server del modello non possono erogare inferenze per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, è un dettaglio di implementazione del container e del modello. Consulta la documentazione del server del modello per le linee guida.

Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di una maggiore memoria condivisa può migliorare le prestazioni degli acceleratori senza funzionalità NVLink (ad esempio, L4), se il container del modello richiede la comunicazione tra le GPU.

Per informazioni su come specificare un valore personalizzato per la memoria condivisa, vedi Campi API relativi ai container.

startupProbe

Un probe di avvio è un probe facoltativo utilizzato per rilevare l'avvio del container. Questo probe viene utilizzato per ritardare il probe di integrità e i controlli di attività finché il container non viene avviato, il che aiuta a impedire che i container con avvio lento vengano chiusi prematuramente.

Per saperne di più, consulta Controlli di integrità.

healthProbe

Il probe di integrità controlla se un container è pronto ad accettare il traffico. Se non viene fornito un probe di integrità, Agent Platform utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del container e cercano una risposta 200 OK dal server del modello.

Se il server del modello risponde con 200 OK prima che il modello sia completamente caricato, il che è possibile, soprattutto per i modelli di grandi dimensioni, il controllo di integrità avrà esito positivo prematuramente e Gemini Enterprise Agent Platform instraderà il traffico al container prima che sia pronto.

In questi casi, specifica un probe di integrità personalizzato che abbia esito positivo solo dopo che il modello è completamente caricato e pronto ad accettare il traffico.

Per saperne di più, consulta Controlli di integrità.

Limitazioni

Tieni presenti le seguenti limitazioni durante il deployment dei modelli di AI generativa:

  • I modelli di AI generativa possono essere sottoposti a deployment solo su una singola macchina. Il deployment multi-host non è supportato.
  • Per i modelli di grandi dimensioni che non rientrano nella vRAM più grande supportata, come Llama 3.1 405B, ti consigliamo di quantizzarli per adattarli.