Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa in un endpoint per l'inferenza online.
Controlla Model Garden
Se il modello è in Model Garden, puoi eseguirne il deployment facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.
In alternativa, puoi eseguire una delle seguenti operazioni:
Se il tuo modello è simile a uno in Model Garden, potresti essere in grado di riutilizzare direttamente uno dei container di Model Garden.
Crea il tuo container personalizzato conforme ai requisiti dei container personalizzati per l'inferenza prima di importare il modello in Model Registry di Gemini Enterprise Agent Platform. Una volta importato, diventa una
modelrisorsa che puoi eseguire il deployment in un endpoint.Puoi utilizzare i Dockerfile e gli script che utilizziamo per creare i nostri container di Model Garden come riferimento o punto di partenza per creare i tuoi container personalizzati.
Gestire le inferenze con NVIDIA NIM
NVIDIA Inference Microservices (NIM) sono modelli di AI preaddestrati e ottimizzati confezionati come microservizi. Sono progettati per semplificare il deployment di AI ad alte prestazioni e pronte per la produzione nelle applicazioni.
NVIDIA NIM può essere utilizzato insieme a Artifact Registry e Gemini Enterprise Agent Platform per eseguire il deployment di modelli di AI generativa per l'inferenza online.
Impostazioni per i container personalizzati
Questa sezione descrive i campi di
containerSpec del modello che potresti dover
specificare durante l'importazione di modelli di AI generativa.
Puoi specificare questi campi utilizzando l'API REST di Agent Platform o il
gcloud ai models upload comando.
Per saperne di più, vedi
Campi API relativi ai container.
sharedMemorySizeMbAlcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione tra processi (IPC) che consente a più processi di accedere e manipolare un blocco di memoria comune. La dimensione predefinita della memoria condivisa è 64 MB.
Alcuni server del modello, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza memoria condivisa sufficiente, alcuni server del modello non possono erogare inferenze per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, è un dettaglio di implementazione del container e del modello. Consulta la documentazione del server del modello per le linee guida.
Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di una maggiore memoria condivisa può migliorare le prestazioni degli acceleratori senza funzionalità NVLink (ad esempio, L4), se il container del modello richiede la comunicazione tra le GPU.
Per informazioni su come specificare un valore personalizzato per la memoria condivisa, vedi Campi API relativi ai container.
startupProbeUn probe di avvio è un probe facoltativo utilizzato per rilevare l'avvio del container. Questo probe viene utilizzato per ritardare il probe di integrità e i controlli di attività finché il container non viene avviato, il che aiuta a impedire che i container con avvio lento vengano chiusi prematuramente.
Per saperne di più, consulta Controlli di integrità.
healthProbeIl probe di integrità controlla se un container è pronto ad accettare il traffico. Se non viene fornito un probe di integrità, Agent Platform utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del container e cercano una risposta
200 OKdal server del modello.Se il server del modello risponde con
200 OKprima che il modello sia completamente caricato, il che è possibile, soprattutto per i modelli di grandi dimensioni, il controllo di integrità avrà esito positivo prematuramente e Gemini Enterprise Agent Platform instraderà il traffico al container prima che sia pronto.In questi casi, specifica un probe di integrità personalizzato che abbia esito positivo solo dopo che il modello è completamente caricato e pronto ad accettare il traffico.
Per saperne di più, consulta Controlli di integrità.
Limitazioni
Tieni presenti le seguenti limitazioni durante il deployment dei modelli di AI generativa:
- I modelli di AI generativa possono essere sottoposti a deployment solo su una singola macchina. Il deployment multi-host non è supportato.
- Per i modelli di grandi dimensioni che non rientrano nella vRAM più grande supportata, come Llama 3.1 405B, ti consigliamo di quantizzarli per adattarli.