Gemini Enterprise Agent Platform offre diversi modi per pubblicare modelli linguistici di grandi dimensioni open source, tra cui Llama, DeepSeek, Mistral e Qwen, in Google Cloud. Questo documento fornisce una panoramica delle offerte di Gemini Enterprise Agent Platform per la pubblicazione di modelli open source e ti aiuta a scegliere l'opzione giusta per il tuo caso d'uso.
Opzioni di pubblicazione
Gemini Enterprise Agent Platform offre le seguenti opzioni per la pubblicazione di modelli open source. Ognuna di queste opzioni offre alta affidabilità e include Google Cloud le best practice di sicurezza per impostazione predefinita:
- Modello come servizio (MaaS): pubblica modelli open source utilizzando API gestite serverless.
- Modelli con deployment autonomo in Model Garden: esegue il deployment di modelli open source da Model Garden utilizzando il deployment con un solo clic o con ponderazioni personalizzate.
- Immagini container predefinite di Gemini Enterprise Agent Platform images: pubblica modelli open source utilizzando container predefiniti containers per framework di pubblicazione comuni, ad esempio vLLM, Hex-LLM e TGI.
- Container vLLM personalizzato: ti consente di creare ed eseguire il deployment del tuo container vLLM personalizzato per una maggiore flessibilità.
Quando utilizzare MaaS
Valuta la possibilità di utilizzare MaaS in questi scenari:
- Sviluppo e prototipazione rapidi: MaaS ti aiuta a integrare rapidamente le funzionalità LLM nelle applicazioni. È particolarmente utile per l'esplorazione iniziale, la prototipazione rapida e quando un time-to-market rapido è un obiettivo chiave.
- Riduzione al minimo del sovraccarico operativo: scegli MaaS quando il tuo team vuole concentrarsi sulla logica dell'applicazione anziché sulla gestione dell'infrastruttura. Google gestisce tutto il provisioning, lo scaling e la manutenzione di GPU/TPU, a vantaggio dei team che si concentrano sullo sviluppo di applicazioni anziché su MLOps o DevOps.
- Traffico variabile: il modello a pagamento a consumo supporta carichi di lavoro sperimentali o applicazioni con pattern di traffico imprevedibili e a raffica.
- Utilizzo predefinito: utilizza un'API gestita per le applicazioni che richiedono prestazioni coerenti ma non richiedono una personalizzazione approfondita del modello sottostante o dello stack di pubblicazione.
- Sicurezza e conformità: MaaS consente alle aziende di utilizzare le funzionalità di sicurezza e conformità di livello enterprise integrate. Google Cloud
- Utilizzo di modelli standard: utilizza MaaS quando un foundation model standard e non personalizzato soddisfa le tue esigenze.
Quando utilizzare i modelli con deployment autonomo in Model Garden
Le opzioni di deployment autonomo includono il deployment da Model Garden utilizzando container predefiniti o personalizzati. Valuta la possibilità di eseguire il deployment autonomo in questi scenari chiave:
- Ponderazioni personalizzate e modelli ottimizzati: il deployment autonomo è la scelta migliore quando l'applicazione richiede l'utilizzo di ponderazioni personalizzate o di una versione ottimizzata di un modello, offrendo una maggiore flessibilità per eseguire il deployment di modelli personalizzati in base alle tue esigenze specifiche. Puoi anche creare ed eseguire il deployment dei tuoi container di pubblicazione personalizzati. Ad esempio, utilizza questa opzione quando un modello richiede una logica di pre-elaborazione o post-elaborazione univoca.
- Carichi di lavoro prevedibili e ad alto volume: il deployment autonomo è un'opzione strategica ed economicamente vantaggiosa per le applicazioni di produzione con traffico prevedibile e ad alto volume. Sebbene richieda un maggiore investimento iniziale in ingegneria, può comportare un costo totale di proprietà (TCO) inferiore durante il ciclo di vita dell'applicazione grazie ai costi per token ottimizzati su larga scala.
- Controllo granulare dell'infrastruttura: utilizza il deployment autonomo quando devi ottimizzare le prestazioni e il budget scegliendo configurazioni hardware specifiche. Ciò include la selezione di tipi di macchine, GPU (ad esempio NVIDIA L4 o H100) o TPU esatti e framework di pubblicazione ottimizzati.
- Sicurezza e conformità rigorose: questo approccio supporta le applicazioni che devono rispettare policy di residenza dei dati specifiche o normative rigorose che vietano l'utilizzo di un servizio gestito multi-tenant. Ti consente di eseguire il deployment dei modelli in modo sicuro all'interno del tuo progetto e della rete Virtual Private Cloud Google Cloud fornendo il controllo completo sul percorso dei dati.
- Controllo granulare della località: gli endpoint dedicati ti consentono di eseguire il deployment su qualsiasi acceleratore Compute Engine in Google Cloud tutte le regioni.
Quando utilizzare i container predefiniti
Valuta la possibilità di utilizzare i container predefiniti di Gemini Enterprise Agent Platform in questi scenari:
- Prestazioni ottimizzate: Gemini Enterprise Agent Platform ottimizza e personalizza i container predefiniti per framework come vLLM per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta all'interno di Google Cloud.
- Facilità d'uso: pubblica i modelli utilizzando framework di pubblicazione comuni come vLLM, Hex-LLM, SGLang, TGI o TensorRT-LLM senza creare e gestire le tue immagini container.
Quando utilizzare i container vLLM personalizzati
Valuta la possibilità di creare e utilizzare il tuo container personalizzato in questi scenari:
- Massima flessibilità: quando le opzioni di pubblicazione e i container predefiniti esistenti non sono sufficienti per le tue esigenze e richiedi il controllo completo sull'immagine container, incluse dipendenze e configurazioni.
- Logica di pubblicazione personalizzata: quando il modello richiede passaggi di pre-elaborazione o post-elaborazione univoci non supportati dai container predefiniti.
Passaggi successivi
- Utilizzare i modelli open source con Model as a Service (MaaS)
- Eseguire il deployment di modelli open source da Model Garden
- Eseguire il deployment di modelli open source con container predefiniti
- Eseguire il deployment di modelli open source con un container vLLM personalizzato