Vertex AI offre diversi modi per pubblicare modelli linguistici di grandi dimensioni (LLM) aperti, tra cui Llama, DeepSeek, Mistral e Qwen, in Google Cloud. Questo documento fornisce una panoramica delle offerte Vertex AI per l'erogazione di modelli aperti e ti aiuta a scegliere l'opzione giusta per il tuo caso d'uso.
Opzioni di pubblicazione
Vertex AI offre le seguenti opzioni per l'erogazione di modelli aperti. Ognuna di queste opzioni offre alta affidabilità e include per impostazione predefinita le best practice per la sicurezza: Google Cloud
- Model as a Service (MaaS): serve modelli aperti utilizzando API gestite serverless.
- Modelli con deployment autonomo in Model Garden: Esegue il deployment di modelli aperti da Model Garden utilizzando il deployment con un solo clic o con pesi personalizzati.
- Immagini container predefinite di Vertex AI: eroga modelli aperti utilizzando container predefiniti per framework di pubblicazione popolari, ad esempio vLLM, Hex-LLM e TGI.
- Container vLLM personalizzato: ti consente di creare e implementare il tuo container vLLM personalizzato per una maggiore flessibilità.
Quando utilizzare MaaS
Prendi in considerazione l'utilizzo di MaaS in questi scenari:
- Sviluppo e prototipazione rapidi: MaaS ti aiuta a integrare rapidamente le funzionalità LLM nelle applicazioni. Ciò è particolarmente utile per l'esplorazione iniziale, la prototipazione rapida e quando un time-to-market rapido è un obiettivo chiave.
- Riduzione al minimo dell'overhead operativo: scegli MaaS quando il tuo team vuole concentrarsi sulla logica dell'applicazione anziché sulla gestione dell'infrastruttura. Google gestisce tutto il provisioning, lo scaling e la manutenzione di GPU/TPU, a vantaggio dei team incentrati sullo sviluppo di applicazioni anziché su MLOps o DevOps.
- Traffico variabile: il modello pay-as-you-go supporta carichi di lavoro o applicazioni sperimentali con pattern di traffico imprevedibili e a raffica.
- Utilizzo pronto all'uso: utilizza un'API gestita per le applicazioni che richiedono prestazioni coerenti, ma non richiedono una personalizzazione approfondita del modello sottostante o dello stack di serving.
- Sicurezza e conformità: MaaS consente alle aziende di utilizzare le funzionalità di sicurezza e conformità integrate di livello enterprise di Google Cloud.
- Utilizzo del modello standard: utilizza MaaS quando un modello di base standard e non personalizzato soddisfa le tue esigenze.
Quando utilizzare i modelli di cui è stato eseguito il deployment autonomo in Model Garden
Le opzioni di autodeployment includono il deployment da Model Garden utilizzando container predefiniti o personalizzati. Prendi in considerazione l'autodistribuzione in questi scenari chiave:
- Ponderazioni personalizzate e modelli ottimizzati: l'autodistribuzione è la scelta migliore quando l'applicazione richiede l'utilizzo di ponderazioni personalizzate o di una versione ottimizzata di un modello, offrendo una maggiore flessibilità per distribuire modelli personalizzati in base alle tue esigenze specifiche. Puoi anche creare e implementare i tuoi container di serving personalizzati. Ad esempio, utilizza questa opzione quando un modello richiede una logica di pre-elaborazione o post-elaborazione unica.
- Carichi di lavoro prevedibili e ad alto volume: l'autodistribuzione è un'opzione strategica ed economica per le applicazioni di produzione con traffico prevedibile e ad alto volume. Sebbene richieda un maggiore investimento iniziale in ingegneria, può comportare un costo totale di proprietà (TCO) inferiore durante il ciclo di vita dell'applicazione grazie ai costi per token ottimizzati su larga scala.
- Controllo granulare dell'infrastruttura: utilizza l'autodistribuzione quando devi ottimizzare il rendimento e il budget scegliendo configurazioni hardware specifiche. Ciò include la selezione di tipi di macchine, GPU (ad esempio NVIDIA L4 o H100) o TPU esatti e framework di pubblicazione ottimizzati.
- Conformità e sicurezza rigorose: questo approccio supporta le applicazioni che devono rispettare specifiche norme di residenza dei dati o normative rigorose che vietano l'utilizzo di un servizio gestito multi-tenant. Consente di eseguire il deployment dei modelli in modo sicuro all'interno del tuo progetto Google Cloud e della tua rete Virtual Private Cloud, fornendo il controllo completo del percorso dei dati.
- Controllo granulare della posizione: gli endpoint dedicati ti consentono di eseguire il deployment su qualsiasi acceleratore Compute Engine in Google Cloud in tutte le regioni.
Quando utilizzare i container predefiniti
Prendi in considerazione l'utilizzo dei container predefiniti di Vertex AI in questi scenari:
- Prestazioni ottimizzate: Vertex AI ottimizza e personalizza i container predefiniti per framework come vLLM per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta in Google Cloud.
- Facilità d'uso: eroga modelli utilizzando framework di serving noti come vLLM, Hex-LLM, SGLang, TGI o TensorRT-LLM senza creare e gestire le tue immagini container.
Quando utilizzare i container vLLM personalizzati
Valuta la possibilità di creare e utilizzare il tuo container personalizzato in questi scenari:
- Massima flessibilità: quando le opzioni di pubblicazione esistenti e i container predefiniti non sono sufficienti per le tue esigenze e richiedi il controllo completo sull'immagine container, incluse dipendenze e configurazioni.
- Logica di pubblicazione personalizzata: quando il modello richiede passaggi di pre-elaborazione o post-elaborazione unici non supportati dai container predefiniti.
Passaggi successivi
- Utilizzare modelli aperti con Model as a Service (MaaS)
- Eseguire il deployment di modelli aperti da Model Garden
- Esegui il deployment di modelli aperti con container predefiniti
- Esegui il deployment di modelli aperti con un container vLLM personalizzato