Scegliere un'opzione di pubblicazione del modello aperto

Vertex AI offre diversi modi per pubblicare modelli linguistici di grandi dimensioni (LLM) aperti, tra cui Llama, DeepSeek, Mistral e Qwen, in Google Cloud. Questo documento fornisce una panoramica delle offerte Vertex AI per l'erogazione di modelli aperti e ti aiuta a scegliere l'opzione giusta per il tuo caso d'uso.

Opzioni di pubblicazione

Vertex AI offre le seguenti opzioni per l'erogazione di modelli aperti. Ognuna di queste opzioni offre alta affidabilità e include per impostazione predefinita le best practice per la sicurezza: Google Cloud

Quando utilizzare MaaS

Prendi in considerazione l'utilizzo di MaaS in questi scenari:

  • Sviluppo e prototipazione rapidi: MaaS ti aiuta a integrare rapidamente le funzionalità LLM nelle applicazioni. Ciò è particolarmente utile per l'esplorazione iniziale, la prototipazione rapida e quando un time-to-market rapido è un obiettivo chiave.
  • Riduzione al minimo dell'overhead operativo: scegli MaaS quando il tuo team vuole concentrarsi sulla logica dell'applicazione anziché sulla gestione dell'infrastruttura. Google gestisce tutto il provisioning, lo scaling e la manutenzione di GPU/TPU, a vantaggio dei team incentrati sullo sviluppo di applicazioni anziché su MLOps o DevOps.
  • Traffico variabile: il modello pay-as-you-go supporta carichi di lavoro o applicazioni sperimentali con pattern di traffico imprevedibili e a raffica.
  • Utilizzo pronto all'uso: utilizza un'API gestita per le applicazioni che richiedono prestazioni coerenti, ma non richiedono una personalizzazione approfondita del modello sottostante o dello stack di serving.
  • Sicurezza e conformità: MaaS consente alle aziende di utilizzare le funzionalità di sicurezza e conformità integrate di livello enterprise di Google Cloud.
  • Utilizzo del modello standard: utilizza MaaS quando un modello di base standard e non personalizzato soddisfa le tue esigenze.

Quando utilizzare i modelli di cui è stato eseguito il deployment autonomo in Model Garden

Le opzioni di autodeployment includono il deployment da Model Garden utilizzando container predefiniti o personalizzati. Prendi in considerazione l'autodistribuzione in questi scenari chiave:

  • Ponderazioni personalizzate e modelli ottimizzati: l'autodistribuzione è la scelta migliore quando l'applicazione richiede l'utilizzo di ponderazioni personalizzate o di una versione ottimizzata di un modello, offrendo una maggiore flessibilità per distribuire modelli personalizzati in base alle tue esigenze specifiche. Puoi anche creare e implementare i tuoi container di serving personalizzati. Ad esempio, utilizza questa opzione quando un modello richiede una logica di pre-elaborazione o post-elaborazione unica.
  • Carichi di lavoro prevedibili e ad alto volume: l'autodistribuzione è un'opzione strategica ed economica per le applicazioni di produzione con traffico prevedibile e ad alto volume. Sebbene richieda un maggiore investimento iniziale in ingegneria, può comportare un costo totale di proprietà (TCO) inferiore durante il ciclo di vita dell'applicazione grazie ai costi per token ottimizzati su larga scala.
  • Controllo granulare dell'infrastruttura: utilizza l'autodistribuzione quando devi ottimizzare il rendimento e il budget scegliendo configurazioni hardware specifiche. Ciò include la selezione di tipi di macchine, GPU (ad esempio NVIDIA L4 o H100) o TPU esatti e framework di pubblicazione ottimizzati.
  • Conformità e sicurezza rigorose: questo approccio supporta le applicazioni che devono rispettare specifiche norme di residenza dei dati o normative rigorose che vietano l'utilizzo di un servizio gestito multi-tenant. Consente di eseguire il deployment dei modelli in modo sicuro all'interno del tuo progetto Google Cloud e della tua rete Virtual Private Cloud, fornendo il controllo completo del percorso dei dati.
  • Controllo granulare della posizione: gli endpoint dedicati ti consentono di eseguire il deployment su qualsiasi acceleratore Compute Engine in Google Cloud in tutte le regioni.

Quando utilizzare i container predefiniti

Prendi in considerazione l'utilizzo dei container predefiniti di Vertex AI in questi scenari:

  • Prestazioni ottimizzate: Vertex AI ottimizza e personalizza i container predefiniti per framework come vLLM per migliorare le prestazioni, l'affidabilità e l'integrazione perfetta in Google Cloud.
  • Facilità d'uso: eroga modelli utilizzando framework di serving noti come vLLM, Hex-LLM, SGLang, TGI o TensorRT-LLM senza creare e gestire le tue immagini container.

Quando utilizzare i container vLLM personalizzati

Valuta la possibilità di creare e utilizzare il tuo container personalizzato in questi scenari:

  • Massima flessibilità: quando le opzioni di pubblicazione esistenti e i container predefiniti non sono sufficienti per le tue esigenze e richiedi il controllo completo sull'immagine container, incluse dipendenze e configurazioni.
  • Logica di pubblicazione personalizzata: quando il modello richiede passaggi di pre-elaborazione o post-elaborazione unici non supportati dai container predefiniti.

Passaggi successivi