Eroga modelli aperti utilizzando vLLM TPU su Cloud TPU

vLLM TPU è un framework di erogazione altamente efficiente per modelli linguistici di grandi dimensioni (LLM) ottimizzato per l'hardware Cloud TPU. È basato su tpu-inference, un nuovo plug-in hardware espressivo e potente che unifica JAX e PyTorch in un unico percorso di riduzione.

Scopri di più su questo framework nel post del blog su vLLM TPU.

vLLM TPU è disponibile in Model Garden tramite il deployment con un solo clic e il notebook.

Inizia a utilizzare Model Garden

Il container di pubblicazione TPU vLLM è integrato in Model Garden. Puoi accedere a questa soluzione di gestione tramite il deployment con un clic ed esempi di notebook Colab Enterprise per una serie di modelli.

Utilizzare il deployment con un solo clic

Puoi eseguire il deployment di un endpoint Vertex AI personalizzato con vLLM TPU tramite la scheda del modello per i seguenti modelli:

Passaggi:

  1. Vai alla pagina della scheda del modello (ad esempio google/gemma-3-27b-it) e fai clic su Esegui il deployment del modello per aprire il riquadro di deployment.

  2. Seleziona la variante del modello di cui vuoi eseguire il deployment in ID risorsa.

  3. Per la variante del modello che vuoi eseguire il deployment, fai clic su Modifica impostazioni e seleziona l'opzione TPU vLLM in Specifica macchina per il deployment.

  4. Fai clic su Esegui il deployment nella parte inferiore del riquadro per iniziare la procedura di deployment. Riceverai una notifica via email quando l'endpoint sarà pronto.

Utilizzare il notebook Colab Enterprise

Per flessibilità e personalizzazione, puoi utilizzare gli esempi di notebook Colab Enterprise per eseguire il deployment di un endpoint Vertex AI con vLLM TPU utilizzando l'SDK Vertex AI per Python.

  1. Apri il notebook TPU vLLM in Colab Enterprise.

  2. Esegui il notebook per eseguire il deployment di un modello con vLLM TPU e inviare richieste di previsione all'endpoint.

Richiedere la quota Cloud TPU

In Model Garden, la quota predefinita è di 16 chip Cloud TPU v6e nella regione europe-west4. Queste quote si applicano ai deployment con un solo clic e ai deployment dei blocchi note Colab Enterprise. Se hai una quota predefinita pari a 0 o vuoi richiedere una quota maggiore, consulta la sezione Richiedi un aggiustamento della quota.