Disponibilizar modelos abertos usando a TPU vLLM no Cloud TPU

O vLLM TPU é um framework de disponibilização altamente eficiente para modelos de linguagem grandes (LLMs) otimizado para hardware do Cloud TPU. Ele é alimentado por tpu-inference, um novo plug-in de hardware expressivo e poderoso que unifica JAX e Pytorch em um único caminho de redução.

Leia mais sobre esse framework na postagem do blog sobre o vLLM TPU.

A TPU vLLM está disponível no Model Garden por meio de implantação com um clique e notebook.

Introdução ao Model Garden

O contêiner de veiculação de TPU vLLM está integrado ao Grupo de modelos. Você pode acessar essa solução de veiculação por meio de implantação com um clique e exemplos de notebooks do Colab Enterprise para vários modelos.

Usar a implantação com um clique

É possível implantar um endpoint personalizado da Vertex AI com vLLM TPU usando o card de modelo para os seguintes modelos:

Etapas:

Acesse a página do card de modelo (como google/gemma-3-27b-it) e clique em Implantar modelo para abrir o painel de implantação.
Selecione a variante do modelo que você quer implantar em ID do recurso.
Para a variante de modelo que você quer implantar, clique em Editar configurações e selecione a opção de TPU vLLM em Especificação da máquina para implantação.
Clique em Implantar na parte de baixo do painel para iniciar o processo. Você vai receber uma notificação por e-mail quando o endpoint estiver pronto.

Usar o bloco do Colab Enterprise

Para flexibilidade e personalização, use o Colab Enterprise exemplos de notebook para implantar um endpoint da Vertex AI com vLLM TPU usando o SDK da Vertex AI para Python.

Abra o notebook da TPU vLLM no Colab Enterprise.
Execute o notebook para implantar um modelo com a TPU vLLM e enviar solicitações de previsão ao endpoint.

Solicitar cota do Cloud TPU

No Model Garden, a cota padrão é de 16 chips do Cloud TPU v6e na região europe-west4. Essas cotas se aplicam a implantações com um clique e Implantações de notebooks do Colab Enterprise. Se você tiver uma cota padrão de 0 ou quiser solicitar mais cota, consulte Solicitar um ajuste de cota.

Disponibilizar modelos abertos usando a TPU vLLM no Cloud TPU Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Introdução ao Model Garden

Usar a implantação com um clique

Usar o bloco do Colab Enterprise

Solicitar cota do Cloud TPU

Disponibilizar modelos abertos usando a TPU vLLM no Cloud TPU