O vLLM TPU é um framework de disponibilização altamente eficiente para modelos de linguagem grandes (LLMs) otimizado para hardware do Cloud TPU. Ele é alimentado por tpu-inference, um novo plug-in de hardware expressivo e poderoso que unifica JAX e Pytorch em um único caminho de redução.
Leia mais sobre esse framework na postagem do blog sobre o vLLM TPU.
A TPU vLLM está disponível no Model Garden por meio de implantação com um clique e notebook.
Introdução ao Model Garden
O contêiner de veiculação de TPU vLLM está integrado ao Grupo de modelos. Você pode acessar essa solução de veiculação por meio de implantação com um clique e exemplos de notebooks do Colab Enterprise para vários modelos.
Usar a implantação com um clique
É possível implantar um endpoint personalizado da Vertex AI com vLLM TPU usando o card de modelo para os seguintes modelos:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
Etapas:
Acesse a página do card de modelo (como google/gemma-3-27b-it) e clique em Implantar modelo para abrir o painel de implantação.
Selecione a variante do modelo que você quer implantar em ID do recurso.
Para a variante de modelo que você quer implantar, clique em Editar configurações e selecione a opção de TPU vLLM em Especificação da máquina para implantação.
Clique em Implantar na parte de baixo do painel para iniciar o processo. Você vai receber uma notificação por e-mail quando o endpoint estiver pronto.
Usar o bloco do Colab Enterprise
Para flexibilidade e personalização, use o Colab Enterprise exemplos de notebook para implantar um endpoint da Vertex AI com vLLM TPU usando o SDK da Vertex AI para Python.
Abra o notebook da TPU vLLM no Colab Enterprise.
Execute o notebook para implantar um modelo com a TPU vLLM e enviar solicitações de previsão ao endpoint.
Solicitar cota do Cloud TPU
No Model Garden, a cota padrão é de 16 chips do Cloud TPU v6e na região europe-west4. Essas cotas se aplicam a implantações com um clique e Implantações de notebooks do Colab Enterprise. Se você tiver uma cota padrão de 0 ou quiser solicitar mais cota, consulte Solicitar um ajuste de cota.