A TPU vLLM é uma framework de publicação altamente eficiente para grandes modelos de linguagem (GMLs) otimizada para hardware Cloud TPU. É alimentado pelo tpu-inference, que é um novo plug-in de hardware expressivo e potente que unifica o JAX e o Pytorch num único caminho de redução.
Leia mais sobre esta framework na publicação no blogue sobre a TPU vLLM.
A TPU vLLM está disponível no Model Garden através da implementação com um clique e do bloco de notas.
Comece a usar o Model Garden
O contentor de serviço de TPUs vLLM está integrado no Model Garden. Pode aceder a esta solução de publicação através da implementação com um clique e de exemplos de blocos de notas do Colab Enterprise para uma variedade de modelos.
Use a implementação com um clique
Pode implementar um ponto final do Vertex AI personalizado com a TPU vLLM através do cartão de modelo para os seguintes modelos:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
Passos:
Navegue para a página do cartão do modelo (como google/gemma-3-27b-it) e clique em Implementar modelo para abrir o painel de implementação.
Selecione a variante do modelo que quer implementar em ID do recurso.
Para a variante do modelo que quer implementar, clique em Editar definições e selecione a opção de TPU vLLM em Especificações da máquina para implementação.
Clique em Implementar na parte inferior do painel para iniciar o processo de implementação. Recebe uma notificação por email quando o ponto final estiver pronto.
Use o bloco de notas do Colab Enterprise
Para flexibilidade e personalização, pode usar exemplos de blocos de notas do Colab Enterprise para implementar um ponto final da Vertex AI com a TPU vLLM através do SDK da Vertex AI para Python.
Abra o bloco de notas da TPU vLLM no Colab Enterprise.
Execute o bloco de notas para implementar um modelo com a TPU vLLM e enviar pedidos de previsão para o ponto final.
Peça uma quota do Cloud TPU
No Model Garden, a quota predefinida é de 16 chips Cloud TPU v6e na região europe-west4. Estas quotas aplicam-se a implementações de um clique e a implementações de blocos de notas do Colab Enterprise. Se tiver uma quota predefinida de 0 ou quiser pedir mais quota, consulte o artigo Peça um ajuste da quota.