Publique modelos abertos com a TPU vLLM na Cloud TPU

A TPU vLLM é uma framework de publicação altamente eficiente para grandes modelos de linguagem (GMLs) otimizada para hardware Cloud TPU. É alimentado pelo tpu-inference, que é um novo plug-in de hardware expressivo e potente que unifica o JAX e o Pytorch num único caminho de redução.

Leia mais sobre esta framework na publicação no blogue sobre a TPU vLLM.

A TPU vLLM está disponível no Model Garden através da implementação com um clique e do bloco de notas.

Comece a usar o Model Garden

O contentor de serviço de TPUs vLLM está integrado no Model Garden. Pode aceder a esta solução de publicação através da implementação com um clique e de exemplos de blocos de notas do Colab Enterprise para uma variedade de modelos.

Use a implementação com um clique

Pode implementar um ponto final do Vertex AI personalizado com a TPU vLLM através do cartão de modelo para os seguintes modelos:

Passos:

  1. Navegue para a página do cartão do modelo (como google/gemma-3-27b-it) e clique em Implementar modelo para abrir o painel de implementação.

  2. Selecione a variante do modelo que quer implementar em ID do recurso.

  3. Para a variante do modelo que quer implementar, clique em Editar definições e selecione a opção de TPU vLLM em Especificações da máquina para implementação.

  4. Clique em Implementar na parte inferior do painel para iniciar o processo de implementação. Recebe uma notificação por email quando o ponto final estiver pronto.

Use o bloco de notas do Colab Enterprise

Para flexibilidade e personalização, pode usar exemplos de blocos de notas do Colab Enterprise para implementar um ponto final da Vertex AI com a TPU vLLM através do SDK da Vertex AI para Python.

  1. Abra o bloco de notas da TPU vLLM no Colab Enterprise.

  2. Execute o bloco de notas para implementar um modelo com a TPU vLLM e enviar pedidos de previsão para o ponto final.

Peça uma quota do Cloud TPU

No Model Garden, a quota predefinida é de 16 chips Cloud TPU v6e na região europe-west4. Estas quotas aplicam-se a implementações de um clique e a implementações de blocos de notas do Colab Enterprise. Se tiver uma quota predefinida de 0 ou quiser pedir mais quota, consulte o artigo Peça um ajuste da quota.