Inferência da Cloud TPU

A veiculação se refere ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência é compatível com a TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para o atendimento.

Neste documento, discutimos como disponibilizar um modelo em uma TPU de host único. As frações de TPU com oito ou menos chips têm uma VM ou host de TPU e são chamadas de TPUs de host único. Para informações sobre inferência multihost, consulte Realizar inferência multihost usando programas de aprendizado.

Primeiros passos

Você precisa de uma conta e um projeto do Google Cloud para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.

Verifique se você tem cota suficiente para o número de núcleos de TPU que planeja usar para inferência. A TPU v5e usa cotas separadas para treinamento e disponibilização. As cotas específicas de serviço para TPU v5e são:

  • Recursos v5e sob demanda: TPUv5 lite pod cores for serving per project per zone
  • Recursos preemptivos v5e: Preemptible TPU v5 lite pod cores for serving per project per zone

Para outras versões de TPU, as cargas de trabalho de treinamento e veiculação usam a mesma cota. Para mais informações, consulte Cotas de Cloud TPU.

Disponibilizar LLMs com vLLM

O vLLM (em inglês) é uma biblioteca de código aberto projetada para inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A Cloud TPU se integra ao vLLM usando o plug-in tpu-inference, que oferece suporte a modelos JAX e PyTorch. Para mais informações, consulte o repositório do GitHub tpu-inference.

Para exemplos de uso do vLLM para disponibilizar um modelo em TPUs, consulte o seguinte:

Criação de perfil

Depois de configurar a inferência, use os criadores de perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre criação de perfil, consulte: