Inferência da Cloud TPU
A veiculação se refere ao processo de implantação de um modelo de machine learning treinado em um ambiente de produção, onde ele pode ser usado para inferência. A inferência é compatível com a TPU v5e e versões mais recentes. Os SLOs de latência são uma prioridade para o atendimento.
Neste documento, discutimos como disponibilizar um modelo em uma TPU de host único. As frações de TPU com oito ou menos chips têm uma VM ou host de TPU e são chamadas de TPUs de host único. Para informações sobre inferência multihost, consulte Realizar inferência multihost usando programas de aprendizado.
Primeiros passos
Você precisa de uma conta e um projeto do Google Cloud para usar o Cloud TPU. Para mais informações, consulte Configurar um ambiente do Cloud TPU.
Verifique se você tem cota suficiente para o número de núcleos de TPU que planeja usar para inferência. A TPU v5e usa cotas separadas para treinamento e disponibilização. As cotas específicas de serviço para TPU v5e são:
- Recursos v5e sob demanda:
TPUv5 lite pod cores for serving per project per zone
- Recursos preemptivos v5e:
Preemptible TPU v5 lite pod cores for serving per project per zone
Para outras versões de TPU, as cargas de trabalho de treinamento e veiculação usam a mesma cota. Para mais informações, consulte Cotas de Cloud TPU.
Disponibilizar LLMs com vLLM
O vLLM (em inglês) é uma biblioteca de código aberto projetada para
inferência e disponibilização rápidas de modelos de linguagem grandes (LLMs). A Cloud TPU se integra ao vLLM usando o plug-in tpu-inference
, que oferece suporte a modelos JAX e PyTorch. Para mais informações, consulte o repositório do GitHub
tpu-inference
.
Para exemplos de uso do vLLM para disponibilizar um modelo em TPUs, consulte o seguinte:
- Começar a usar a TPU vLLM
- Disponibilizar um LLM usando a TPU Trillium no GKE com o vLLM.
- Receitas para veicular vLLM em TPUs Trillium (v6e)
Criação de perfil
Depois de configurar a inferência, use os criadores de perfis para analisar o desempenho e a utilização da TPU. Para mais informações sobre criação de perfil, consulte:
- Criação de perfil no Cloud TPU
- Criação de perfil do TensorFlow
- Criação de perfil do PyTorch
- Criação de perfil do JAX