Inferencia de TPU de Cloud
El servicio se refiere al proceso de desplegar un modelo de aprendizaje automático entrenado en un entorno de producción, donde se puede usar para la inferencia. La inferencia se admite en la versión 5e de TPU y en versiones posteriores. Los SLOs de latencia son una prioridad para el servicio.
En este documento se explica cómo publicar un modelo en una TPU de un solo host. Los sectores de TPU con 8 chips o menos tienen una VM o un host de TPU y se denominan TPUs de un solo host. Para obtener información sobre la inferencia multihost, consulta Realizar inferencias multihost con Pathways.
Empezar
Para usar Cloud TPU, necesitas una Google Cloud cuenta y un proyecto. Para obtener más información, consulta Configurar un entorno de TPU de Cloud.
Asegúrate de que tienes suficiente cuota para el número de núcleos de TPU que tienes previsto usar para la inferencia. La TPU v5e usa cuotas independientes para el entrenamiento y el servicio. Las cuotas específicas de servicio de TPU v5e son las siguientes:
- Recursos de la versión 5e bajo demanda:
TPUv5 lite pod cores for serving per project per zone
- Recursos v5e interrumpibles:
Preemptible TPU v5 lite pod cores for serving per project per zone
En otras versiones de TPU, las cargas de trabajo de entrenamiento y de servicio usan la misma cuota. Para obtener más información, consulta las cuotas de TPU de Cloud.
Servir LLMs con vLLM
vLLM es una biblioteca de código abierto diseñada para la inferencia y el servicio rápidos de modelos de lenguaje extensos (LLMs). Cloud TPU se integra con vLLM mediante el complemento tpu-inference
, que admite modelos de JAX y PyTorch. Para obtener más información, consulta el tpu-inference
repositorio de GitHub.
Para ver ejemplos de cómo usar vLLM para servir un modelo en TPUs, consulta lo siguiente:
- Empezar a usar la TPU de vLLM
- Sirve un LLM mediante TPU Trillium en GKE con vLLM.
- Recetas para servir vLLM en TPUs Trillium (v6e)
Elaboración de perfiles
Una vez que hayas configurado la inferencia, puedes usar los profilers para analizar el rendimiento y el uso de las TPU. Para obtener más información sobre la creación de perfiles, consulta los siguientes artículos:
- Crear perfiles en TPU de Cloud
- Perfil de TensorFlow
- Creación de perfiles de PyTorch
- Creación de perfiles de JAX