Inferencias en Cloud TPU

La entrega hace referencia al proceso de implementación de un modelo de aprendizaje automático entrenado en un entorno de producción, en el que se puede usar para la inferencia. La inferencia es compatible con TPU v5e y versiones posteriores. Los SLO de latencia son una prioridad para la entrega.

En este documento, se explica cómo entregar un modelo en una TPU de un solo host. Las porciones de TPU con 8 chips o menos tienen una VM o un host de TPU, y se denominan TPU de un solo host. Para obtener información sobre la inferencia con varios hosts, consulta Realiza inferencias con varios hosts usando Pathways.

Comienza

Necesitas una cuenta y un proyecto de Google Cloud para usar Cloud TPU. Para obtener más información, consulta Configura un entorno de Cloud TPU.

Asegúrate de tener suficiente cuota para la cantidad de núcleos de TPU que planeas usar para la inferencia. TPU v5e usa cuotas independientes para el entrenamiento y la entrega. Las cuotas específicas de la entrega para TPU v5e son las siguientes:

  • Recursos de v5e según demanda: TPUv5 lite pod cores for serving per project per zone
  • Recursos de v5e interrumpibles: Preemptible TPU v5 lite pod cores for serving per project per zone

Para otras versiones de TPU, las cargas de trabajo de entrenamiento y entrega usan la misma cuota. Para obtener más información, consulta Cuotas de Cloud TPU.

Entrega LLM con vLLM

vLLM es una biblioteca de código abierto diseñada para obtener una inferencia y entrega rápidas de modelos de lenguaje grandes (LLM). Cloud TPU se integra con vLLM usando el complemento tpu-inference, que admite modelos de JAX y PyTorch. Para obtener más información, consulta el repositorio de GitHub tpu-inference.

Si deseas ver ejemplos del uso de vLLM para entregar un modelo en TPU, consulta los siguientes vínculos:

Genera perfiles

Después de configurar la inferencia, puedes usar los generadores de perfiles para analizar el rendimiento y la utilización de la TPU. Para obtener más información sobre la generación de perfiles, consulta los siguientes recursos: