Apresente o Stable Diffusion XL (SDXL) com TPUs no GKE com o MaxDiffusion

Este tutorial mostra como publicar um modelo de geração de imagens SDXL usando unidades de processamento tensor (TPUs) no Google Kubernetes Engine (GKE) com o MaxDiffusion. Neste tutorial, vai transferir o modelo do Hugging Face e implementá-lo num cluster Autopilot ou Standard usando um contentor que execute o MaxDiffusion.

Este guia é um bom ponto de partida se precisar do controlo detalhado, da personalização, da escalabilidade, da resiliência, da portabilidade e da rentabilidade do Kubernetes gerido ao implementar e publicar as suas cargas de trabalho de IA/ML. Se precisar de uma plataforma de IA gerida unificada para criar e apresentar rapidamente modelos de ML de forma rentável, recomendamos que experimente a nossa solução de implementação do Vertex AI.

Contexto

Ao publicar o SDXL com TPUs no GKE com o MaxDiffusion, pode criar uma solução de publicação robusta e pronta para produção com todas as vantagens do Kubernetes gerido, incluindo rentabilidade, escalabilidade e maior disponibilidade. Esta secção descreve as tecnologias principais usadas neste tutorial.

Stable Diffusion XL (SDXL)

O Stable Diffusion XL (SDXL) é um tipo de modelo de difusão latente (LDM) suportado pelo MaxDiffusion para inferência. Para a IA generativa, pode usar os MDAs para gerar imagens de alta qualidade a partir de descrições de texto. Os MDAs são úteis para aplicações como a pesquisa de imagens e a geração de legendas de imagens.

O SDXL suporta a inferência de anotações de fragmentação com um ou vários anfitriões. Isto permite que o SDXL seja preparado e executado em várias máquinas, o que pode melhorar a eficiência.

Para saber mais, consulte o repositório de modelos generativos da Stability AI e o artigo SDXL.

TPUs

As TPUs são circuitos integrados específicos da aplicação (ASICs) desenvolvidos pela Google e usados para acelerar a aprendizagem automática e os modelos de IA criados com frameworks como o TensorFlow, o PyTorch e o JAX.

Antes de usar as TPUs no GKE, recomendamos que conclua o seguinte percurso de aprendizagem:

  1. Saiba mais sobre a disponibilidade da versão atual da TPU com a arquitetura do sistema Cloud TPU.
  2. Saiba mais sobre as TPUs no GKE.

Este tutorial aborda a publicação do modelo SDXL. O GKE implementa o modelo em nós da TPU v5e de anfitrião único com topologias de TPU configuradas com base nos requisitos do modelo para publicar comandos com baixa latência. Neste guia, o modelo usa um chip TPU v5e com uma topologia 1x1.

MaxDiffusion

O MaxDiffusion é uma coleção de implementações de referência, escritas em Python e Jax, de vários modelos de difusão latente que são executados em dispositivos XLA, incluindo TPUs e GPUs. O MaxDiffusion é um ponto de partida para projetos de difusão para investigação e produção.

Para saber mais, consulte o repositório MaxDiffusion.