Introdução às cargas de trabalho de IA/ML no GKE

Nesta página, você encontra uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho em contêineres, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Seja para treinar grandes modelos de base, atender a solicitações de inferência em escala ou criar uma plataforma de IA abrangente, o GKE oferece o controle e a performance necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre papéis comuns, consulte Tarefas e funções de usuário comuns do GKE.

Comece a usar cargas de trabalho de IA/ML no GKE

Comece a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

  1. Começar a usar o console do Google Cloud

  2. Confira estes guias de início rápido:
    • Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
    • Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
  3. Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e obter aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as suas cargas de trabalho de IA.

  • Criação de uma plataforma de IA: para equipes de plataforma empresarial, o GKE oferece a flexibilidade de criar uma plataforma padronizada e multitenant que atende a diversas necessidades.
  • Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento e o escalonamento automático otimizados necessários para proporcionar uma experiência responsiva ao usuário e controlar os custos.

Escolha a plataforma certa para sua carga de trabalho de IA/ML

OGoogle Cloud oferece um espectro de produtos de infraestrutura de IA para apoiar sua jornada de ML, desde totalmente gerenciados até totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alta performance.

  • Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre a infraestrutura, usar pipelines personalizados ou fazer personalizações no nível do kernel.
  • Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima usando a escalonabilidade e o alto desempenho do GKE.
  • Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar os custos de maneira eficaz.
  • Portabilidade e padrões abertos: você quer evitar a dependência de fornecedores e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

Serviço doGoogle Cloud Ideal para
Vertex AI Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e reduzir o gerenciamento da infraestrutura. Funciona bem para equipes focadas em MLOps e retorno rápido do investimento. Para mais informações, assista a Escolher entre o GKE autohospedado e os modelos de IA hospedados gerenciados da Vertex AI.
Cloud Run Uma plataforma sem servidor para cargas de trabalho de inferência conteinerizadas que podem ser reduzidas a zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run.

Como o GKE melhora as cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Google Cloude pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Managed Lustre) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as Cloud GPUs). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo).
Figura 1: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às suas cargas de trabalho de IA/ML ou metas operacionais.

Carga de trabalho ou operação de IA/ML Como o GKE ajuda você Principais recursos
Inferência e disponibilização Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custo.
  • Flexibilidade do acelerador: o GKE oferece suporte a GPUs e TPUs para inferência.
  • GKE Inference Gateway: um gateway com reconhecimento de modelo que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA.
  • Guia de início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA conhecidos.
  • GKE Autopilot: um modo operacional do GKE que automatiza as operações do cluster e o dimensionamento correto da capacidade, reduzindo o overhead.
Treinamento e ajuste fino Oferece a escala e os recursos de orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos.
  • Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%.
  • Modo de provisionamento de início flexível com tecnologia do Dynamic Workload Scheduler: melhora sua capacidade de proteger aceleradores de GPU e TPU escassos para cargas de trabalho de treinamento de curta duração.
  • Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia a alocação de recursos, o agendamento, o gerenciamento de cotas e a priorização para cargas de trabalho em lote.
  • Multislice de TPU: uma arquitetura de hardware e rede que permite que várias frações de TPU se comuniquem entre si pela rede do data center (DCN) para realizar treinamento em grande escala.
Desenvolvimento unificado de IA/ML Suporte gerenciado para o Ray, um framework de código aberto para escalonar aplicativos Python distribuídos.
  • Complemento Ray no GKE: abstrai a infraestrutura do Kubernetes, permitindo escalonar cargas de trabalho como pré-processamento de dados em grande escala, treinamento distribuído e veiculação on-line com mudanças mínimas no código.

A seguir