Introdução às cargas de trabalho de IA/ML no GKE

Esta página oferece uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho conteinerizadas, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Se você estiver treinando modelos de base grandes, disponibilizando solicitações de inferência em escala ou criando uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte Funções e tarefas de usuário comuns do GKE.

Começar a usar cargas de trabalho de IA/ML no GKE

Você pode começar a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

  1. Começar a usar o Google Cloud console

  2. Teste estes guias de início rápido:
    • Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
    • Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
  3. Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e receber aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as cargas de trabalho de IA.

  • Criação de uma plataforma de IA: para equipes de plataformas empresariais, o GKE oferece a flexibilidade de criar uma plataforma padronizada de vários locatários que atende a diversas necessidades.
  • Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento otimizado e o escalonamento automático necessários para oferecer uma experiência do usuário responsiva controlando os custos.

Escolher a plataforma certa para sua carga de trabalho de IA/ML

Google Cloud oferece um espectro de produtos de infraestrutura de IA para oferecer suporte à sua jornada de ML, de totalmente gerenciada a totalmente configurável. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alto desempenho.

  • Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, precisa usar pipelines personalizados ou requer personalizações no nível do kernel.
  • Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima, usando o escalonamento e o alto desempenho do GKE.
  • Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar custos de maneira eficaz.
  • Portabilidade e padrões abertos: você quer evitar a dependência do fornecedor e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

Google Cloud Serviço do Ideal para
Vertex AI Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e descarregar o gerenciamento de infraestrutura. Funciona bem para equipes focadas em MLOps e tempo de retorno do investimento rápido. Para mais informações, assista a Escolher entre o GKE auto-hospedado e os modelos de IA hospedados da Vertex AI.
Cloud Run Uma plataforma sem servidor para cargas de trabalho de inferência conteinerizadas que podem ser escalonadas para zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run.

Como o GKE oferece suporte a cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Google Cloude pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Managed Lustre) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as Cloud GPUs). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo).
Figura 1: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às cargas de trabalho de IA/ML ou às metas operacionais.

Carga de trabalho ou operação de IA/ML Como o GKE oferece suporte Principais recursos
Inferência e disponibilização Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custos.
  • Flexibilidade do acelerador: o GKE oferece suporte a GPUs e TPUs para inferência.
  • GKE Inference Gateway: um gateway com reconhecimento de modelo que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA.
  • Guia de início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA populares.
  • Autopilot do GKE: um modo operacional do GKE que automatiza as operações de cluster e o dimensionamento da capacidade, reduzindo o overhead.
Treinamento e ajuste fino Fornece os recursos de escalonamento e orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos.
  • Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%.
  • Modo de provisionamento de início flexível com tecnologia do Dynamic Workload Scheduler: melhora sua capacidade de proteger aceleradores de GPU e TPU escassos para cargas de trabalho de treinamento de curta duração.
  • Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia a alocação de recursos, o agendamento, o gerenciamento de cotas e a priorização de cargas de trabalho em lote.
  • Multislice de TPU: uma arquitetura de hardware e rede que permite que várias frações de TPU se comuniquem pela rede do data center (DCN) para alcançar treinamento em grande escala.
Desenvolvimento unificado de IA/ML Suporte gerenciado para Ray, um framework de código aberto para escalonar aplicativos Python distribuídos.
  • Complemento do Ray no GKE: abstrai a infraestrutura do Kubernetes, permitindo que você dimensione cargas de trabalho, como pré-processamento de dados em grande escala, treinamento distribuído e veiculação on-line com mudanças mínimas de código.

A seguir