Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Introdução às cargas de trabalho de IA/ML no GKE

Autopilot Standard

Nesta página, você encontra uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho em contêineres, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Seja para treinar grandes modelos de base, atender a solicitações de inferência em escala ou criar uma plataforma de IA abrangente, o GKE oferece o controle e a performance necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre papéis comuns, consulte Tarefas e funções de usuário comuns do GKE.

Comece a usar cargas de trabalho de IA/ML no GKE

Comece a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

Começar a usar o console do Google Cloud
Confira estes guias de início rápido:
- Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
- Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e obter aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as suas cargas de trabalho de IA.

Criação de uma plataforma de IA: para equipes de plataforma empresarial, o GKE oferece a flexibilidade de criar uma plataforma padronizada e multitenant que atende a diversas necessidades.
Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento e o escalonamento automático otimizados necessários para proporcionar uma experiência responsiva ao usuário e controlar os custos.

Escolha a plataforma certa para sua carga de trabalho de IA/ML

OGoogle Cloud oferece um espectro de produtos de infraestrutura de IA para apoiar sua jornada de ML, desde totalmente gerenciados até totalmente configuráveis. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alta performance.

Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre a infraestrutura, usar pipelines personalizados ou fazer personalizações no nível do kernel.
Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima usando a escalonabilidade e o alto desempenho do GKE.
Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar os custos de maneira eficaz.
Portabilidade e padrões abertos: você quer evitar a dependência de fornecedores e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

Serviço doGoogle Cloud	Ideal para
Vertex AI	Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e reduzir o gerenciamento da infraestrutura. Funciona bem para equipes focadas em MLOps e retorno rápido do investimento. Para mais informações, assista a Escolher entre o GKE autohospedado e os modelos de IA hospedados gerenciados da Vertex AI.
Cloud Run	Uma plataforma sem servidor para cargas de trabalho de inferência conteinerizadas que podem ser reduzidas a zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run.

Como o GKE melhora as cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Google Cloude pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Managed Lustre) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as Cloud GPUs). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo). — **Figura 1**: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às suas cargas de trabalho de IA/ML ou metas operacionais.

Carga de trabalho ou operação de IA/ML	Como o GKE ajuda você	Principais recursos
Inferência e disponibilização	Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custo.	Flexibilidade do acelerador: o GKE oferece suporte a GPUs e TPUs para inferência. GKE Inference Gateway: um gateway com reconhecimento de modelo que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA. Guia de início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA conhecidos. GKE Autopilot: um modo operacional do GKE que automatiza as operações do cluster e o dimensionamento correto da capacidade, reduzindo o overhead.
Treinamento e ajuste fino	Oferece a escala e os recursos de orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos.	Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%. Modo de provisionamento de início flexível com tecnologia do Dynamic Workload Scheduler: melhora sua capacidade de proteger aceleradores de GPU e TPU escassos para cargas de trabalho de treinamento de curta duração. Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia a alocação de recursos, o agendamento, o gerenciamento de cotas e a priorização para cargas de trabalho em lote. Multislice de TPU: uma arquitetura de hardware e rede que permite que várias frações de TPU se comuniquem entre si pela rede do data center (DCN) para realizar treinamento em grande escala.
Desenvolvimento unificado de IA/ML	Suporte gerenciado para o Ray, um framework de código aberto para escalonar aplicativos Python distribuídos.	Complemento Ray no GKE: abstrai a infraestrutura do Kubernetes, permitindo escalonar cargas de trabalho como pré-processamento de dados em grande escala, treinamento distribuído e veiculação on-line com mudanças mínimas no código.

A seguir

Para conferir nossas extensas coleções de guias oficiais, tutoriais e outros recursos para executar cargas de trabalho de IA/ML no GKE, acesse o portal de orquestração de IA/ML no GKE.
Conheça técnicas para conseguir aceleradores de computação, como GPUs ou TPUs, para suas cargas de trabalho de IA/ML no GKE.
Saiba mais sobre a inferência de modelos de IA/ML no GKE.
Saiba mais sobre o Ray no GKE.
Confira exemplos experimentais de como usar o GKE para acelerar suas iniciativas de IA/ML nos Laboratórios de IA do GKE.
Confira detalhes das suas cargas de trabalho de IA/ML no console do Google Cloud , incluindo recursos como JobSets, RayJobs, PyTorchJobs e implantações para veiculação de inferência.

Introdução às cargas de trabalho de IA/ML no GKE Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.