Esta página oferece uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.
O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho conteinerizadas, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Se você estiver treinando modelos de base grandes, disponibilizando solicitações de inferência em escala ou criando uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.
Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte Funções e tarefas de usuário comuns do GKE.
Começar a usar cargas de trabalho de IA/ML no GKE
Você pode começar a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.
- Teste estes guias de início rápido:
- Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
- Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
- Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e receber aceleradores (GPUs e TPUs) para sua plataforma.
Casos de uso comuns
O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as cargas de trabalho de IA.
- Criação de uma plataforma de IA: para equipes de plataformas empresariais, o GKE oferece a flexibilidade de criar uma plataforma padronizada de vários locatários que atende a diversas necessidades.
- Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento otimizado e o escalonamento automático necessários para oferecer uma experiência do usuário responsiva controlando os custos.
Escolher a plataforma certa para sua carga de trabalho de IA/ML
Google Cloud oferece um espectro de produtos de infraestrutura de IA para oferecer suporte à sua jornada de ML, de totalmente gerenciada a totalmente configurável. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.
Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alto desempenho.
- Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, precisa usar pipelines personalizados ou requer personalizações no nível do kernel.
- Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima, usando o escalonamento e o alto desempenho do GKE.
- Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar custos de maneira eficaz.
- Portabilidade e padrões abertos: você quer evitar a dependência do fornecedor e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.
Você também pode considerar estas alternativas:
| Google Cloud Serviço do | Ideal para |
|---|---|
| Vertex AI | Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e descarregar o gerenciamento de infraestrutura. Funciona bem para equipes focadas em MLOps e tempo de retorno do investimento rápido. Para mais informações, assista a Escolher entre o GKE auto-hospedado e os modelos de IA hospedados da Vertex AI. |
| Cloud Run | Uma plataforma sem servidor para cargas de trabalho de inferência conteinerizadas que podem ser escalonadas para zero. Funciona bem para aplicativos orientados a eventos e para disponibilizar modelos menores de maneira econômica. Para uma análise comparativa detalhada, consulte GKE e Cloud Run. |
Como o GKE oferece suporte a cargas de trabalho de IA/ML
O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.
A tabela a seguir resume os recursos do GKE que oferecem suporte às cargas de trabalho de IA/ML ou às metas operacionais.
| Carga de trabalho ou operação de IA/ML | Como o GKE oferece suporte | Principais recursos |
|---|---|---|
| Inferência e disponibilização | Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custos. |
|
| Treinamento e ajuste fino | Fornece os recursos de escalonamento e orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos. |
|
| Desenvolvimento unificado de IA/ML | Suporte gerenciado para Ray, um framework de código aberto para escalonar aplicativos Python distribuídos. |
|
A seguir
Para explorar nossas coleções abrangentes de guias oficiais, tutoriais e outros recursos para executar cargas de trabalho de IA/ML no GKE, acesse o portal de orquestração de IA/ML no GKE.
Confira exemplos experimentais para aproveitar o GKE e acelerar suas iniciativas de IA/ML nos Laboratórios de IA do GKE.
Confira detalhes das cargas de trabalho de IA/ML no Google Cloud console, incluindo recursos como JobSets, RayJobs, PyTorchJobs e implantações para disponibilização de inferência.