Orquestração de IA/ML na documentação do GKE
O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o ciclo de vida de IA/ML. Ele oferece o poder e a flexibilidade para impulsionar suas cargas de trabalho de treinamento, inferência e agentes, para que você possa simplificar sua infraestrutura e começar a gerar resultados. Os recursos de orquestração de última geração do GKE oferecem o seguinte:
- Aceleradores de hardware: acesse e gerencie as GPUs e TPUs de alta potência necessárias para treinamento e inferência em grande escala.
- Flexibilidade de pilha: integre-se aos frameworks de computação distribuída, processamento de dados e disponibilização de modelos que você já conhece e confia.
- Simplicidade do Kubernetes gerenciado: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.
Confira nossos blogs, tutoriais e práticas recomendadas para saber como o GKE pode otimizar suas cargas de trabalho de IA/ML. Para mais informações sobre os benefícios e recursos disponíveis, consulte a Visão geral da introdução às cargas de trabalho de IA/ML no GKE.
Comece sua prova de conceito com US $300 de crédito sem custos financeiros
- Acesse o Gemini 2.0 Flash Thinking
- Uso mensal sem custo financeiro dos produtos mais procurados, incluindo APIs de IA e BigQuery
- Sem cobranças automáticas, sem compromisso
Aproveite mais de 20 produtos sem nenhum custo financeiro
Acesse mais de 20 produtos sem custos financeiros voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.
Recursos de documentação
Gerenciar infraestrutura e aceleradores de IA
- Conceito
- Conceito
- Conceito
- Prática recomendada
- Vídeo
- Vídeo
- Guia de início rápido
- Prática recomendada
Treinar modelos de IA em escala
- Guia de início rápido
- Guia de início rápido
- Guia de início rápido
- Instruções
- Tutorial
Disponibilizar modelos de IA para inferência
- Prática recomendada
- Conceito
- Instruções
- Tutorial
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Recursos relacionados
Implantar um aplicativo de IA com agentes no GKE usando o Kit de Desenvolvimento de Agente (ADK) e um LLM autohospedado
Aprenda a implantar e gerenciar um aplicativo de IA com agentes em contêineres no GKE usando o Agent Development Kit (ADK) e o vLLM para inferência escalonável com o Llama 3.1.
Implantar um aplicativo de IA com agentes no GKE usando o Kit de Desenvolvimento de Agente (ADK) e a Vertex AI
Aprenda a implantar e gerenciar um aplicativo de IA com agentes em contêineres no GKE usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalonável com o Gemini 2.0 Flash.
Disponibilizar modelos de código aberto usando TPUs no GKE com o TPU Optimum
Saiba como implantar LLMs usando Unidades de Processamento de Tensor (TPUs) no GKE com o framework de veiculação de TPU Optimum do Hugging Face.
Criar e usar um volume com suporte de uma instância do Parallelstore no GKE
Saiba como criar armazenamento com instâncias do Parallelstore totalmente gerenciadas e acessá-las como volumes. O driver CSI é otimizado para cargas de trabalho de treinamento de IA/ML que envolvem tamanhos de arquivo menores e leituras aleatórias.
Disponibilizar LLMs no GKE com uma estratégia de provisionamento de GPU de alta disponibilidade e custo otimizado
Saiba como otimizar custos para cargas de trabalho de disponibilização de LLM no GKE usando o DWS Flex-start.
Como exibir modelos de linguagem grandes com o KubeRay em TPUs
Aprenda a disponibilizar modelos de linguagem grandes (LLMs) com o KubeRay em TPUs e como isso pode ajudar a melhorar o desempenho dos seus modelos.
Acelerar o carregamento de dados de IA/ML com o Hyperdisk ML
Aprenda a simplificar e acelerar o carregamento de pesos de modelos de IA/ML no GKE com o Hyperdisk ML.
Disponibilizar um LLM usando TPUs no GKE com o JetStream e o PyTorch
Saiba como disponibilizar um LLM usando Unidades de Processamento de Tensor (TPUs) no GKE com o JetStream pelo PyTorch.
Práticas recomendadas para otimizar a inferência de LLM com GPUs no GKE
Conheça as práticas recomendadas para otimizar o desempenho da inferência de LLM com GPUs no GKE usando os frameworks de disponibilização do vLLM e da inferência de geração de texto (TGI, na sigla em inglês).
Gerenciar a pilha de GPU com o operador de GPU NVIDIA no GKE
Saiba quando usar e como ativar o operador de GPU NVIDIA no GKE.
Configurar o escalonamento automático para cargas de trabalho LLM em TPUs
Aprenda a configurar sua infraestrutura de escalonamento automático usando o escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma usando o JetStream de host único.
Ajustar modelos abertos do Gemma usando várias GPUs no GKE
Saiba como ajustar o LLM do Gemma usando GPUs no GKE com a biblioteca Transformers do Hugging Face.
Implantar um aplicativo Ray Serve com um modelo de difusão estável no GKE com TPUs
Aprenda a implantar e disponibilizar um modelo de difusão estável no GKE usando TPUs, Ray Serve e o complemento Ray Operator.
Configurar o escalonamento automático para cargas de trabalho LLM em GPUs com o GKE
Saiba como configurar sua infraestrutura de escalonamento automático usando o Escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma com o framework de disponibilização da interface de geração de texto (TGI) do Hugging Face.
Treinar o Llama2 com o Megatron-LM nas máquinas virtuais A3 Mega
Aprenda a executar uma carga de trabalho PyTorch Megatron-LM baseada em contêiner no A3 Mega.
Implantar cargas de trabalho da GPU no Autopilot
Saiba como solicitar aceleradores de hardware (GPUs) nas cargas de trabalho do GKE Autopilot.
Disponibilizar um LLM com várias GPUs no GKE
Saiba como exibir Llama 2 70B ou Falcon 40B usando várias GPUs NVIDIA L4 com o GKE.
Primeiros passos com Ray no GKE
Saiba como começar a usar o Ray no GKE executando uma carga de trabalho em um cluster do Ray.
Exibir um LLM em GPUs L4 com Ray
Saiba como exibir o Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b usando o framework do Ray no GKE.
Orquestrar cargas de trabalho do TPU Multislice usando o JobSet e Kueue
Saiba como orquestrar uma carga de trabalho Jax em várias frações de TPU no GKE usando o JobSet e Kueue.
Como monitorar cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)
Saiba como observar as cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).
Guia de início rápido: treinar um modelo com GPUs nos clusters do GKE Standard
Neste guia de início rápido, mostramos como implantar um modelo de treinamento com GPUs no GKE e armazenar as previsões no Cloud Storage.
Como executar machine learning em larga escala no GKE
Neste vídeo, mostramos como o GKE ajuda a resolver desafios comuns do treinamento de grandes modelos de IA em escala e as práticas recomendadas para treinar e disponibilizar modelos de machine learning em grande escala no GKE.
TensorFlow no GKE Autopilot com aceleração de GPU
Esta postagem do blog é um guia explicativo para a criação, execução e desmontagem de um notebook Jupiter com Tensorflow.
Implementar um sistema de enfileiramento de jobs com compartilhamento de cota entre namespaces no GKE
Neste tutorial, usamos o Kueue para mostrar como implementar um sistema de enfileiramento de jobs e configurar o compartilhamento de cotas e recursos de carga de trabalho entre diferentes namespaces no GKE.
Criar um chatbot RAG com o GKE e o Cloud Storage
Neste tutorial, mostramos como integrar um aplicativo de modelo de linguagem grande baseado na geração de recuperação aprimorada com arquivos PDF enviados para um bucket do Cloud Storage.
Analisar dados no GKE usando o BigQuery, o Cloud Run e a Gemma
Neste tutorial, mostramos como analisar grandes conjuntos de dados no GKE usando o BigQuery para armazenamento e processamento de dados, o Cloud Run para processamento de solicitações e um LLM Gemma para análise e previsões de dados.
Pré-processamento de dados distribuídos com o GKE e o Ray: escalonamento para a empresa
Saiba como usar o GKE e o Ray para pré-processar grandes conjuntos de dados de maneira eficiente para machine learning.
Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE
Saiba como acelerar os tempos de carregamento de dados para seus aplicativos de machine learning no Google Kubernetes Engine.
Economize em GPUs: escalonamento automático mais inteligente para suas cargas de trabalho de inferência do GKE
Saiba como otimizar os custos de inferência da GPU ajustando o Escalonador automático horizontal de pods do GKE para máxima eficiência.
Disponibilize modelos de IA otimizados com eficiência usando os microsserviços do NVIDIA NIM no GKE
Aprenda a implantar microsserviços NVIDIA NIM de ponta no GKE com facilidade e acelere suas cargas de trabalho de IA.
Acelere o Ray em produção com o novo operador Ray no GKE
Saiba como o operador Ray no GKE simplifica as implantações de produção de IA/ML, aumentando o desempenho e a escalonabilidade.
Maximizar a capacidade de processamento de disponibilização de LLM para GPUs no GKE: um guia prático
Saiba como maximizar a capacidade de processamento de disponibilização de modelos de linguagem grandes (LLMs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.
Práticas recomendadas para executar cargas de trabalho em lote no GKE
Saiba como criar e otimizar plataformas de processamento em lote no GKE
Armazenamento de IA/ML de alto desempenho com suporte a SSD local no GKE
Saiba como usar SSDs locais para fornecer armazenamento de IA/ML de alto desempenho no GKE.
Machine learning com JAX no Kubernetes com GPUs NVIDIA
Saiba como executar aplicativos JAX de vários nós e várias GPUs no GKE com GPUs NVIDIA.
Mecanismos de pesquisa simplificados: abordagem de baixo código com o GKE e o Vertex AI Agent Builder
Como criar um mecanismo de pesquisa com o Google Cloud usando o Vertex AI Agent Builder, a Vertex AI para Pesquisa e o GKE.
A IA da LiveX reduz os custos de suporte ao cliente com agentes de IA treinados e disponibilizados no GKE e na IA da NVIDIA
Veja como a LiveX AI usa o GKE para criar agentes de IA que aumentam a satisfação do cliente e reduzem custos.
Infraestrutura para um aplicativo de IA generativa com capacidade para RAG usando o GKE e o Cloud SQL
Arquitetura de referência para executar um aplicativo de IA generativa com geração aumentada de recuperação (RAG) usando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Arquitetura de referência para uma plataforma de processamento em lote no GKE
Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard usando o Kueue para gerenciar cotas de recursos.
Inovação na pesquisa de patentes: como o IPRally aproveita a IA com o GKE e o Ray
Como a IPRally usa o GKE e o Ray para criar uma plataforma de ML escalonável e eficiente para pesquisas de patentes mais rápidas e com maior precisão.
Análise detalhada de desempenho do Gemma no Google Cloud
Use o Gemma em GPUs e TPUs do Cloud para aumentar a eficiência da inferência e do treinamento no GKE.
Análise detalhada do Gemma no GKE: inovações para disponibilizar modelos abertos de IA generativa
Use os melhores modelos abertos do Gemma para criar aplicativos de IA portáteis e personalizáveis e implantá-los no GKE.
Programação avançada de IA/ML com Ray e Kueue
Orquestre aplicativos do Ray no GKE com o KubeRay e o Kueue.
Como proteger o Ray no Google Kubernetes Engine
Aplicar insights de segurança e técnicas de fortalecimento para treinar cargas de trabalho de IA/ML usando o Ray no GKE.
Planejar armazenamento para cargas de trabalho de IA e ML no Google Cloud
Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.
A instalação automática de drivers simplifica o uso de GPUs NVIDIA no GKE
Instale automaticamente os drivers de GPU da Nvidia no GKE.
Acelere sua jornada de IA generativa com o framework NVIDIA NeMo no GKE
Treine modelos de IA generativa usando o GKE e o framework NVIDIA NeMo.
Por que usar o GKE para suas cargas de trabalho da Ray AI?
Melhore a escalonabilidade, a economia, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.
Como simplificar MLOps usando pesos e vieses com o Google Kubernetes Engine
Simplifique o processo de desenvolvimento e implantação de modelos usando Weights & Biases com o GKE.
Como executar IA no GKE totalmente gerenciado, agora com novas opções de computação, preços e reservas de recursos
Ganhe suporte aprimorado, desempenho e preços mais baixos para cargas de trabalho de IA/ML com o Autopilot do GKE.
Como a SEEN aumentou a saída em 89 vezes e reduziu os custos da GPU em 66% usando o GKE
A startup escalona a saída de vídeo personalizada com o GKE.
Como o Spotify está liberando a inovação em ML com Ray e GKE
Como Ray está transformando o desenvolvimento de ML no Spotify.
Como a Ordaōs Bio aproveita a IA generativa no GKE
A Ordaōs Bio, um dos principais aceleradores de IA na pesquisa e descoberta biomédica, está encontrando soluções para novas imunoterapias na oncologia e nas doenças inflamatórias crônicas.
GKE de uma startup em crescimento com tecnologia de ML
Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para turbinar a infraestrutura de machine learning (ML).
Melhoria do tempo de lançamento da difusão estável no GKE em quatro vezes
Saiba como melhorar o tempo de lançamento da difusão estável no GKE.
Exemplos do Google Kubernetes Engine (GKE)
Confira exemplos de aplicativos usados nos tutoriais oficiais do produto GKE.
Exemplos do GKE AI Labs
Confira exemplos experimentais de como usar o GKE para acelerar suas iniciativas de IA/ML.
Plataformas aceleradas do GKE
Confira arquiteturas e soluções de referência para implantar cargas de trabalho aceleradas no GKE.