Orquestração de IA/ML na documentação do GKE
O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o ciclo de vida de IA/ML. Ele oferece o poder e a flexibilidade para impulsionar suas cargas de trabalho de treinamento, inferência e agentes, para que você possa simplificar sua infraestrutura e começar a gerar resultados. Os recursos de orquestração de última geração do GKE oferecem o seguinte:
- Aceleradores de hardware: acesse e gerencie as GPUs e TPUs de alta potência necessárias para treinamento e inferência em grande escala.
- Flexibilidade de pilha: integre-se aos frameworks de computação distribuída, processamento de dados e disponibilização de modelos que você já conhece e confia.
- Simplicidade do Kubernetes gerenciado: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.
Confira nossos blogs, tutoriais e práticas recomendadas para saber como o GKE pode otimizar suas cargas de trabalho de IA/ML. Para mais informações sobre os benefícios e recursos disponíveis, consulte a Visão geral da introdução às cargas de trabalho de IA/ML no GKE.
Comece sua prova de conceito com US$ 300 de crédito sem custos financeiros
- Trabalhe em desenvolvimentos com nossos modelos e ferramentas de IA generativa mais recentes.
- Aproveite mais de 20 produtos muito usados sem custos financeiros, incluindo o Compute Engine e as APIs de IA.
- Sem cobranças automáticas, sem compromisso.
Aproveite mais de 20 produtos sem custos financeiros.
Acesse mais de 20 produtos sem custos financeiros voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.
Recursos de documentação
Gerenciar infraestrutura e aceleradores de IA
- Conceito
- Conceito
- Conceito
- Prática recomendada
- Prática recomendada
- Prática recomendada
- Guia de início rápido
- Vídeo
- Vídeo
Treinar modelos de IA em escala
- Guia de início rápido
- Tutorial
- Tutorial
- Tutorial
- Guia de início rápido
- Instruções
- Tutorial
Disponibilizar modelos de IA para inferência
- Prática recomendada
- Conceito
- Instruções
- Guia de início rápido
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Recursos relacionados
Otimizar cargas de trabalho de IA e ML com o Cloud Storage e o GKE
Saiba como usar o Cloud Storage FUSE para otimizar o desempenho de cargas de trabalho de IA e ML no GKE.
Otimize cargas de trabalho de IA e ML com o Lustre gerenciado e o GKE
Saiba como usar o Managed Lustre para otimizar a performance de cargas de trabalho de IA e ML no GKE.
Isolar a execução de código de IA com o sandbox do agente
Saiba como instalar e executar o controlador da caixa de areia do agente no GKE e implante um ambiente em sandbox no cluster para testar comandos de shell não confiáveis.
Implante um aplicativo de IA com agentes no GKE usando o Kit de Desenvolvimento de Agente (ADK) e um LLM autohospedado
Aprenda a implantar e gerenciar um aplicativo de IA com agente em contêineres no GKE usando o Agent Development Kit (ADK) e o vLLM para inferência escalonável com o Llama 3.1.
Implantar um aplicativo de IA com agentes no GKE usando o Kit de Desenvolvimento de Agente (ADK) e a Vertex AI
Aprenda a implantar e gerenciar um aplicativo de IA com agentes em contêineres no GKE usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalonável com o Gemini 2.0 Flash.
Disponibilizar modelos de código aberto usando TPUs no GKE com o TPU Optimum
Saiba como implantar LLMs usando Unidades de Processamento de Tensor (TPUs) no GKE com o framework de veiculação de TPU Optimum do Hugging Face.
Disponibilize LLMs no GKE com uma estratégia de provisionamento de GPU de alta disponibilidade e custo otimizado
Saiba como otimizar custos para cargas de trabalho de serviço de LLM no GKE usando o início flexível do DWS.
Como exibir modelos de linguagem grandes com o KubeRay em TPUs
Saiba como disponibilizar modelos de linguagem grandes (LLMs) com o KubeRay em TPUs e como isso pode ajudar a melhorar o desempenho dos seus modelos.
Acelerar o carregamento de dados de IA/ML com o Hyperdisk ML
Aprenda a simplificar e acelerar o carregamento de pesos de modelos de IA/ML no GKE com o Hyperdisk ML.
Disponibilizar um LLM usando TPUs no GKE com o JetStream e o PyTorch
Saiba como disponibilizar um LLM usando Unidades de Processamento de Tensor (TPUs) no GKE com o JetStream pelo PyTorch.
Práticas recomendadas para otimizar a inferência de LLM com GPUs no GKE
Conheça as práticas recomendadas para otimizar o desempenho da inferência de LLM com GPUs no GKE usando os frameworks de disponibilização do vLLM e da inferência de geração de texto (TGI, na sigla em inglês).
Gerenciar a pilha de GPU com o operador de GPU NVIDIA no GKE
Saiba quando usar e como ativar o operador de GPU NVIDIA no GKE.
Configurar o escalonamento automático para cargas de trabalho LLM em TPUs
Aprenda a configurar sua infraestrutura de escalonamento automático usando o escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma usando o JetStream de host único.
Ajustar modelos abertos do Gemma usando várias GPUs no GKE
Saiba como ajustar o LLM do Gemma usando GPUs no GKE com a biblioteca Transformers do Hugging Face.
Implantar um aplicativo Ray Serve com um modelo de difusão estável no GKE com TPUs
Aprenda a implantar e disponibilizar um modelo de difusão estável no GKE usando TPUs, Ray Serve e o complemento Ray Operator.
Configurar o escalonamento automático para cargas de trabalho LLM em GPUs com o GKE
Saiba como configurar sua infraestrutura de escalonamento automático usando o Escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma com o framework de disponibilização da interface de geração de texto (TGI) do Hugging Face.
Treinar o Llama2 com o Megatron-LM nas máquinas virtuais A3 Mega
Aprenda a executar uma carga de trabalho PyTorch Megatron-LM baseada em contêiner no A3 Mega.
Implantar cargas de trabalho da GPU no Autopilot
Saiba como solicitar aceleradores de hardware (GPUs) nas cargas de trabalho do GKE Autopilot.
Disponibilizar um LLM com várias GPUs no GKE
Saiba como exibir Llama 2 70B ou Falcon 40B usando várias GPUs NVIDIA L4 com o GKE.
Introdução ao Ray no GKE
Saiba como começar a usar o Ray no GKE executando uma carga de trabalho em um cluster do Ray.
Disponibilizar um LLM em GPUs L4 com Ray
Saiba como exibir o Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b usando o framework do Ray no GKE.
Orquestrar cargas de trabalho do TPU Multislice usando o JobSet e Kueue
Saiba como orquestrar uma carga de trabalho Jax em várias frações de TPU no GKE usando o JobSet e Kueue.
Como monitorar cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)
Saiba como observar as cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).
Guia de início rápido: treinar um modelo com GPUs nos clusters do GKE Standard
Neste guia de início rápido, mostramos como implantar um modelo de treinamento com GPUs no GKE e armazenar as previsões no Cloud Storage.
Como executar machine learning em larga escala no GKE
Neste vídeo, mostramos como o GKE ajuda a resolver desafios comuns do treinamento de grandes modelos de IA em escala e as práticas recomendadas para treinar e disponibilizar modelos de machine learning em grande escala no GKE.
TensorFlow no Autopilot do GKE com aceleração de GPU
Esta postagem do blog é um guia explicativo para a criação, execução e desmontagem de um notebook Jupiter com Tensorflow.
Implementar um sistema de enfileiramento de jobs com compartilhamento de cota entre namespaces no GKE
Neste tutorial, usamos o Kueue para mostrar como implementar um sistema de enfileiramento de jobs e configurar o compartilhamento de cotas e recursos de carga de trabalho entre diferentes namespaces no GKE.
Criar um chatbot RAG com o GKE e o Cloud Storage
Neste tutorial, mostramos como integrar um aplicativo de modelo de linguagem grande baseado na geração de recuperação aprimorada com arquivos PDF enviados para um bucket do Cloud Storage.
Analise dados no GKE usando o BigQuery, o Cloud Run e a Gemma
Neste tutorial, mostramos como analisar grandes conjuntos de dados no GKE usando o BigQuery para armazenamento e processamento de dados, o Cloud Run para processamento de solicitações e um LLM Gemma para análise e previsões de dados.
Pré-processamento de dados distribuídos com o GKE e o Ray: escalonamento para a empresa
Saiba como usar o GKE e o Ray para pré-processar grandes conjuntos de dados de maneira eficiente para machine learning.
Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE
Aprenda a acelerar os tempos de carregamento de dados para seus aplicativos de machine learning no Google Kubernetes Engine.
Economize em GPUs: escalonamento automático mais inteligente para suas cargas de trabalho de inferência do GKE
Saiba como otimizar os custos de inferência da GPU ajustando o Escalonador automático horizontal de pods do GKE para máxima eficiência.
Disponibilize modelos de IA otimizados com eficiência usando os microsserviços do NVIDIA NIM no GKE
Aprenda a implantar microsserviços NVIDIA NIM de ponta no GKE com facilidade e acelere suas cargas de trabalho de IA.
Acelere o Ray na produção com o novo operador Ray no GKE
Saiba como o operador Ray no GKE simplifica as implantações de produção de IA/ML, aumentando o desempenho e a escalonabilidade.
Maximize a taxa de transferência da veiculação de LLMs para GPUs no GKE: um guia prático
Saiba como maximizar a capacidade de processamento de disponibilização de modelos de linguagem grandes (LLMs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.
Práticas recomendadas para executar cargas de trabalho em lote no GKE
Saiba como criar e otimizar plataformas de processamento em lote no GKE
Armazenamento de IA/ML de alto desempenho com suporte a SSD local no GKE
Saiba como usar SSDs locais para fornecer armazenamento de IA/ML de alto desempenho no GKE.
Machine learning com JAX no Kubernetes com GPUs NVIDIA
Saiba como executar aplicativos JAX de vários nós e várias GPUs no GKE com GPUs NVIDIA.
Mecanismos de pesquisa simplificados: abordagem de baixo código com o GKE e o Vertex AI Agent Builder
Como criar um mecanismo de pesquisa com o Google Cloud usando o Vertex AI Agent Builder, a Vertex AI para Pesquisa e o GKE.
A IA da LiveX reduz os custos de suporte ao cliente com agentes de IA treinados e disponibilizados no GKE e na IA da NVIDIA
Veja como a LiveX AI usa o GKE para criar agentes de IA que aumentam a satisfação do cliente e reduzem custos.
Infraestrutura para um aplicativo de IA generativa com capacidade para RAG usando o GKE e o Cloud SQL
Arquitetura de referência para executar um aplicativo de IA generativa com geração aumentada de recuperação (RAG) usando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Arquitetura de referência para uma plataforma de processamento em lote no GKE
Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard usando o Kueue para gerenciar cotas de recursos.
Inovação na pesquisa de patentes: como o IPRally aproveita a IA com o GKE e o Ray
Como a IPRally usa o GKE e o Ray para criar uma plataforma de ML escalonável e eficiente para pesquisas de patentes mais rápidas e com maior precisão.
Análise detalhada de desempenho do Gemma no Google Cloud
Use o Gemma em GPUs e TPUs do Cloud para aumentar a eficiência da inferência e do treinamento no GKE.
Análise detalhada do Gemma no GKE: inovações para disponibilizar modelos abertos de IA generativa
Use os melhores modelos abertos do Gemma para criar aplicativos de IA portáteis e personalizáveis e implantá-los no GKE.
Programação avançada de IA/ML com Ray e Kueue
Orquestre aplicativos do Ray no GKE com o KubeRay e o Kueue.
Como proteger o Ray no Google Kubernetes Engine
Aplicar insights de segurança e técnicas de fortalecimento para treinar cargas de trabalho de IA/ML usando o Ray no GKE.
Planejar armazenamento para cargas de trabalho de IA e ML no Google Cloud
Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.
A instalação automática de drivers simplifica o uso de GPUs NVIDIA no GKE
Instale automaticamente os drivers de GPU da Nvidia no GKE.
Acelere sua jornada de IA generativa com o framework NVIDIA NeMo no GKE
Treine modelos de IA generativa usando o GKE e o framework NVIDIA NeMo.
Por que usar o GKE para suas cargas de trabalho da Ray AI?
Melhore a escalonabilidade, a economia, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.
Como simplificar MLOps usando pesos e vieses com o Google Kubernetes Engine
Simplifique o processo de desenvolvimento e implantação de modelos usando Weights & Biases com o GKE.
Como executar IA no GKE totalmente gerenciado, agora com novas opções de computação, preços e reservas de recursos
Ganhe suporte aprimorado, desempenho e preços mais baixos para cargas de trabalho de IA/ML com o Autopilot do GKE.
Como a SEEN aumentou a saída em 89 vezes e reduziu os custos da GPU em 66% usando o GKE
A startup escalona a saída de vídeo personalizada com o GKE.
Como o Spotify está liberando a inovação em ML com Ray e GKE
Como Ray está transformando o desenvolvimento de ML no Spotify.
Como a Ordaōs Bio aproveita a IA generativa no GKE
A Ordaōs Bio, um dos principais aceleradores de IA na pesquisa e descoberta biomédica, está encontrando soluções para novas imunoterapias na oncologia e nas doenças inflamatórias crônicas.
GKE de uma startup em crescimento com tecnologia de ML
Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para turbinar a infraestrutura de machine learning (ML).
Melhoria do tempo de lançamento da difusão estável no GKE em quatro vezes
Saiba como melhorar o tempo de lançamento da difusão estável no GKE.
Exemplos do Google Kubernetes Engine (GKE)
Confira exemplos de aplicativos usados nos tutoriais oficiais do produto GKE.
Exemplos dos laboratórios de IA do GKE
Confira exemplos experimentais de como usar o GKE para acelerar suas iniciativas de IA/ML.
Plataformas aceleradas do GKE
Confira arquiteturas e soluções de referência para implantar cargas de trabalho aceleradas no GKE.