Orquestração de IA/ML na documentação do GKE
O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o seu ciclo de vida de IA/ML. Dá-lhe o poder e a flexibilidade para potenciar a sua formação, inferência e cargas de trabalho de agentes, para que possa simplificar a sua infraestrutura e começar a gerar resultados. As capacidades de orquestração de vanguarda do GKE oferecem o seguinte:
- Aceleradores de hardware: aceda e faça a gestão das GPUs e TPUs de alto desempenho de que precisa para a preparação e a inferência em grande escala.
- Flexibilidade da pilha: integre-se com as estruturas de computação distribuída, tratamento de dados e publicação de modelos que já conhece e nas quais confia.
- Simplicidade do Kubernetes gerido: usufrua de todas as vantagens de uma plataforma gerida para automatizar, dimensionar e melhorar a segurança de todo o ciclo de vida da IA/ML, mantendo a flexibilidade.
Explore os nossos blogues, tutoriais e práticas recomendadas para ver como o GKE pode otimizar as suas cargas de trabalho de IA/ML. Para mais informações sobre as vantagens e as funcionalidades disponíveis, consulte o artigo Introdução às cargas de trabalho de IA/ML na vista geral do GKE.
Inicie a sua prova de conceito com 300 USD de crédito grátis
- Desenvolva com os nossos modelos e ferramentas de IA generativa mais recentes.
- Usufrua da utilização gratuita de mais de 20 produtos populares, incluindo o Compute Engine e as APIs de IA.
- Sem cobranças automáticas nem compromissos.
Continue a explorar com mais de 20 produtos sempre gratuitos.
Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.
Recursos de documentação
Faça a gestão da infraestrutura e dos aceleradores de IA
- Concept
- Concept
- Concept
- Prática recomendada
- Prática recomendada
- Prática recomendada
- Início rápido
- Vídeo
- Vídeo
Prepare modelos de IA em grande escala
- Início rápido
- Tutorial
- Tutorial
- Tutorial
- Início rápido
- Procedimentos
- Tutorial
Publique modelos de IA para inferência
- Prática recomendada
- Concept
- Procedimentos
- Início rápido
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Recursos relacionados
Otimize as cargas de trabalho de IA e ML com o Cloud Storage e o GKE
Saiba como usar o Cloud Storage FUSE para otimizar o desempenho das cargas de trabalho de IA e ML no GKE.
Otimize as cargas de trabalho de IA e ML com o Managed Lustre e o GKE
Saiba como usar o Lustre gerido para otimizar o desempenho das cargas de trabalho de IA e ML no GKE.
Isole a execução do código de IA com a área restrita do agente
Saiba como instalar e executar o controlador da sandbox do agente no GKE e implementar um ambiente em sandbox no cluster para testar comandos de shell não fidedignos.
Implemente uma aplicação de IA baseada em agentes no GKE com o Agent Development Kit (ADK) e um MDG autoalojado
Saiba como implementar e gerir uma aplicação de IA com agentes contentorizados no GKE, usando o Agent Development Kit (ADK) e o vLLM para inferência escalável com o Llama 3.1.
Implemente uma aplicação de IA com agentes no GKE com o Agent Development Kit (ADK) e a Vertex AI
Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalável com o Gemini 2.0 Flash.
Apresente modelos de código aberto com TPUs no GKE com o Optimum TPU
Saiba como implementar MDIs com as Tensor Processing Units (TPUs) no GKE com a estrutura de publicação de TPUs Optimum da Hugging Face.
Publique MDIs no GKE com uma estratégia de aprovisionamento de GPUs de alta disponibilidade e otimizada em termos de custos
Saiba como otimizar os custos para cargas de trabalho de publicação de MDIs no GKE através do DWS Flex-start.
Publicar modelos de linguagem (conteúdo extenso) com o KubeRay em TPUs
Saiba como publicar grandes modelos de linguagem (GMLs) com o KubeRay em TPUs e como isto pode ajudar a melhorar o desempenho dos seus modelos.
Acelere o carregamento de dados de IA/ML com o Hyperdisk ML
Saiba como simplificar e acelerar o carregamento de ponderações de modelos de IA/AA no GKE com o Hyperdisk ML.
Apresente um MDG através de TPUs no GKE com o JetStream e o PyTorch
Saiba como publicar um MDG com unidades de processamento tensor (TPUs) no GKE com o JetStream através do PyTorch.
Práticas recomendadas para otimizar a inferência de LLMs com GPUs no GKE
Conheça as práticas recomendadas para otimizar o desempenho da inferência de LLMs com GPUs no GKE através das frameworks de publicação vLLM e Text Generation Inference (TGI).
Faça a gestão da pilha de GPUs com o operador de GPUs da NVIDIA no GKE
Saiba quando usar o operador de GPU da NVIDIA e como ativar o operador de GPU da NVIDIA no GKE.
Configure o dimensionamento automático para cargas de trabalho de MDIs em TPUs
Saiba como configurar a sua infraestrutura de escalamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com o JetStream de anfitrião único.
Ajuste os modelos abertos Gemma com várias GPUs no GKE
Saiba como otimizar o MDG Gemma com GPUs no GKE com a biblioteca Hugging Face Transformers.
Implemente uma aplicação Ray Serve com um modelo Stable Diffusion no GKE com TPUs
Saiba como implementar e publicar um modelo do Stable Diffusion no GKE através de TPUs, do Ray Serve e do suplemento do operador do Ray.
Configure a escala automática para cargas de trabalho de MDIs em GPUs com o GKE
Saiba como configurar a sua infraestrutura de dimensionamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com a estrutura de serviço da Hugging Face Text Generation Interface (TGI).
Prepare o Llama2 com o Megatron-LM em máquinas virtuais A3 Mega
Saiba como executar uma carga de trabalho do PyTorch Megatron-LM baseada em contentores no A3 Mega.
Implemente cargas de trabalho de GPU no Autopilot
Saiba como pedir aceleradores de hardware (GPUs) nas suas cargas de trabalho do GKE Autopilot.
Publique um MDG com várias GPUs no GKE
Saiba como publicar o Llama 2 70B ou o Falcon 40B com várias GPUs NVIDIA L4 com o GKE.
Introdução ao Ray no GKE
Saiba como começar a usar facilmente o Ray no GKE executando uma carga de trabalho num cluster do Ray.
Apresente um MDG em GPUs L4 com o Ray
Saiba como publicar o Falcon 7b, o Llama2 7b, o Falcon 40b ou o Llama2 70b através da framework Ray no GKE.
Orquestre cargas de trabalho de várias fatias de TPUs com o JobSet e o Kueue
Saiba como orquestrar uma carga de trabalho Jax em várias fatias de TPU no GKE usando o JobSet e o Kueue.
Monitorizar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)
Saiba como observar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).
Início rápido: prepare um modelo com GPUs em clusters padrão do GKE
Este início rápido mostra como implementar um modelo de preparação com GPUs no GKE e armazenar as previsões no Cloud Storage.
Executar aprendizagem automática em grande escala no GKE
Este vídeo mostra como o GKE ajuda a resolver desafios comuns de preparação de modelos de IA grandes em grande escala, bem como as práticas recomendadas para preparar e publicar modelos de aprendizagem automática em grande escala no GKE.
TensorFlow no GKE Autopilot com aceleração de GPU
Esta publicação no blogue é um guia passo a passo para a criação, a execução e a desativação de um bloco de notas Jupiter com o TensorFlow ativado.
Implemente um sistema de filas de tarefas com partilha de quotas entre namespaces no GKE
Este tutorial usa o Kueue para mostrar como implementar um sistema de colocação em fila de tarefas e configurar a partilha de recursos e quotas de cargas de trabalho entre diferentes espaços de nomes no GKE.
Crie um chatbot RAG com o GKE e o Cloud Storage
Este tutorial mostra como integrar uma aplicação de modelo de linguagem grande baseada na geração aumentada de obtenção com ficheiros PDF que carrega para um contentor do Cloud Storage.
Analise dados no GKE com o BigQuery, o Cloud Run e o Gemma
Este tutorial mostra-lhe como analisar grandes conjuntos de dados no GKE tirando partido do BigQuery para o armazenamento e o processamento de dados, do Cloud Run para o processamento de pedidos e de um MDG Gemma para a análise de dados e as previsões.
Pré-processamento de dados distribuído com o GKE e o Ray: escalabilidade para a empresa
Saiba como tirar partido do GKE e do Ray para pré-processar de forma eficiente grandes conjuntos de dados para aprendizagem automática.
Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE
Saiba como acelerar os tempos de carregamento de dados para as suas aplicações de aprendizagem automática no Google Kubernetes Engine.
Poupe em GPUs: escala automática mais inteligente para as suas cargas de trabalho de inferência do GKE
Saiba como otimizar os custos de inferência da GPU ajustando o Horizontal Pod Autoscaler do GKE para máxima eficiência.
Forneça de forma eficiente modelos de IA otimizados com microsserviços NVIDIA NIM no GKE
Saiba como implementar microsserviços NVIDIA NIM no GKE com facilidade e acelerar as suas cargas de trabalho de IA.
Acelere o Ray na produção com o novo operador do Ray no GKE
Saiba como o operador Ray no GKE simplifica as implementações de produção de IA/ML, aumentando o desempenho e a escalabilidade.
Maximize o débito de publicação de LLMs para GPUs no GKE: um guia prático
Saiba como maximizar o débito de fornecimento de grandes modelos de linguagem (GMLs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.
Práticas recomendadas para executar cargas de trabalho em lote no GKE
Saiba como criar e otimizar plataformas de processamento em lote no GKE
Armazenamento de IA/ML de alto desempenho através do suporte de SSD local no GKE
Saiba como usar SSDs locais para fornecer armazenamento de IA/AM de elevado desempenho no GKE.
Aprendizagem automática com JAX no Kubernetes com GPUs NVIDIA
Saiba como executar aplicações JAX com várias GPUs e vários nós no GKE com GPUs NVIDIA.
Motores de pesquisa simplificados: uma abordagem de pouco código com o GKE e o Vertex AI Agent Builder
Como criar um motor de pesquisa com o Google Cloud, usando o Vertex AI Agent Builder, o Vertex AI Search e o GKE.
A LiveX AI reduz os custos do apoio ao cliente com agentes de IA preparados e fornecidos no GKE e na NVIDIA AI
Como a LiveX AI usa o GKE para criar agentes de IA que melhoram a satisfação do cliente e reduzem os custos.
Infraestrutura para uma aplicação de IA generativa com capacidade de RAG que usa o GKE e o Cloud SQL
Arquitetura de referência para executar uma aplicação de IA generativa com geração aumentada por recuperação (RAG) usando o GKE, o Cloud SQL, o Ray, o Hugging Face e o LangChain.
Arquitetura de referência para uma plataforma de processamento em lote no GKE
Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard que usa o Kueue para gerir quotas de recursos.
Inovar na pesquisa de patentes: como a IPRally tira partido da IA com o GKE e o Ray
Como a IPRally usa o GKE e o Ray para criar uma plataforma de AA escalável e eficiente para pesquisas de patentes mais rápidas com melhor precisão.
Análise detalhada do desempenho do Gemma no Google Cloud
Tire partido do Gemma nas Cloud GPUs e Cloud TPUs para inferência e eficiência de preparação no GKE.
Análise detalhada do Gemma no GKE: novas inovações para disponibilizar modelos de IA generativa aberta
Use os melhores modelos abertos Gemma para criar aplicações de IA portáteis e personalizáveis, e implementá-las no GKE.
Agendamento avançado para IA/ML com Ray e Kueue
Orquestre aplicações Ray no GKE com o KubeRay e o Kueue.
Como proteger o Ray no Google Kubernetes Engine
Aplique estatísticas de segurança e técnicas de reforço para preparar cargas de trabalho de IA/AA com o Ray no GKE.
Conceba armazenamento para cargas de trabalho de IA e ML no Google Cloud
Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.
A instalação automática de controladores simplifica a utilização de GPUs NVIDIA no GKE
Instale automaticamente controladores de GPU Nvidia no GKE.
Acelere o seu percurso de IA generativa com a framework NVIDIA NeMo no GKEE
Prepare modelos de IA generativa com o GKE e a framework NVIDIA NeMo.
Por que motivo usar o GKE para as suas cargas de trabalho de IA do Ray?
Melhore a escalabilidade, a rentabilidade, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.
Simplificar o MLOps com o Weights & Biases e o Google Kubernetes Engine
Simplifique o processo de desenvolvimento e implementação de modelos usando o Weights & Biases com o GKE.
Executar a IA no GKE totalmente gerido, agora com novas opções de computação, preços e reservas de recursos
Obtenha um suporte de GPU melhorado, um desempenho superior e preços mais baixos para cargas de trabalho de IA/ML com o GKE Autopilot.
Como a SEEN aumentou a produção 89 vezes e reduziu os custos da GPU em 66% com o GKE
A startup dimensiona a saída de vídeo personalizada com o GKE.
Como o Spotify está a libertar a inovação de ML com o Ray e o GKE
Como o Ray está a transformar o desenvolvimento de ML no Spotify.
Como a Ordaōs Bio tira partido da IA generativa no GKE
A Ordaōs Bio, um dos principais aceleradores de IA para investigação e descoberta biomédica, está a encontrar soluções para novas imunoterapias em oncologia e doenças inflamatórias crónicas.
GKE de uma startup em crescimento com tecnologia de ML
Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para otimizar a sua infraestrutura de aprendizagem automática (ML).
Melhorar o tempo de lançamento do Stable Diffusion no GKE 4 vezes
Saiba como melhorar o tempo de lançamento do Stable Diffusion no GKE.
Exemplos do Google Kubernetes Engine (GKE)
Veja aplicações de exemplo usadas nos tutoriais oficiais do produto GKE.
Exemplos do GKE AI Labs
Veja exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML.
Plataformas aceleradas do GKE
Veja arquiteturas de referência e soluções para implementar cargas de trabalho aceleradas no GKE.