Orquestração de IA/ML na documentação do GKE
O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o ciclo de vida da IA/AA. Dá-lhe o poder e a flexibilidade para potenciar a sua formação, inferência e cargas de trabalho de agentes, para que possa simplificar a sua infraestrutura e começar a gerar resultados. As capacidades de orquestração de vanguarda do GKE oferecem o seguinte:
- Aceleradores de hardware: aceda e faça a gestão das GPUs e TPUs de alto desempenho de que precisa para a preparação e a inferência em grande escala.
- Flexibilidade da pilha: integre-se com as estruturas de computação distribuída, tratamento de dados e publicação de modelos que já conhece e nas quais confia.
- Simplicidade do Kubernetes gerido: usufrua de todas as vantagens de uma plataforma gerida para automatizar, dimensionar e melhorar a segurança de todo o seu ciclo de vida de IA/ML, mantendo a flexibilidade.
Explore os nossos blogues, tutoriais e práticas recomendadas para ver como o GKE pode otimizar as suas cargas de trabalho de IA/ML. Para mais informações sobre as vantagens e as funcionalidades disponíveis, consulte a Introdução às cargas de trabalho de IA/ML na vista geral do GKE.
Inicie a sua prova de conceito com 300 USD de crédito grátis
- Aceda ao Gemini 2.0 Flash Thinking
- Utilização mensal gratuita de produtos populares, incluindo APIs de IA e o BigQuery
- Sem cobranças automáticas nem compromissos
Continue a explorar com mais de 20 produtos sempre gratuitos
Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.
Recursos de documentação
Faça a gestão da infraestrutura e dos aceleradores de IA
- Concept
- Concept
- Concept
- Prática recomendada
- Vídeo
- Vídeo
- Início rápido
- Prática recomendada
Prepare modelos de IA em grande escala
- Início rápido
- Início rápido
- Início rápido
- Procedimentos
- Tutorial
Publique modelos de IA para inferência
- Prática recomendada
- Concept
- Procedimentos
- Tutorial
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Recursos relacionados
Implemente uma aplicação de IA com agentes no GKE com o Agent Development Kit (ADK) e um LLM autoalojado
Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e o vLLM para inferência escalável com o Llama 3.1.
Implemente uma aplicação de IA baseada em agentes no GKE com o Agent Development Kit (ADK) e o Vertex AI
Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalável com o Gemini 2.0 Flash.
Publique modelos de código aberto com TPUs no GKE com o Optimum TPU
Saiba como implementar MDIs com as Tensor Processing Units (TPUs) no GKE com a estrutura de publicação de TPUs Optimum da Hugging Face.
Crie e use um volume suportado por uma instância do Parallelstore no GKE
Saiba como criar armazenamento suportado por instâncias do Parallelstore totalmente geridas e aceder a elas como volumes. O controlador CSI está otimizado para cargas de trabalho de preparação de IA/ML que envolvem tamanhos de ficheiros mais pequenos e leituras aleatórias.
Publique MDIs no GKE com uma estratégia de aprovisionamento de GPUs de alta disponibilidade e otimizada em termos de custos
Saiba como otimizar os custos para cargas de trabalho de publicação de MDIs no GKE através do DWS Flex-start.
Publicação de grandes modelos de linguagem com o KubeRay em TPUs
Saiba como publicar modelos de linguagem (conteúdo extenso) com o KubeRay em TPUs e como isto pode ajudar a melhorar o desempenho dos seus modelos.
Acelere o carregamento de dados de IA/ML com o Hyperdisk ML
Saiba como simplificar e acelerar o carregamento de ponderações de modelos de IA/AA no GKE com o Hyperdisk ML.
Publique um MDG com TPUs no GKE com o JetStream e o PyTorch
Saiba como publicar um MDG com unidades de processamento tensor (TPUs) no GKE com o JetStream através do PyTorch.
Práticas recomendadas para otimizar a inferência de MDIs com GPUs no GKE
Conheça as práticas recomendadas para otimizar o desempenho da inferência de MDIs com GPUs no GKE através das estruturas de fornecimento vLLM e Text Generation Inference (TGI).
Faça a gestão da pilha de GPUs com o operador de GPUs da NVIDIA no GKE
Saiba quando usar o operador de GPU da NVIDIA e como ativar o operador de GPU da NVIDIA no GKE.
Configure a escala automática para cargas de trabalho de MDIs em TPUs
Saiba como configurar a sua infraestrutura de escalamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com o JetStream de anfitrião único.
Ajuste os modelos abertos Gemma com várias GPUs no GKE
Saiba como otimizar o MDG Gemma com GPUs no GKE com a biblioteca Hugging Face Transformers.
Implemente uma aplicação Ray Serve com um modelo Stable Diffusion no GKE com TPUs
Saiba como implementar e publicar um modelo do Stable Diffusion no GKE com TPUs, o Ray Serve e o suplemento do operador do Ray.
Configure a escala automática para cargas de trabalho de MDIs em GPUs com o GKE
Saiba como configurar a sua infraestrutura de dimensionamento automático usando o Horizontal Pod Autoscaler (HPA) do GKE para implementar o LLM Gemma com a framework de serviço da Hugging Face Text Generation Interface (TGI).
Forme o Llama2 com o Megatron-LM em máquinas virtuais A3 Mega
Saiba como executar uma carga de trabalho do PyTorch baseada em contentores do Megatron-LM no A3 Mega.
Implemente cargas de trabalho de GPU no Autopilot
Saiba como pedir aceleradores de hardware (GPUs) nas suas cargas de trabalho do GKE Autopilot.
Publique um MDG com várias GPUs no GKE
Saiba como publicar o Llama 2 70B ou o Falcon 40B com várias GPUs NVIDIA L4 com o GKE.
Começar a usar o Ray no GKE
Saiba como começar a usar facilmente o Ray no GKE executando uma carga de trabalho num cluster do Ray.
Publique um MDG em GPUs L4 com o Ray
Saiba como publicar o Falcon 7b, o Llama2 7b, o Falcon 40b ou o Llama2 70b através da framework Ray no GKE.
Orquestre cargas de trabalho de vários fragmentos de TPU com o JobSet e o Kueue
Saiba como orquestrar uma carga de trabalho Jax em várias fatias de TPU no GKE usando o JobSet e o Kueue.
Monitorização de cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM)
Saiba como observar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).
Início rápido: prepare um modelo com GPUs em clusters padrão do GKE
Este início rápido mostra como implementar um modelo de preparação com GPUs no GKE e armazenar as previsões no Cloud Storage.
Executar aprendizagem automática em grande escala no GKE
Este vídeo mostra como o GKE ajuda a resolver desafios comuns de preparação de modelos de IA grandes em grande escala, bem como as práticas recomendadas para preparar e publicar modelos de aprendizagem automática em grande escala no GKE.
TensorFlow no GKE Autopilot com aceleração de GPU
Esta publicação no blogue é um guia passo a passo para a criação, a execução e a desativação de um bloco de notas Jupiter com o TensorFlow.
Implemente um sistema de filas de tarefas com partilha de quotas entre espaços de nomes no GKE
Este tutorial usa o Kueue para mostrar como implementar um sistema de colocação em fila de tarefas e configurar a partilha de recursos e quotas de cargas de trabalho entre diferentes espaços de nomes no GKE.
Crie um chatbot RAG com o GKE e o Cloud Storage
Este tutorial mostra como integrar uma aplicação de modelo de linguagem grande baseada na geração aumentada de obtenção com ficheiros PDF que carrega para um contentor do Cloud Storage.
Analise dados no GKE com o BigQuery, o Cloud Run e o Gemma
Este tutorial mostra-lhe como analisar grandes conjuntos de dados no GKE tirando partido do BigQuery para o armazenamento e o processamento de dados, do Cloud Run para o processamento de pedidos e de um MDG Gemma para a análise de dados e as previsões.
Pré-processamento de dados distribuído com o GKE e o Ray: escalabilidade para a empresa
Saiba como tirar partido do GKE e do Ray para pré-processar de forma eficiente grandes conjuntos de dados para aprendizagem automática.
Práticas recomendadas de carregamento de dados para inferência de IA/ML no GKE
Saiba como acelerar os tempos de carregamento de dados para as suas aplicações de aprendizagem automática no Google Kubernetes Engine.
Poupe em GPUs: escala automática mais inteligente para as suas cargas de trabalho de inferência do GKE
Saiba como otimizar os custos de inferência da GPU ajustando o Horizontal Pod Autoscaler do GKE para máxima eficiência.
Forneça de forma eficiente modelos de IA otimizados com microsserviços NVIDIA NIM no GKE
Saiba como implementar microsserviços NVIDIA NIM no GKE com facilidade e acelerar as suas cargas de trabalho de IA.
Acelere o Ray na produção com o novo operador do Ray no GKE
Saiba como o operador Ray no GKE simplifica as implementações de produção de IA/ML, aumentando o desempenho e a escalabilidade.
Maximize o débito da publicação de MDIs para GPUs no GKE: um guia prático
Saiba como maximizar o débito de fornecimento de grandes modelos de linguagem (GMLs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.
Práticas recomendadas para executar cargas de trabalho em lote no GKE
Saiba como criar e otimizar plataformas de processamento em lote no GKE
Armazenamento de IA/ML de alto desempenho através do suporte de SSD local no GKE
Saiba como usar SSDs locais para fornecer armazenamento de IA/AM de elevado desempenho no GKE.
Aprendizagem automática com JAX no Kubernetes com GPUs NVIDIA
Saiba como executar aplicações JAX com várias GPUs e vários nós no GKE com GPUs NVIDIA.
Motores de pesquisa simplificados: uma abordagem de pouco código com o GKE e o Vertex AI Agent Builder
Como criar um motor de pesquisa com o Google Cloud, usando o Vertex AI Agent Builder, o Vertex AI Search e o GKE.
A LiveX AI reduz os custos do apoio ao cliente com agentes de IA preparados e fornecidos no GKE e na IA da NVIDIA
Como a LiveX AI usa o GKE para criar agentes de IA que melhoram a satisfação do cliente e reduzem os custos.
Infraestrutura para uma aplicação de IA generativa com capacidade de RAG que usa o GKE e o Cloud SQL
Arquitetura de referência para executar uma aplicação de IA generativa com geração aumentada por recuperação (RAG) através do GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Arquitetura de referência para uma plataforma de processamento em lote no GKE
Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard que usa o Kueue para gerir quotas de recursos.
Inovar na pesquisa de patentes: como a IPRally tira partido da IA com o GKE e o Ray
Como a IPRally usa o GKE e o Ray para criar uma plataforma de AA escalável e eficiente para pesquisas de patentes mais rápidas com melhor precisão.
Análise detalhada do desempenho do Gemma no Google Cloud
Tire partido do Gemma nas Cloud GPUs e Cloud TPUs para a eficiência da inferência e da preparação no GKE.
Análise detalhada do Gemma no GKE: novas inovações para disponibilizar modelos de IA generativa abertos
Use os melhores modelos abertos Gemma para criar aplicações de IA portáteis e personalizáveis, e implementá-las no GKE.
Agendamento avançado para IA/ML com Ray e Kueue
Orquestre aplicações Ray no GKE com o KubeRay e o Kueue.
Como proteger o Ray no Google Kubernetes Engine
Aplique estatísticas de segurança e técnicas de reforço para preparar cargas de trabalho de IA/AA com o Ray no GKE.
Crie armazenamento para cargas de trabalho de IA e ML no Google Cloud
Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.
A instalação automática de controladores simplifica a utilização de GPUs NVIDIA no GKE
Instale automaticamente os controladores de GPU Nvidia no GKE.
Acelere o seu percurso de IA generativa com a framework NVIDIA NeMo no GKEE
Prepare modelos de IA generativa com o GKE e a framework NVIDIA NeMo.
Por que motivo deve usar o GKE para as suas cargas de trabalho de IA do Ray?
Melhore a escalabilidade, a rentabilidade, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.
Simplificar o MLOps com o Weights & Biases e o Google Kubernetes Engine
Simplifique o processo de desenvolvimento e implementação de modelos com o Weights & Biases e o GKE.
Executar IA no GKE totalmente gerido, agora com novas opções de computação, preços e reservas de recursos
Obtenha um suporte de GPU melhorado, um desempenho superior e preços mais baixos para cargas de trabalho de IA/ML com o GKE Autopilot.
Como a SEEN aumentou a produção 89 vezes e reduziu os custos da GPU em 66% com o GKE
A startup dimensiona a saída de vídeo personalizada com o GKE.
Como o Spotify está a libertar a inovação de ML com o Ray e o GKE
Como o Ray está a transformar o desenvolvimento de ML no Spotify.
Como a Ordaōs Bio tira partido da IA generativa no GKE
A Ordaōs Bio, um dos principais aceleradores de IA para investigação e descoberta biomédica, está a encontrar soluções para novas imunoterapias em oncologia e doenças inflamatórias crónicas.
GKE de uma startup em crescimento com tecnologia de ML
Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para otimizar a sua infraestrutura de aprendizagem automática (ML).
Melhorar o tempo de lançamento do Stable Diffusion no GKE 4 vezes
Saiba como melhorar o tempo de lançamento do Stable Diffusion no GKE.
Exemplos do Google Kubernetes Engine (GKE)
Veja aplicações de exemplo usadas em tutoriais oficiais do produto GKE.
Exemplos do GKE AI Labs
Veja exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML.
GKE Accelerated Platforms
Veja arquiteturas de referência e soluções para implementar cargas de trabalho aceleradas no GKE.