Orquestração de IA/ML na documentação do GKE

O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o ciclo de vida da IA/AA. Dá-lhe o poder e a flexibilidade para potenciar a sua formação, inferência e cargas de trabalho de agentes, para que possa simplificar a sua infraestrutura e começar a gerar resultados. As capacidades de orquestração de vanguarda do GKE oferecem o seguinte:

  • Aceleradores de hardware: aceda e faça a gestão das GPUs e TPUs de alto desempenho de que precisa para a preparação e a inferência em grande escala.
  • Flexibilidade da pilha: integre-se com as estruturas de computação distribuída, tratamento de dados e publicação de modelos que já conhece e nas quais confia.
  • Simplicidade do Kubernetes gerido: usufrua de todas as vantagens de uma plataforma gerida para automatizar, dimensionar e melhorar a segurança de todo o seu ciclo de vida de IA/ML, mantendo a flexibilidade.

Explore os nossos blogues, tutoriais e práticas recomendadas para ver como o GKE pode otimizar as suas cargas de trabalho de IA/ML. Para mais informações sobre as vantagens e as funcionalidades disponíveis, consulte a Introdução às cargas de trabalho de IA/ML na vista geral do GKE.

  • Aceda ao Gemini 2.0 Flash Thinking
  • Utilização mensal gratuita de produtos populares, incluindo APIs de IA e o BigQuery
  • Sem cobranças automáticas nem compromissos

Continue a explorar com mais de 20 produtos sempre gratuitos

Aceda a mais de 20 produtos gratuitos para exemplos de utilização comuns, incluindo APIs de IA, VMs, armazéns de dados e muito mais.

Recursos de documentação

Encontre inícios rápidos e guias, reveja referências importantes e receba ajuda com problemas comuns.
Explore a formação ao seu ritmo, exemplos de utilização, arquiteturas de referência e exemplos de código com exemplos de como usar e associar Google Cloud serviços.
Formação
Formação e tutoriais

Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e o vLLM para inferência escalável com o Llama 3.1.

Tutorial Inferência de IA/ML IA com agentes

Formação
Formação e tutoriais

Saiba como implementar e gerir uma aplicação de IA baseada em agentes contentorizada no GKE, usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalável com o Gemini 2.0 Flash.

Tutorial Inferência de IA/ML IA com agentes

Formação
Formação e tutoriais

Saiba como implementar MDIs com as Tensor Processing Units (TPUs) no GKE com a estrutura de publicação de TPUs Optimum da Hugging Face.

Tutorial Inferência de IA/ML TPU

Formação
Formação e tutoriais

Saiba como criar armazenamento suportado por instâncias do Parallelstore totalmente geridas e aceder a elas como volumes. O controlador CSI está otimizado para cargas de trabalho de preparação de IA/ML que envolvem tamanhos de ficheiros mais pequenos e leituras aleatórias.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Saiba como otimizar os custos para cargas de trabalho de publicação de MDIs no GKE através do DWS Flex-start.

Otimização de custos GPU DWS

Formação
Formação e tutoriais

Saiba como publicar modelos de linguagem (conteúdo extenso) com o KubeRay em TPUs e como isto pode ajudar a melhorar o desempenho dos seus modelos.

Vídeo Ray TPUs

Formação
Formação e tutoriais

Saiba como simplificar e acelerar o carregamento de ponderações de modelos de IA/AA no GKE com o Hyperdisk ML.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Saiba como publicar um MDG com unidades de processamento tensor (TPUs) no GKE com o JetStream através do PyTorch.

Tutorial Inferência de IA/ML TPUs

Formação
Formação e tutoriais

Conheça as práticas recomendadas para otimizar o desempenho da inferência de MDIs com GPUs no GKE através das estruturas de fornecimento vLLM e Text Generation Inference (TGI).

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba quando usar o operador de GPU da NVIDIA e como ativar o operador de GPU da NVIDIA no GKE.

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como configurar a sua infraestrutura de escalamento automático através do GKE Horizontal Pod Autoscaler (HPA) para implementar o LLM Gemma com o JetStream de anfitrião único.

Tutorial TPUs

Formação
Formação e tutoriais

Saiba como otimizar o MDG Gemma com GPUs no GKE com a biblioteca Hugging Face Transformers.

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba como implementar e publicar um modelo do Stable Diffusion no GKE com TPUs, o Ray Serve e o suplemento do operador do Ray.

Tutorial Inferência de IA/ML Ray TPUs

Formação
Formação e tutoriais

Saiba como configurar a sua infraestrutura de dimensionamento automático usando o Horizontal Pod Autoscaler (HPA) do GKE para implementar o LLM Gemma com a framework de serviço da Hugging Face Text Generation Interface (TGI).

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como executar uma carga de trabalho do PyTorch baseada em contentores do Megatron-LM no A3 Mega.

Tutorial Formação em IA/ML GPUs

Formação
Formação e tutoriais

Saiba como pedir aceleradores de hardware (GPUs) nas suas cargas de trabalho do GKE Autopilot.

Tutorial GPUs

Formação
Formação e tutoriais

Saiba como publicar o Llama 2 70B ou o Falcon 40B com várias GPUs NVIDIA L4 com o GKE.

Tutorial Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Saiba como começar a usar facilmente o Ray no GKE executando uma carga de trabalho num cluster do Ray.

Tutorial Ray

Formação
Formação e tutoriais

Saiba como publicar o Falcon 7b, o Llama2 7b, o Falcon 40b ou o Llama2 70b através da framework Ray no GKE.

Tutorial Inferência de IA/ML Ray GPUs

Formação
Formação e tutoriais

Saiba como orquestrar uma carga de trabalho Jax em várias fatias de TPU no GKE usando o JobSet e o Kueue.

Tutorial TPUs

Formação
Formação e tutoriais

Saiba como observar cargas de trabalho de GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).

Tutorial Observabilidade de IA/ML GPUs

Formação
Formação e tutoriais

Este início rápido mostra como implementar um modelo de preparação com GPUs no GKE e armazenar as previsões no Cloud Storage.

Tutorial Formação em IA/ML GPUs

Formação
Formação e tutoriais

Este vídeo mostra como o GKE ajuda a resolver desafios comuns de preparação de modelos de IA grandes em grande escala, bem como as práticas recomendadas para preparar e publicar modelos de aprendizagem automática em grande escala no GKE.

Vídeo Preparação de IA/ML Inferência de IA/ML

Formação
Formação e tutoriais

Esta publicação no blogue é um guia passo a passo para a criação, a execução e a desativação de um bloco de notas Jupiter com o TensorFlow.

Blogue Formação em IA/ML Inferência de IA/ML GPUs

Formação
Formação e tutoriais

Este tutorial usa o Kueue para mostrar como implementar um sistema de colocação em fila de tarefas e configurar a partilha de recursos e quotas de cargas de trabalho entre diferentes espaços de nomes no GKE.

Tutorial Processamento em lote de IA/ML

Formação
Formação e tutoriais

Este tutorial mostra como integrar uma aplicação de modelo de linguagem grande baseada na geração aumentada de obtenção com ficheiros PDF que carrega para um contentor do Cloud Storage.

Tutorial Carregamento de dados de IA/ML

Formação
Formação e tutoriais

Este tutorial mostra-lhe como analisar grandes conjuntos de dados no GKE tirando partido do BigQuery para o armazenamento e o processamento de dados, do Cloud Run para o processamento de pedidos e de um MDG Gemma para a análise de dados e as previsões.

Tutorial Carregamento de dados de IA/ML

Exemplo de utilização
Exemplos de utilização

Saiba como tirar partido do GKE e do Ray para pré-processar de forma eficiente grandes conjuntos de dados para aprendizagem automática.

MLOps Formação Ray

Exemplo de utilização
Exemplos de utilização

Saiba como acelerar os tempos de carregamento de dados para as suas aplicações de aprendizagem automática no Google Kubernetes Engine.

Inferência Hyperdisk ML Cloud Storage FUSE

Exemplo de utilização
Exemplos de utilização

Saiba como otimizar os custos de inferência da GPU ajustando o Horizontal Pod Autoscaler do GKE para máxima eficiência.

Inference GPU HPA

Exemplo de utilização
Exemplos de utilização

Saiba como implementar microsserviços NVIDIA NIM no GKE com facilidade e acelerar as suas cargas de trabalho de IA.

IA NVIDIA NIM

Exemplo de utilização
Exemplos de utilização

Saiba como o operador Ray no GKE simplifica as implementações de produção de IA/ML, aumentando o desempenho e a escalabilidade.

IA TPU Ray

Exemplo de utilização
Exemplos de utilização

Saiba como maximizar o débito de fornecimento de grandes modelos de linguagem (GMLs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.

LLM GPU NVIDIA

Exemplo de utilização
Exemplos de utilização

Saiba como criar e otimizar plataformas de processamento em lote no GKE

Em lote Desempenho Otimização de custos

Exemplo de utilização
Exemplos de utilização

Saiba como usar SSDs locais para fornecer armazenamento de IA/AM de elevado desempenho no GKE.

IA NVMe SSD local

Exemplo de utilização
Exemplos de utilização

Saiba como executar aplicações JAX com várias GPUs e vários nós no GKE com GPUs NVIDIA.

GPUs JAX ML

Exemplo de utilização
Exemplos de utilização

Como criar um motor de pesquisa com o Google Cloud, usando o Vertex AI Agent Builder, o Vertex AI Search e o GKE.

Pesquisa Agente Vertex AI

Exemplo de utilização
Exemplos de utilização

Como a LiveX AI usa o GKE para criar agentes de IA que melhoram a satisfação do cliente e reduzem os custos.

GenAI NVIDIA GPU

Exemplo de utilização
Exemplos de utilização

Arquitetura de referência para executar uma aplicação de IA generativa com geração aumentada por recuperação (RAG) através do GKE, Cloud SQL, Ray, Hugging Face e LangChain.

GenAI RAG Ray

Exemplo de utilização
Exemplos de utilização

Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard que usa o Kueue para gerir quotas de recursos.

IA Kueue Lote

Exemplo de utilização
Exemplos de utilização

Como a IPRally usa o GKE e o Ray para criar uma plataforma de AA escalável e eficiente para pesquisas de patentes mais rápidas com melhor precisão.

IA Ray GPU

Exemplo de utilização
Exemplos de utilização

Tire partido do Gemma nas Cloud GPUs e Cloud TPUs para a eficiência da inferência e da preparação no GKE.

IA Gemma Desempenho

Exemplo de utilização
Exemplos de utilização

Use os melhores modelos abertos Gemma para criar aplicações de IA portáteis e personalizáveis, e implementá-las no GKE.

IA Gemma Desempenho

Exemplo de utilização
Exemplos de utilização

Orquestre aplicações Ray no GKE com o KubeRay e o Kueue.

Kueue Ray KubeRay

Exemplo de utilização
Exemplos de utilização

Aplique estatísticas de segurança e técnicas de reforço para preparar cargas de trabalho de IA/AA com o Ray no GKE.

IA Ray Segurança

Exemplo de utilização
Exemplos de utilização

Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.

IA ML Armazenamento

Exemplo de utilização
Exemplos de utilização

Instale automaticamente os controladores de GPU Nvidia no GKE.

GPU NVIDIA Instalação

Exemplo de utilização
Exemplos de utilização

Prepare modelos de IA generativa com o GKE e a framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Exemplo de utilização
Exemplos de utilização

Melhore a escalabilidade, a rentabilidade, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.

IA Ray Scale

Exemplo de utilização
Exemplos de utilização

Simplifique o processo de desenvolvimento e implementação de modelos com o Weights & Biases e o GKE.

Otimização de custos TPUs GPUs

Exemplo de utilização
Exemplos de utilização

Obtenha um suporte de GPU melhorado, um desempenho superior e preços mais baixos para cargas de trabalho de IA/ML com o GKE Autopilot.

GPU Autopilot Desempenho

Exemplo de utilização
Exemplos de utilização

A startup dimensiona a saída de vídeo personalizada com o GKE.

GPU Escala Recipientes

Exemplo de utilização
Exemplos de utilização

Como o Ray está a transformar o desenvolvimento de ML no Spotify.

ML Ray Containers

Exemplo de utilização
Exemplos de utilização

A Ordaōs Bio, um dos principais aceleradores de IA para investigação e descoberta biomédica, está a encontrar soluções para novas imunoterapias em oncologia e doenças inflamatórias crónicas.

Desempenho TPU Otimização de custos

Exemplo de utilização
Exemplos de utilização

Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para otimizar a sua infraestrutura de aprendizagem automática (ML).

ML Escala Otimização de custos

Exemplo de utilização
Exemplos de utilização

Saiba como melhorar o tempo de lançamento do Stable Diffusion no GKE.

Desempenho Escalabilidade PD

Exemplo de código
Exemplos de código

Veja aplicações de exemplo usadas em tutoriais oficiais do produto GKE.

Exemplo de código
Exemplos de código

Veja exemplos experimentais para tirar partido do GKE e acelerar as suas iniciativas de IA/ML.

Exemplo de código
Exemplos de código

Veja arquiteturas de referência e soluções para implementar cargas de trabalho aceleradas no GKE.

Vídeos relacionados