Orquestração de IA/ML na documentação do GKE

O Google Kubernetes Engine (GKE) oferece uma plataforma única e unificada para orquestrar todo o ciclo de vida de IA/ML. Ele oferece o poder e a flexibilidade para impulsionar suas cargas de trabalho de treinamento, inferência e agentes, para que você possa simplificar sua infraestrutura e começar a gerar resultados. Os recursos de orquestração de última geração do GKE oferecem o seguinte:

  • Aceleradores de hardware: acesse e gerencie as GPUs e TPUs de alta potência necessárias para treinamento e inferência em grande escala.
  • Flexibilidade de pilha: integre-se aos frameworks de computação distribuída, processamento de dados e disponibilização de modelos que você já conhece e confia.
  • Simplicidade do Kubernetes gerenciado: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.

Confira nossos blogs, tutoriais e práticas recomendadas para saber como o GKE pode otimizar suas cargas de trabalho de IA/ML. Para mais informações sobre os benefícios e recursos disponíveis, consulte a Visão geral da introdução às cargas de trabalho de IA/ML no GKE.

  • Acesse o Gemini 2.0 Flash Thinking
  • Uso mensal sem custo financeiro dos produtos mais procurados, incluindo APIs de IA e BigQuery
  • Sem cobranças automáticas, sem compromisso

Aproveite mais de 20 produtos sem nenhum custo financeiro

Acesse mais de 20 produtos sem custos financeiros voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.

Recursos de documentação

Encontre guias de início rápido, consulte referências de chaves e receba ajuda para problemas comuns.
Conheça o treinamento autoguiado, os casos de uso, as arquiteturas de referência e os exemplos de código para usar e conectar os serviços do Google Cloud .
Treinamento
Treinamento e tutoriais

Aprenda a implantar e gerenciar um aplicativo de IA com agentes em contêineres no GKE usando o Agent Development Kit (ADK) e o vLLM para inferência escalonável com o Llama 3.1.

Tutorial Inferência de IA/ML IA generativa

Treinamento
Treinamento e tutoriais

Aprenda a implantar e gerenciar um aplicativo de IA com agentes em contêineres no GKE usando o Agent Development Kit (ADK) e a Vertex AI para inferência escalonável com o Gemini 2.0 Flash.

Tutorial Inferência de IA/ML IA generativa

Treinamento
Treinamento e tutoriais

Saiba como implantar LLMs usando Unidades de Processamento de Tensor (TPUs) no GKE com o framework de veiculação de TPU Optimum do Hugging Face.

Tutorial Inferência de IA/ML TPU

Treinamento
Treinamento e tutoriais

Saiba como criar armazenamento com instâncias do Parallelstore totalmente gerenciadas e acessá-las como volumes. O driver CSI é otimizado para cargas de trabalho de treinamento de IA/ML que envolvem tamanhos de arquivo menores e leituras aleatórias.

Tutorial Carregamento de dados de IA/ML

Treinamento
Treinamento e tutoriais

Saiba como otimizar custos para cargas de trabalho de disponibilização de LLM no GKE usando o DWS Flex-start.

Otimização de custos GPU DWS

Treinamento
Treinamento e tutoriais

Aprenda a disponibilizar modelos de linguagem grandes (LLMs) com o KubeRay em TPUs e como isso pode ajudar a melhorar o desempenho dos seus modelos.

Vídeo Ray TPUs

Treinamento
Treinamento e tutoriais

Aprenda a simplificar e acelerar o carregamento de pesos de modelos de IA/ML no GKE com o Hyperdisk ML.

Tutorial Carregamento de dados de IA/ML

Treinamento
Treinamento e tutoriais

Saiba como disponibilizar um LLM usando Unidades de Processamento de Tensor (TPUs) no GKE com o JetStream pelo PyTorch.

Tutorial Inferência de IA/ML TPUs

Treinamento
Treinamento e tutoriais

Conheça as práticas recomendadas para otimizar o desempenho da inferência de LLM com GPUs no GKE usando os frameworks de disponibilização do vLLM e da inferência de geração de texto (TGI, na sigla em inglês).

Tutorial Inferência de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Saiba quando usar e como ativar o operador de GPU NVIDIA no GKE.

Tutorial GPUs

Treinamento
Treinamento e tutoriais

Aprenda a configurar sua infraestrutura de escalonamento automático usando o escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma usando o JetStream de host único.

Tutorial TPUs

Treinamento
Treinamento e tutoriais

Saiba como ajustar o LLM do Gemma usando GPUs no GKE com a biblioteca Transformers do Hugging Face.

Tutorial Inferência de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Aprenda a implantar e disponibilizar um modelo de difusão estável no GKE usando TPUs, Ray Serve e o complemento Ray Operator.

Tutorial Inferência de IA/ML Ray TPUs

Treinamento
Treinamento e tutoriais

Saiba como configurar sua infraestrutura de escalonamento automático usando o Escalonador automático horizontal de pods (HPA) do GKE para implantar o LLM do Gemma com o framework de disponibilização da interface de geração de texto (TGI) do Hugging Face.

Tutorial GPUs

Treinamento
Treinamento e tutoriais

Aprenda a executar uma carga de trabalho PyTorch Megatron-LM baseada em contêiner no A3 Mega.

Tutorial Treinamento de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Saiba como solicitar aceleradores de hardware (GPUs) nas cargas de trabalho do GKE Autopilot.

Tutorial GPUs

Treinamento
Treinamento e tutoriais

Saiba como exibir Llama 2 70B ou Falcon 40B usando várias GPUs NVIDIA L4 com o GKE.

Tutorial Inferência de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Saiba como começar a usar o Ray no GKE executando uma carga de trabalho em um cluster do Ray.

Tutorial Ray

Treinamento
Treinamento e tutoriais

Saiba como exibir o Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b usando o framework do Ray no GKE.

Tutorial Inferência de IA/ML Ray GPUs

Treinamento
Treinamento e tutoriais

Saiba como orquestrar uma carga de trabalho Jax em várias frações de TPU no GKE usando o JobSet e Kueue.

Tutorial TPUs

Treinamento
Treinamento e tutoriais

Saiba como observar as cargas de trabalho da GPU no GKE com o NVIDIA Data Center GPU Manager (DCGM).

Tutorial Observabilidade de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Neste guia de início rápido, mostramos como implantar um modelo de treinamento com GPUs no GKE e armazenar as previsões no Cloud Storage.

Tutorial Treinamento de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Neste vídeo, mostramos como o GKE ajuda a resolver desafios comuns do treinamento de grandes modelos de IA em escala e as práticas recomendadas para treinar e disponibilizar modelos de machine learning em grande escala no GKE.

Vídeo Treinamento de IA/ML Inferência de IA/ML

Treinamento
Treinamento e tutoriais

Esta postagem do blog é um guia explicativo para a criação, execução e desmontagem de um notebook Jupiter com Tensorflow.

Blog Treinamento de IA/ML Inferência de IA/ML GPUs

Treinamento
Treinamento e tutoriais

Neste tutorial, usamos o Kueue para mostrar como implementar um sistema de enfileiramento de jobs e configurar o compartilhamento de cotas e recursos de carga de trabalho entre diferentes namespaces no GKE.

Tutorial Lote de IA/ML

Treinamento
Treinamento e tutoriais

Neste tutorial, mostramos como integrar um aplicativo de modelo de linguagem grande baseado na geração de recuperação aprimorada com arquivos PDF enviados para um bucket do Cloud Storage.

Tutorial Carregamento de dados de IA/ML

Treinamento
Treinamento e tutoriais

Neste tutorial, mostramos como analisar grandes conjuntos de dados no GKE usando o BigQuery para armazenamento e processamento de dados, o Cloud Run para processamento de solicitações e um LLM Gemma para análise e previsões de dados.

Tutorial Carregamento de dados de IA/ML

Caso de uso
Casos de uso

Saiba como usar o GKE e o Ray para pré-processar grandes conjuntos de dados de maneira eficiente para machine learning.

MLOps Treinamento Ray

Caso de uso
Casos de uso

Saiba como acelerar os tempos de carregamento de dados para seus aplicativos de machine learning no Google Kubernetes Engine.

Inferência Hyperdisk ML Cloud Storage FUSE

Caso de uso
Casos de uso

Saiba como otimizar os custos de inferência da GPU ajustando o Escalonador automático horizontal de pods do GKE para máxima eficiência.

Inferência GPU HPA

Caso de uso
Casos de uso

Aprenda a implantar microsserviços NVIDIA NIM de ponta no GKE com facilidade e acelere suas cargas de trabalho de IA.

IA NVIDIA NIM

Caso de uso
Casos de uso

Saiba como o operador Ray no GKE simplifica as implantações de produção de IA/ML, aumentando o desempenho e a escalonabilidade.

IA TPU Ray

Caso de uso
Casos de uso

Saiba como maximizar a capacidade de processamento de disponibilização de modelos de linguagem grandes (LLMs) para GPUs no GKE, incluindo decisões de infraestrutura e otimizações do servidor de modelos.

LLM GPU NVIDIA

Caso de uso
Casos de uso

Saiba como criar e otimizar plataformas de processamento em lote no GKE

Lote Performance Otimização de custos

Caso de uso
Casos de uso

Saiba como usar SSDs locais para fornecer armazenamento de IA/ML de alto desempenho no GKE.

IA NVMe SSD local

Caso de uso
Casos de uso

Saiba como executar aplicativos JAX de vários nós e várias GPUs no GKE com GPUs NVIDIA.

GPUs JAX ML

Caso de uso
Casos de uso

Como criar um mecanismo de pesquisa com o Google Cloud usando o Vertex AI Agent Builder, a Vertex AI para Pesquisa e o GKE.

Pesquisa Agente Vertex AI

Caso de uso
Casos de uso

Veja como a LiveX AI usa o GKE para criar agentes de IA que aumentam a satisfação do cliente e reduzem custos.

IA generativa NVIDIA GPU

Caso de uso
Casos de uso

Arquitetura de referência para executar um aplicativo de IA generativa com geração aumentada de recuperação (RAG) usando GKE, Cloud SQL, Ray, Hugging Face e LangChain.

GenAI RAG Ray

Caso de uso
Casos de uso

Arquitetura de referência para uma plataforma de processamento em lote no GKE no modo Standard usando o Kueue para gerenciar cotas de recursos.

IA Kueue Lote

Caso de uso
Casos de uso

Como a IPRally usa o GKE e o Ray para criar uma plataforma de ML escalonável e eficiente para pesquisas de patentes mais rápidas e com maior precisão.

IA Ray GPU

Caso de uso
Casos de uso

Use o Gemma em GPUs e TPUs do Cloud para aumentar a eficiência da inferência e do treinamento no GKE.

IA Gemma Desempenho

Caso de uso
Casos de uso

Use os melhores modelos abertos do Gemma para criar aplicativos de IA portáteis e personalizáveis e implantá-los no GKE.

IA Gemma Desempenho

Caso de uso
Casos de uso

Orquestre aplicativos do Ray no GKE com o KubeRay e o Kueue.

Kueue Ray KubeRay

Caso de uso
Casos de uso

Aplicar insights de segurança e técnicas de fortalecimento para treinar cargas de trabalho de IA/ML usando o Ray no GKE.

IA Ray Segurança

Caso de uso
Casos de uso

Selecione a melhor combinação de opções de armazenamento para cargas de trabalho de IA e ML no Google Cloud.

IA ML Armazenamento

Caso de uso
Casos de uso

Instale automaticamente os drivers de GPU da Nvidia no GKE.

GPU NVIDIA Instalação

Caso de uso
Casos de uso

Treine modelos de IA generativa usando o GKE e o framework NVIDIA NeMo.

GenAI NVIDIA NeMo

Caso de uso
Casos de uso

Melhore a escalonabilidade, a economia, a tolerância a falhas, o isolamento e a portabilidade usando o GKE para cargas de trabalho do Ray.

IA Ray Escala

Caso de uso
Casos de uso

Simplifique o processo de desenvolvimento e implantação de modelos usando Weights & Biases com o GKE.

Otimização de custos TPUs GPUs

Caso de uso
Casos de uso

Ganhe suporte aprimorado, desempenho e preços mais baixos para cargas de trabalho de IA/ML com o Autopilot do GKE.

GPU Autopilot Desempenho

Caso de uso
Casos de uso

A startup escalona a saída de vídeo personalizada com o GKE.

GPU Escalonamento Contêineres

Caso de uso
Casos de uso

Como Ray está transformando o desenvolvimento de ML no Spotify.

ML Ray Contêineres

Caso de uso
Casos de uso

A Ordaōs Bio, um dos principais aceleradores de IA na pesquisa e descoberta biomédica, está encontrando soluções para novas imunoterapias na oncologia e nas doenças inflamatórias crônicas.

Desempenho TPU Otimização de custos

Caso de uso
Casos de uso

Como a Moloco, uma startup do Vale do Silício, aproveitou o poder do GKE e do Tensor Flow Enterprise para turbinar a infraestrutura de machine learning (ML).

ML Escala Otimização de custos

Caso de uso
Casos de uso

Saiba como melhorar o tempo de lançamento da difusão estável no GKE.

Performance Escalonamento DP

Exemplo de código
Exemplos de código

Confira exemplos de aplicativos usados nos tutoriais oficiais do produto GKE.

Exemplo de código
Exemplos de código

Confira exemplos experimentais de como usar o GKE para acelerar suas iniciativas de IA/ML.

Exemplo de código
Exemplos de código

Confira arquiteturas e soluções de referência para implantar cargas de trabalho aceleradas no GKE.

Vídeos relacionados