Sobre a conformidade de IA do GKE

Standard

Este documento explica o que é o programa de conformidade de IA do Kubernetes, por que ele é importante para suas cargas de trabalho de IA/ML no Google Kubernetes Engine (GKE) e como configurar clusters do GKE em conformidade.

Por que a conformidade com a IA é importante para seus clusters do GKE

O programa de conformidade de IA do Kubernetes define um padrão para clusters do Kubernetes, garantindo que eles possam executar cargas de trabalho de IA e ML de maneira confiável e eficiente. Configurar um cluster do Kubernetes para IA/ML pode ser complexo. Isso geralmente envolve navegar por um cenário de instalações específicas de drivers, versões de API e possíveis soluções alternativas para bugs inesperados.

Uma plataforma compatível como o GKE é projetada para lidar com essas complexidades subjacentes, oferecendo um caminho da configuração à implantação. Ao criar uma versão compatível do GKE, você pode ter certeza de que seu ambiente está otimizado para critérios como:

Escalonabilidade: escalone suas cargas de trabalho de IA/ML para cima e para baixo com eficiência com base na demanda.
Performance: aproveite ao máximo seu hardware, incluindo GPUs e TPUs.
Portabilidade: execute seus aplicativos de IA/ML em qualquer cluster do Kubernetes compatível com mudanças mínimas.
Interoperabilidade: integre com outras ferramentas e estruturas no ecossistema de IA/ML.

Como criar um cluster do GKE compatível com IA

Para criar um cluster do GKE compatível com IA, faça o seguinte:

Confira o repositório do GitHub ai-conformance para ver a lista de versões compatíveis.
Crie um cluster do GKE no modo Standard executado em uma versão compatível, como 1.34.0-gke.1662000 ou mais recente.
Ative a API Gateway no cluster.

Seu cluster agora atende aos requisitos obrigatórios de conformidade de IA do Kubernetes.

O que faz do GKE uma plataforma compatível com IA do Kubernetes

O GKE gerencia os requisitos básicos de conformidade com a IA para que você não precise fazer isso. A tabela a seguir destaca alguns desses recursos principais para cargas de trabalho de IA/ML. Alguns desses recursos são ativados por padrão, mas outros, como o Kueue para programação em grupo, são adições opcionais que podem ser instaladas para melhorar as cargas de trabalho de IA/ML.

O programa de conformidade de IA do Kubernetes foi projetado para evoluir com o ecossistema de IA/ML. Os requisitos são atualizados com cada lançamento de versão secundária do Kubernetes com base no estado do ecossistema. Para conferir o conjunto completo de requisitos de uma versão secundária específica, no repositório do GitHub ai-conformance, consulte o arquivo docs/AIConformance-MINOR_VERSION.yaml, em que MINOR_VERSION é sua versão específica, como v1.34.

Requisito
Alocação dinâmica de recursos (DRA)	Permite solicitações de recursos mais flexíveis e detalhadas além das contagens. Para mais informações, consulte Sobre a alocação dinâmica de recursos.
API Kubernetes Gateway	Oferece gerenciamento de tráfego avançado para serviços de inferência, o que permite recursos como divisão de tráfego ponderada e roteamento baseado em cabeçalho. Para mais informações, consulte Sobre a API GKE Gateway.
Programação de gangues	Garante o agendamento tudo ou nada para cargas de trabalho de IA distribuídas. O GKE permite a instalação e a operação de pelo menos uma solução de programação em grupo. Para um exemplo, consulte Implantar um sistema em lote usando o Kueue.
Escalonador automático de clusters para aceleradores	Escala verticalmente e horizontalmente grupos de nós que contêm tipos específicos de aceleradores com base em pods pendentes que solicitam esses aceleradores. Veja mais informações em: Sobre cluster do GKE do GKE. Sobre as ComputeClasses personalizadas.
Escalonador automático horizontal de pods (HPA) para aceleradores	Funciona corretamente para pods que usam aceleradores, incluindo a capacidade de escalonar esses pods com base em métricas personalizadas relevantes para cargas de trabalho de IA/ML. Para mais informações, consulte: Configurar o escalonamento automático para cargas de trabalho de LLM em GPUs. Configure o escalonamento automático para cargas de trabalho de LLM em TPUs.
Métricas de performance do acelerador	Expõe métricas de performance refinadas usando um endpoint de métricas de formato padronizado e legível por máquina. Para mais informações, consulte: Monitore o desempenho da carga de trabalho do nó da GPU. Observabilidade e métricas para cargas de trabalho de TPU.
Monitoramento padronizado	Fornece um sistema de monitoramento capaz de descobrir e coletar métricas de cargas de trabalho que as expõem em um formato padrão (por exemplo, o formato de exposição do Prometheus). Para mais informações, consulte Observabilidade para o GKE.
Suporte para operadores de IA	É necessário provar que pelo menos um operador de IA complexo com uma definição de recurso personalizada (CRD) pode ser instalado na plataforma e que ele funciona de maneira confiável. Para mais informações, consulte Como criar uma plataforma de machine learning com o Kubeflow e o Ray no Google Kubernetes Engine.

A seguir

Confira o repositório de conformidade de IA do Kubernetes para mais detalhes sobre o programa.
Leia a Introdução às cargas de trabalho de IA/ML no GKE.
Saiba mais sobre a inferência de modelos de IA no GKE e teste exemplos de inferência.
Teste um exemplo de treinamento de um modelo em GPUs com o GKE Standard GKE.

Sobre a conformidade de IA do GKE Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Por que a conformidade com a IA é importante para seus clusters do GKE

Como criar um cluster do GKE compatível com IA

O que faz do GKE uma plataforma compatível com IA do Kubernetes

A seguir

Sobre a conformidade de IA do GKE