Acerca da conformidade com a IA do GKE

Este documento explica o que é o programa de conformidade de IA do Kubernetes, por que motivo é importante para as suas cargas de trabalho de IA/ML no Google Kubernetes Engine (GKE) e como pode configurar clusters do GKE em conformidade.

Por que motivo a conformidade com a IA é importante para os seus clusters do GKE

O programa de conformidade de IA do Kubernetes define uma norma para os clusters do Kubernetes para garantir que podem executar cargas de trabalho de IA e ML de forma fiável e eficiente. A configuração de um cluster do Kubernetes para IA/ML pode ser complexa. Envolve frequentemente a navegação num panorama de instalações de controladores específicos, versões da API e potenciais soluções alternativas para erros inesperados.

Uma plataforma em conformidade, como o GKE, é concebida para processar estas complexidades subjacentes por si, oferecendo um caminho desde a configuração à implementação. Ao criar com base numa versão do GKE em conformidade, pode ter a certeza de que o seu ambiente está otimizado para critérios como os seguintes:

  • Escalabilidade: aumente e diminua a escala das suas cargas de trabalho de IA/aprendizagem automática de forma eficiente com base na procura.
  • Desempenho: tire o máximo partido do seu hardware, incluindo GPUs e TPUs.
  • Portabilidade: execute as suas aplicações de IA/AA em qualquer cluster do Kubernetes em conformidade com alterações mínimas.
  • Interoperabilidade: integre-se com outras ferramentas e frameworks no ecossistema de IA/aprendizagem automática.

Como criar um cluster do GKE em conformidade com a IA

Para criar um cluster do GKE em conformidade com a IA, tem de fazer o seguinte:

  1. Consulte o ai-conformance repositório do GitHub para ver a lista de versões em conformidade.
  2. Crie um cluster do GKE no modo padrão com uma versão em conformidade, como 1.34.0-gke.1662000 ou posterior.
  3. Ative a API Gateway no cluster.

O seu cluster cumpre agora os requisitos obrigatórios para a conformidade com a IA do Kubernetes.

O que torna o GKE uma plataforma compatível com a IA do Kubernetes

O GKE gere os requisitos subjacentes para a conformidade com a IA, para que não tenha de o fazer. A tabela seguinte realça algumas destas principais funcionalidades para cargas de trabalho de IA/ML. Algumas destas funcionalidades estão ativadas por predefinição, mas outras, como o Kueue para o agendamento de grupos, são adições opcionais que pode instalar para melhorar as suas cargas de trabalho de IA/ML.

O programa de conformidade de IA do Kubernetes foi concebido para evoluir com o ecossistema de IA/aprendizagem automática. Os requisitos são atualizados com cada lançamento de versão secundária do Kubernetes com base no estado do ecossistema. Para ver o conjunto completo de requisitos de uma versão secundária específica, no ai-conformancerepositório do GitHub, consulte o ficheiro docs/AIConformance-MINOR_VERSION.yaml, em que MINOR_VERSION é a sua versão específica, como v1.34.

Requisito
Atribuição dinâmica de recursos (DRA) Permite pedidos de recursos mais flexíveis e detalhados além das contagens. Para mais informações, consulte o artigo Acerca da atribuição dinâmica de recursos.
API Kubernetes Gateway Oferece gestão de tráfego avançada para serviços de inferência, o que permite capacidades como a divisão de tráfego ponderada e o encaminhamento baseado em cabeçalhos. Para mais informações, consulte o artigo Acerca da API GKE Gateway.
Programação em grupo Garante o agendamento tudo-ou-nada para cargas de trabalho de IA distribuídas. O GKE permite a instalação e o funcionamento bem-sucedido de, pelo menos, uma solução de agendamento de grupos. Para ver um exemplo, consulte o artigo Implemente um sistema de processamento em lote com o Kueue.
Redimensionador automático de clusters para aceleradores Dimensiona os grupos de nós que contêm tipos de aceleradores específicos para cima e para baixo, com base nos pods pendentes que pedem esses aceleradores. Para mais informações, consulte:
Redimensionador automático horizontal de pods (HPA) para aceleradores Funciona corretamente para pods que usam aceleradores, incluindo a capacidade de dimensionar estes pods com base em métricas personalizadas relevantes para cargas de trabalho de IA/AA. Para mais informações, consulte:
Métricas de desempenho do acelerador Expõe métricas de desempenho detalhadas através de um ponto final de métricas de formato padronizado e legível por máquina. Para mais informações, consulte:
Monitorização padronizada Fornece um sistema de monitorização capaz de descobrir e recolher métricas de cargas de trabalho que as expõem num formato padrão (por exemplo, formato de exposição do Prometheus). Para mais informações, consulte o artigo Observabilidade para GKE.
Apoio técnico de operadores de IA Tem de provar que, pelo menos, um operador de IA complexo com uma definição de recurso personalizado (CRD) pode ser instalado na plataforma e que funciona de forma fiável. Para mais informações, consulte o artigo Criar uma plataforma de aprendizagem automática com o Kubeflow e o Ray no Google Kubernetes Engine.

O que se segue?