Por que motivo a conformidade com a IA é importante para os seus clusters do GKE
O programa de conformidade de IA do Kubernetes define uma norma para os clusters do Kubernetes para garantir que podem executar cargas de trabalho de IA e ML de forma fiável e eficiente. A configuração de um cluster do Kubernetes para IA/ML pode ser complexa. Envolve frequentemente a navegação num panorama de instalações de controladores específicos, versões da API e potenciais soluções alternativas para erros inesperados.
Uma plataforma em conformidade, como o GKE, é concebida para processar estas complexidades subjacentes por si, oferecendo um caminho desde a configuração à implementação. Ao criar com base numa versão do GKE em conformidade, pode ter a certeza de que o seu ambiente está otimizado para critérios como os seguintes:
- Escalabilidade: aumente e diminua a escala das suas cargas de trabalho de IA/aprendizagem automática de forma eficiente com base na procura.
- Desempenho: tire o máximo partido do seu hardware, incluindo GPUs e TPUs.
- Portabilidade: execute as suas aplicações de IA/AA em qualquer cluster do Kubernetes em conformidade com alterações mínimas.
- Interoperabilidade: integre-se com outras ferramentas e frameworks no ecossistema de IA/aprendizagem automática.
Como criar um cluster do GKE em conformidade com a IA
Para criar um cluster do GKE em conformidade com a IA, tem de fazer o seguinte:
- Consulte o
ai-conformancerepositório do GitHub para ver a lista de versões em conformidade. - Crie um cluster do GKE no modo padrão com uma versão em conformidade, como 1.34.0-gke.1662000 ou posterior.
- Ative a API Gateway no cluster.
O seu cluster cumpre agora os requisitos obrigatórios para a conformidade com a IA do Kubernetes.
O que torna o GKE uma plataforma compatível com a IA do Kubernetes
O GKE gere os requisitos subjacentes para a conformidade com a IA, para que não tenha de o fazer. A tabela seguinte realça algumas destas principais funcionalidades para cargas de trabalho de IA/ML. Algumas destas funcionalidades estão ativadas por predefinição, mas outras, como o Kueue para o agendamento de grupos, são adições opcionais que pode instalar para melhorar as suas cargas de trabalho de IA/ML.
O programa de conformidade de IA do Kubernetes foi concebido para evoluir com o ecossistema de IA/aprendizagem automática.
Os requisitos são atualizados com cada lançamento de versão secundária do Kubernetes com base no estado do ecossistema. Para ver o conjunto completo de requisitos de uma versão secundária específica, no ai-conformancerepositório do GitHub, consulte o ficheiro docs/AIConformance-MINOR_VERSION.yaml, em que MINOR_VERSION é a sua versão específica, como v1.34.
| Requisito | |
|---|---|
| Atribuição dinâmica de recursos (DRA) | Permite pedidos de recursos mais flexíveis e detalhados além das contagens. Para mais informações, consulte o artigo Acerca da atribuição dinâmica de recursos. |
| API Kubernetes Gateway | Oferece gestão de tráfego avançada para serviços de inferência, o que permite capacidades como a divisão de tráfego ponderada e o encaminhamento baseado em cabeçalhos. Para mais informações, consulte o artigo Acerca da API GKE Gateway. |
| Programação em grupo | Garante o agendamento tudo-ou-nada para cargas de trabalho de IA distribuídas. O GKE permite a instalação e o funcionamento bem-sucedido de, pelo menos, uma solução de agendamento de grupos. Para ver um exemplo, consulte o artigo Implemente um sistema de processamento em lote com o Kueue. |
| Redimensionador automático de clusters para aceleradores | Dimensiona os grupos de nós que contêm tipos de aceleradores específicos para cima e para baixo, com base nos pods pendentes que pedem esses aceleradores. Para mais informações, consulte: |
| Redimensionador automático horizontal de pods (HPA) para aceleradores | Funciona corretamente para pods que usam aceleradores, incluindo a capacidade de dimensionar estes pods com base em métricas personalizadas relevantes para cargas de trabalho de IA/AA. Para mais informações, consulte: |
| Métricas de desempenho do acelerador | Expõe métricas de desempenho detalhadas através de um ponto final de métricas de formato padronizado e legível por máquina. Para mais informações, consulte: |
| Monitorização padronizada | Fornece um sistema de monitorização capaz de descobrir e recolher métricas de cargas de trabalho que as expõem num formato padrão (por exemplo, formato de exposição do Prometheus). Para mais informações, consulte o artigo Observabilidade para GKE. |
| Apoio técnico de operadores de IA | Tem de provar que, pelo menos, um operador de IA complexo com uma definição de recurso personalizado (CRD) pode ser instalado na plataforma e que funciona de forma fiável. Para mais informações, consulte o artigo Criar uma plataforma de aprendizagem automática com o Kubeflow e o Ray no Google Kubernetes Engine. |
O que se segue?
- Explore o repositório de conformidade de IA do Kubernetes para ver mais detalhes sobre o programa.
- Leia a Introdução às cargas de trabalho de IA/ML no GKE.
- Saiba mais sobre a inferência do modelo de IA no GKE e experimente exemplos de inferência.
- Experimente um exemplo de preparação de um modelo em GPUs com o modo padrão do GKE.