Informazioni sulla conformità dell'AI di GKE

Questo documento spiega cos'è il programma di conformità dell'AI di Kubernetes, perché è importante per i tuoi carichi di lavoro di AI/ML su Google Kubernetes Engine (GKE) e come puoi configurare cluster GKE conformi.

Perché la conformità all'AI è importante per i tuoi cluster GKE

Il programma di conformità all'AI di Kubernetes definisce uno standard per i cluster Kubernetes per garantire che possano eseguire in modo affidabile ed efficiente i carichi di lavoro di AI e ML. La configurazione di un cluster Kubernetes per l'IA/ML può essere complessa. Spesso comporta la navigazione in un panorama di installazioni di driver specifici, versioni API e potenziali soluzioni alternative per bug imprevisti.

Una piattaforma conforme come GKE è progettata per gestire queste complessità sottostanti per te, fornendo un percorso dalla configurazione al deployment. Se utilizzi una versione GKE conforme, puoi avere la certezza che il tuo ambiente sia ottimizzato per criteri come i seguenti:

  • Scalabilità: esegui lo scale up e lo scale down dei tuoi workload AI/ML in modo efficiente in base alla domanda.
  • Prestazioni: ottieni il massimo dal tuo hardware, tra cui GPU e TPU.
  • Portabilità: esegui le tue applicazioni di AI/ML su qualsiasi cluster Kubernetes conforme con modifiche minime.
  • Interoperabilità: integrazione con altri strumenti e framework nell'ecosistema AI/ML.

Come creare un cluster GKE conforme all'AI

Per creare un cluster GKE conforme all'AI, devi:

  1. Consulta il repository GitHub ai-conformance per visualizzare l'elenco delle versioni conformi.
  2. Crea un cluster GKE in modalità Standard in esecuzione su una versione conforme, ad esempio 1.34.0-gke.1662000 o successive.
  3. Abilita l'API Gateway sul cluster.

Il cluster ora soddisfa i requisiti obbligatori per la conformità all'AI di Kubernetes.

Cosa rende GKE una piattaforma conforme a Kubernetes AI

GKE gestisce i requisiti di base per la conformità all'AI, quindi non devi farlo tu. La tabella seguente evidenzia alcune di queste funzionalità chiave per i carichi di lavoro AI/ML. Alcune di queste funzionalità sono abilitate per impostazione predefinita, ma altre, come Kueue per la pianificazione di gruppo, sono aggiunte facoltative che puoi installare per migliorare i tuoi carichi di lavoro di AI/ML.

Il programma di conformità AI di Kubernetes è progettato per evolversi con l'ecosistema AI/ML. I requisiti vengono aggiornati a ogni release della versione secondaria di Kubernetes in base allo stato dell'ecosistema. Per l'insieme completo dei requisiti per una versione secondaria specifica, nel repository GitHub ai-conformance, consulta il file docs/AIConformance-MINOR_VERSION.yaml, dove MINOR_VERSION è la tua versione specifica, ad esempio v1.34.

Requisito
Allocazione dinamica delle risorse (DRA) Consente richieste di risorse più flessibili e granulari oltre ai conteggi. Per saperne di più, consulta Informazioni sull'allocazione dinamica delle risorse.
API Kubernetes Gateway Fornisce una gestione avanzata del traffico per i servizi di inferenza, che consente funzionalità come la suddivisione ponderata del traffico e il routing basato sull'intestazione. Per saperne di più, consulta la sezione Informazioni sull'API GKE Gateway.
Pianificazione di gruppo Garantisce la pianificazione tutto o niente per i carichi di lavoro AI distribuiti. GKE consente l'installazione e il corretto funzionamento di almeno una soluzione di pianificazione di gruppo. Per un esempio, consulta Esegui il deployment di un sistema batch utilizzando Kueue.
Gestore della scalabilità automatica del cluster per gli acceleratori Scala i gruppi di nodi che contengono tipi specifici di acceleratori in base ai pod in attesa che richiedono questi acceleratori. Per ulteriori informazioni, consulta:
Horizontal Pod Autoscaler (HPA) per gli acceleratori Funziona correttamente per i pod che utilizzano acceleratori, inclusa la possibilità di scalare questi pod in base a metriche personalizzate pertinenti ai carichi di lavoro AI/ML. Per ulteriori informazioni, consulta:
Metriche sul rendimento dell'acceleratore Espone metriche delle prestazioni granulari utilizzando un endpoint delle metriche in formato standardizzato e leggibile dalla macchina. Per ulteriori informazioni, consulta:
Monitoraggio standardizzato Fornisce un sistema di monitoraggio in grado di rilevare e raccogliere metriche dai carichi di lavoro che le espongono in un formato standard (ad esempio, il formato di esposizione Prometheus). Per maggiori informazioni, consulta Osservabilità per GKE.
Supporto per gli operatori AI Deve dimostrare che almeno un operatore AI complesso con una definizione di risorsa personalizzata (CRD) può essere installato sulla piattaforma e che funziona in modo affidabile. Per saperne di più, consulta Creare una piattaforma di machine learning con Kubeflow e Ray su Google Kubernetes Engine.

Passaggi successivi