Gemini Enterprise Agent Platform-Trainingscluster – Übersicht

Wenn Sie sich für Gemini Enterprise Agent Platform-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Gemini Enterprise Agent Platform-Trainingscluster ist ein Dienst von Google Cloud der die größten und komplexesten KI/ML-Arbeitslasten vereinfachen und beschleunigen soll. Er wurde speziell entwickelt, um Herausforderungen beim Training in großem Maßstab zu bewältigen, z. B. komplexe Clusterkonfiguration, Framework-Optimierung, Umgang mit Hardwarefehlern und Integration unterschiedlicher Toolsets.

Wichtigste Wertversprechen und Funktionen

Gemini Enterprise Agent Platform-Trainingscluster bietet mehrere wichtige Vorteile:

  • Open-Source-Slurm-UX und Clustertransparenz: Gemini Enterprise Agent Platform-Trainingscluster bietet vertraute, flexible Tools zum Starten und Verwalten von Jobs über eine Open-Source-Slurm-Benutzeroberfläche. Slurm ist ein Branchenstandard, der für optimierte GPU-Planung, automatische Fehlertoleranz und vereinfachten parallelen Jobstart bekannt ist.

  • Automatisierte Cluster-Einrichtung und -Konfiguration: Gemini Enterprise Agent Platform-Trainingscluster automatisiert die Einrichtung und Konfiguration von Clustern, um den Übergang von der Reservierung zum Produktionstraining innerhalb von Stunden zu ermöglichen. Nutzer können Cluster mit der Google Cloud Konsole (mit Referenzarchitekturen oder Schritt-für-Schritt-Konfiguration) oder über API Aufrufe mit JSON-Dateien erstellen.

  • Vorkonfigurierte Data-Science-Rezepte und -Workflows: Gemini Enterprise Agent Platform-Trainingscluster enthält speziell entwickelte Tools und optimierte Trainingsrezepte, um das Training für beliebte Anwendungsfälle wie Llama- und Gemma-Modelle zu beschleunigen. Dazu gehören Vortraining, überwachte Feinabstimmung (SFT) und Reinforcement Learning (RL). Diese Rezepte sind für die beste Leistung (State-of-the-Art, SOTA) auf der Google Cloud Infrastruktur vorkonfiguriert und bieten erhebliche Leistungssteigerungen.

  • Hardware-Resilienz und hohe Verfügbarkeit: Gemini Enterprise Agent Platform-Trainingscluster wurde mit Hardware-Resilienz entwickelt, um die Clusterverfügbarkeit zu erhöhen. Hardwareprobleme werden automatisch behoben. Verschiedene Fehlermodi werden erkannt und priorisiert (z. B. Korrektheitsprüfungen, Geschwindigkeitsprüfungen, ECC-Fehler (Error-Correcting Code), DCGM-Prüfungen (NVIDIA Data Center GPU Manager), Festplattenspeicherkapazität). Außerdem werden Maßnahmen zur Fehlerbehebung ausgelöst, z. B. Neustart, Neuinstallation oder Austausch fehlerhafter Knoten und Wiederaufnahme ab Prüfpunkten. So lassen sich die erheblichen Kostensteigerungen und Verzögerungen vermeiden, die durch Jobunterbrechungen und Hardwarefehler beim Training in großem Maßstab entstehen.

  • Architektur und Komponenten: Gemini Enterprise Agent Platform-Trainingscluster wird auf der Compute Engine Infrastruktur ausgeführt, die GPUs und CPUs unterstützt. Ein verwalteter Slurm-Orchestrator wird zum Bereitstellen und Verwalten von Compute-Knoten verwendet, einschließlich Anmelde- und Worker-Knoten. Der Dienst lässt sich in andere Google Cloud Dienste wie Netzwerk und Speicher einbinden.

  • MLOps und Beobachtbarkeit: Der Dienst lässt sich in Vertex ML Ops-Tools wie die Gemini Enterprise Agent Platform Model Registry für die automatische Registrierung, Verfolgung und Versionsverwaltung von trainierten Workflows und Vertex AI Inference für die Bereitstellung mit Autoscaling und automatisierten Messwerten einbinden. Trainingscluster bieten auch eine automatische Beobachtbarkeitsintegration mit Vertex AI TensorBoard, um Trainingsprozesse zu visualisieren, Messwerte zu verfolgen und Probleme frühzeitig zu erkennen.

Trainingscluster können mit der Gemini Enterprise Agent Platform-Trainingscluster API erstellt, abgerufen, aufgelistet, aktualisiert und gelöscht werden. Nach der Clustererstellung, können Nutzer die Funktionalität prüfen, indem sie sich in Knoten anmelden, grundlegende Slurm-Befehle ausführen (z. B. sinfo, sbatch) und GPU-bezogene Arbeitslasten ausführen (z. B. nvidia-smi). Das Tool Cluster Health Scanner (CHS) ist vorinstalliert, um Diagnosen wie DCGM- und NCCL-Tests auszuführen und die Clusterbereitschaft zu prüfen.

Gemini Enterprise Agent Platform-Trainingscluster bietet eine API zum Starten vordefinierter LLM-Jobs mit optimierten Rezepten für Modelle wie Llama und Gemma, die Vortraining und kontinuierliches Vortraining ab Prüfpunkten unterstützen. Die Jobüberwachung ist möglich, indem Sie sich am Anmeldeknoten anmelden und Ausgabedateien und Slurm-Befehle wie squeue prüfen.

Terminologie

In diesem Abschnitt finden Sie Definitionen wichtiger Begriffe und Konzepte, die für das Verständnis und die effektive Nutzung von Gemini Enterprise Agent Platform-Trainingscluster unerlässlich sind. Diese Begriffe umfassen wichtige Dienstkomponenten, architektonische Überlegungen, integrierte Speichertechnologien und grundlegende Konzepte für maschinelles Lernen (ML) und MLOps, die Ihre Trainingsumgebung unterstützen.

Wichtige Dienstkonzepte

Knoten
  • Eine einzelne virtuelle Maschine (Compute Engine-Instanz) in einem Cluster. Im Zusammenhang mit verwaltetem Training auf reservierten Clustern bezieht sich ein Knoten auf eine einzelne virtuelle Maschine (VM), die als einzelne Recheneinheit in Ihrem Cluster dient. Stellen Sie sich einen Knoten als eine der dedizierten Worker-Maschinen vor, auf der ein Teil Ihres gesamten Trainingsjobs ausgeführt wird. Jeder Knoten ist mit bestimmten Ressourcen wie CPU, Arbeitsspeicher und Beschleunigern (z. B. A3- oder A4-GPUs) ausgestattet. Alle arbeiten koordiniert zusammen, um umfangreiche, verteilte Trainingsaufgaben zu bewältigen.
Anmeldeknoten
  • Ein Anmeldeknoten ist der Haupteinstiegspunkt für einen Nutzer, um auf den Cluster zuzugreifen, Jobs zu senden und Dateien zu verwalten. Weitere Informationen finden Sie unter Was ist Hochleistungs-Computing?.
Partition
  • In Slurm eine logische Gruppierung von Knoten, die häufig verwendet wird, um Knoten mit unterschiedlichen Hardwarekonfigurationen zu trennen.
Rezept
  • Im Zusammenhang mit verwaltetem Training ist ein Rezept ein umfassendes und wiederverwendbares Paket, das alles enthält, was zum Ausführen einer bestimmten umfangreichen Trainingsarbeitslast erforderlich ist.
Slurm-Cluster
  • Eine Sammlung von Compute Engine-Instanzen, die von Slurm verwaltet werden und einen Anmeldeknoten und mehrere Worker-Knoten enthalten, die für die Ausführung von Trainingsjobs konfiguriert sind. Weitere Informationen finden Sie unter Slurm Workload Manager.
Worker-Knoten
  • Ein Worker-Knoten ist eine einzelne Maschine oder Compute-Instanz in einem Cluster, die für die Ausführung von Aufgaben oder Arbeiten verantwortlich ist. In Systemen wie Kubernetes- oder Ray-Clustern sind Knoten die grundlegenden Recheneinheiten. Weitere Informationen finden Sie unter Was ist Hochleistungs-Computing (HPC)?.

Architektur und Netzwerk

VPC-Netzwerk des Nutzers
  • Ein VPC-Netzwerk des Nutzers ist eine Virtual Private Cloud (VPC) von Google Cloud, die privat auf einen Dienst zugreift, der in einer anderen VPC gehostet wird (der VPC des Erstellers). Weitere Informationen finden Sie unter Private Service Connect.
Maximale Übertragungseinheit (MTU)
  • Die maximale Größe eines Datenpakets, das ein mit dem Netzwerk verbundenes Gerät übertragen kann. Größere MTU-Größen (Jumbo-Frames) können die Netzwerkleistung für bestimmte Arbeitslasten verbessern. Weitere Informationen finden Sie unter Maximale Übertragungseinheit.
Zugriff auf private Dienste
  • Der Zugriff auf private Dienste ist eine private Verbindung zwischen Ihrem VPC-Netzwerk (Virtual Private Cloud) und Netzwerken von Google oder Drittanbietern. Dadurch können VM-Instanzen in Ihrem VPC-Netzwerk über interne IP-Adressen mit diesen Diensten kommunizieren, ohne dem öffentlichen Internet ausgesetzt zu sein. Weitere Informationen finden Sie unter Zugriff auf private Dienste.
VPC-Netzwerk-Peering
  • Eine Netzwerkverbindung, die es zwei VPC-Netzwerken ermöglicht, privat zu kommunizieren. Im Zusammenhang mit verwaltetem Training auf reservierten Clustern ist das VPC-Netzwerk-Peering eine wichtige Komponente für die Integration wichtiger Dienste. Es ist beispielsweise die erforderliche Methode, um die VPC Ihres Clusters mit einer Filestore-Instanz zu verbinden, die das erforderliche freigegebene Verzeichnis `/home` für alle Knoten in Ihrem Cluster bereitstellt.
Zone
  • Ein bestimmter Bereitstellungsbereich in einer Google Cloud-Region. Im Zusammenhang mit verwaltetem Training auf reservierten Clustern sollten alle Komponenten des Dienstes (Cluster, Filestore- und Managed Lustre-Instanzen) in derselben Zone erstellt werden, um die beste Leistung zu erzielen.

Integrierte Speichertechnologien

Cloud Storage FUSE
  • Ein Open-Source-FUSE-Adapter, mit dem Sie Cloud Storage-Buckets als Dateisystem auf Linux- oder macOS-Systemen bereitstellen können. Weitere Informationen finden Sie unter Cloud Storage FUSE.
Filestore
  • Ein vollständig verwalteter, hochleistungsfähiger Dateispeicherdienst von Google Cloud, der häufig für Anwendungen verwendet wird, die ein freigegebenes Dateisystem benötigen. Weitere Informationen finden Sie unter Filestore – Übersicht.
Managed Lustre
  • Ein paralleles, verteiltes Dateisystem für Hochleistungs-Computing. Managed Lustre von Google Cloud bietet ein Dateisystem mit hohem Durchsatz für anspruchsvolle Arbeitslasten. Weitere Informationen finden Sie unter Managed Lustre – Übersicht.
Leistungsstufe
  • Eine Konfigurationseinstellung für eine Managed Lustre-Instanz, die die Durchsatzgeschwindigkeit (in MB/s pro TiB) definiert und die Mindest- und Höchstkapazität beeinflusst.

Wichtige ML- und MLOps-Konzepte

Prüfpunkt
  • Daten, die den Zustand der Parameter eines Modells während oder nach Abschluss des Trainings erfassen. Während des Trainings haben Sie beispielsweise folgende Möglichkeiten: 1. Training beenden, möglicherweise absichtlich oder aufgrund bestimmter Fehler. 2. Prüfpunkt erfassen. 3. Später den Prüfpunkt neu laden, möglicherweise auf anderer Hardware. 4. Training neu starten. In Gemini bezieht sich ein Prüfpunkt auf eine bestimmte Version eines Gemini-Modells, das mit einem bestimmten Dataset trainiert wurde.
Überwachte Feinabstimmung (SFT)
  • Eine ML-Technik, bei der ein vortrainiertes Modell mit einem kleineren, gelabelten Dataset weiter trainiert wird, um es an eine bestimmte Aufgabe anzupassen.
Vertex AI Inference
Vertex AI Model Registry
  • Vertex AI Model Registry ist ein zentrales Repository, in dem Sie den Lebenszyklus Ihrer ML-Modelle verwalten können. Vertex AI Model Registry bietet eine Übersicht über Ihre Modelle, sodass Sie neue Versionen besser organisieren, verfolgen und trainieren können. Wenn Sie eine Modellversion haben, die Sie bereitstellen möchten, können Sie sie einem Endpunkt direkt aus der Registry zuweisen oder Modelle mithilfe von Aliassen auf einem Endpunkt bereitstellen. Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.
Vertex AI TensorBoard
  • Vertex AI TensorBoard ist ein verwalteter, skalierbarer Dienst in Google Cloud, mit dem Data Scientists und ML-Entwickler ihre ML-Tests visualisieren, das Modelltraining debuggen und Leistungsmesswerte mit der vertrauten Open-Source-TensorBoard-Oberfläche verfolgen können. Der Dienst lässt sich nahtlos in Vertex AI Training und andere Dienste einbinden und bietet nichtflüchtigen Speicher für Testdaten sowie die gemeinsame Analyse der Modellentwicklung. Weitere Informationen finden Sie unter Einführung in Vertex AI TensorBoard.