Empfohlene Konfigurationen

In diesem Dokument finden Sie Empfehlungen für die Beschleuniger, Verbrauchstypen und Bereitstellungstools, die sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Anhand dieses Dokuments können Sie die beste Bereitstellung für Ihre Arbeitslast ermitteln.

Informationen und Empfehlungen zu Infrastruktursäulen für KI-, ML- und HPC-Arbeitslasten finden Sie in den folgenden Dokumenten:

Arbeitslasten – Übersicht

Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:

Arbeitslasten Beschreibung Empfehlung
Foundation Models vortrainieren Dazu wird ein Sprachmodell mit einem großen Dataset erstellt. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet.
Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt:
  • Frontier-Modell: Diese ML-Modelle umfassen Hunderte Milliarden bis Billionen oder mehr Parameter. Dazu gehören Large Language Models (LLMs) wie Gemini.
  • Großes Modell:Diese Modelle umfassen mehrere zehn bis mehrere hundert Milliarden Parameter oder mehr.
Empfehlungen für das Vortrainieren von Modellen
Feinabstimmung Dabei wird ein trainiertes Modell mithilfe von spezialisierten Datasets oder anderen Techniken an bestimmte Aufgaben angepasst. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt. Empfehlungen zum Feinabstimmen von Modellen
Inferenz oder Bereitstellung Dabei wird ein trainiertes oder optimiertes Modell für die Nutzung durch Nutzer oder Anwendungen verfügbar gemacht.
Inferenz-Arbeitslasten werden anhand der Größe der Modelle kategorisiert:
  • Inferenz mit Foundation Models auf mehreren Hosts: Inferenz mit trainierten ML-Modellen, die Hunderte von Milliarden bis Billionen oder mehr Parameter umfassen. Bei diesen Inferenzarbeitslasten wird die Rechenlast auf mehrere Hostmaschinen verteilt.
  • Inferenz mit Foundation-Modellen auf einem einzelnen Host: Inferenz mit trainierten ML-Modellen mit zehn bis hunderten Milliarden von Parametern. Bei diesen Inferenzarbeitslasten ist die Rechenlast auf einen einzelnen Hostcomputer beschränkt.
  • Inferenz mit großen Modellen:Inferenz mit trainierten oder feinabgestimmten ML-Modellen mit Dutzenden bis Hunderten von Milliarden von Parametern.
Empfehlungen für die Inferenz
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die in Größe und Komplexität kleiner sind, in der Regel für spezialisiertere Aufgaben. Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen
HPC Dabei werden Rechenressourcen aggregiert, um eine höhere Leistung zu erzielen als mit einer einzelnen Workstation, einem Server oder Computer. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt. Empfehlungen für HPC

Empfehlungen für das Vortrainieren von Modellen

Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger und der empfohlene Verbrauchstyp beschrieben, die beim Vortrainieren von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für das Vortraining von Foundation Models auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen wie A4X Max, A4 oder A3 sowie die Verwendung eines Orchestrators für die Bereitstellung des Clusters. Für die Bereitstellung dieser großen Cluster von Beschleunigern empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle im jeweiligen Bereitstellungsleitfaden für den gewünschten Cluster.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
  • Training von Frontier-Modellen
  • Training großer Modelle
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
  • Training von Frontier-Modellen
  • Training großer Modelle
A3 Mega GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm
  • Training großer Modelle
A3 High GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Wenn Sie sicher sein möchten, dass Sie große Cluster von Beschleunigern erhalten, empfehlen wir die Verwendung einer Reservierung. Um die Kosten für reservierte Ressourcen zu minimieren, empfehlen wir, diese Reservierung für einen Zeitraum anzufordern, der lang genug ist, um Rabatte für zugesicherte Nutzung zu erhalten. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.

Empfehlungen zum Feinabstimmen von Modellen

Für die Feinabstimmung großer Fundierungsmodelle sind kleinere Accelerator-Cluster erforderlich. Dabei werden moderate Datenmengen gelesen und das Modell wird so angepasst, dass es bestimmte Aufgaben ausführen kann. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.

In den folgenden Abschnitten werden die empfohlenen Beschleuniger und der empfohlene Verbrauchstyp für das Feinabstimmen von Modellen beschrieben.

Empfohlene Beschleuniger

Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3 und die Bereitstellung des Clusters mit einem Orchestrator.

Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Anleitung zur Clusterbereitstellung für den von Ihnen ausgewählten Maschinentyp in der folgenden Tabelle.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
Feinabstimmung großer Modelle
  • A4X Max
  • A4X
  • A4
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
Feinabstimmung großer Modelle A3 Mega GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm
Feinabstimmung großer Modelle A3 High GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Für das Feinabstimmen von Arbeitslasten empfehlen wir, Ressourcen mit vorausschauenden Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Verbrauchsoptionen finden Sie unter Verbrauchsoption auswählen.

Empfehlungen für die Inferenz

In den folgenden Abschnitten werden die empfohlenen Beschleuniger und der empfohlene Verbrauchstyp für die Inferenz beschrieben.

Empfohlene Beschleuniger

Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie die Inferenz von Grenzmodellen oder großen Modellen mit mehreren Hosts oder die Inferenz von Grenzmodellen mit einem einzelnen Host durchführen.

Empfohlene Beschleuniger (Multi-Host)

Wenn Sie die Inferenz von Frontier- oder großen Modellen mit mehreren Hosts auf Google Cloudausführen möchten, empfehlen wir, einen beschleunigungsoptimierten Maschinentyp A4X Max, A4X, A4 oder A3 zu verwenden und die Maschine mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Damit Sie mit diesen Clustern loslegen können, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
Grenzlinieninferenz mit mehreren Hosts
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
Grenzlinieninferenz mit mehreren Hosts A3 Mega GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm
Inferenz für große Modelle A3 High GKE GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlene Beschleuniger (einzelner Host)

In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Grenzbereichsinferenz auf einem einzelnen Host aufgeführt. Um Ihnen den Einstieg in diese VMs zu erleichtern, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.

Arbeitslasten Empfehlungen Bereitstellungsleitfaden für VMs
Maschinentyp Orchestrator
Grenzinferenz auf einem einzelnen Host
  • A4
  • A3 Ultra
KI-optimierte Instanz erstellen
Grenzinferenz auf einem einzelnen Host A3 High A3-VM mit aktiviertem GPUDirect-TCPX erstellen

Empfohlener Verbrauchstyp

Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen

Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.

Empfohlene Beschleuniger

Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.

Arbeitslasten Empfehlungen Bereitstellungsleitfaden für VMs
Maschinentyp Orchestrator
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen
  • G4
  • G2
G2- oder G4-Instanz erstellen

Empfehlungen für HPC

Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenserie oder computing-optimierte Maschinenserie. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.

Zusammenfassung der Empfehlungen

Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen, welcher Beschleuniger und welcher Verbrauchstyp für verschiedene Arbeitslasten empfohlen werden.


Ressource

Empfehlung
Modell-Vortraining
Maschinenfamilie Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp Reservierungen verwenden
Modellabstimmung
Maschinenfamilie Verwenden Sie die beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3.
Verbrauchstyp Reservierungen verwenden
Inferenz
Maschinenfamilie Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp Reservierungen verwenden
HPC (Hochleistungs-Computing)
Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten