Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Empfohlene Konfigurationen

In diesem Dokument finden Sie Empfehlungen für die Beschleuniger, Verbrauchstypen und Bereitstellungstools, die sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Anhand dieses Dokuments können Sie die beste Bereitstellung für Ihre Arbeitslast ermitteln.

Informationen und Empfehlungen zu Infrastruktursäulen für KI-, ML- und HPC-Arbeitslasten finden Sie in den folgenden Dokumenten:

Arbeitslasten – Übersicht

Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:

Arbeitslasten	Beschreibung	Empfehlung
Foundation Models vortrainieren	Dazu wird ein Sprachmodell mit einem großen Dataset erstellt. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet. Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt: *Frontier-Modell: Diese ML-Modelle umfassen Hunderte Milliarden bis Billionen oder mehr Parameter. Dazu gehören Large Language Models (LLMs) wie Gemini. Großes Modell*:Diese Modelle umfassen mehrere zehn bis mehrere hundert Milliarden Parameter oder mehr.	Empfehlungen für das Vortrainieren von Modellen
Feinabstimmung	Dabei wird ein trainiertes Modell mithilfe von spezialisierten Datasets oder anderen Techniken an bestimmte Aufgaben angepasst. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt.	Empfehlungen zum Feinabstimmen von Modellen
Inferenz oder Bereitstellung	Dabei wird ein trainiertes oder optimiertes Modell für die Nutzung durch Nutzer oder Anwendungen verfügbar gemacht. Inferenz-Arbeitslasten werden anhand der Größe der Modelle kategorisiert: *Inferenz mit Foundation Models auf mehreren Hosts: Inferenz mit trainierten ML-Modellen, die Hunderte von Milliarden bis Billionen oder mehr Parameter umfassen. Bei diesen Inferenzarbeitslasten wird die Rechenlast auf mehrere Hostmaschinen verteilt. Inferenz mit Foundation-Modellen auf einem einzelnen Host: Inferenz mit trainierten ML-Modellen mit zehn bis hunderten Milliarden von Parametern. Bei diesen Inferenzarbeitslasten ist die Rechenlast auf einen einzelnen Hostcomputer beschränkt. Inferenz mit großen Modellen*:Inferenz mit trainierten oder feinabgestimmten ML-Modellen mit Dutzenden bis Hunderten von Milliarden von Parametern.	Empfehlungen für die Inferenz
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen	Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die in Größe und Komplexität kleiner sind, in der Regel für spezialisiertere Aufgaben.	Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen
HPC	Dabei werden Rechenressourcen aggregiert, um eine höhere Leistung zu erzielen als mit einer einzelnen Workstation, einem Server oder Computer. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt.	Empfehlungen für HPC

Empfehlungen für das Vortrainieren von Modellen

Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger und der empfohlene Verbrauchstyp beschrieben, die beim Vortrainieren von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für das Vortraining von Foundation Models auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen wie A4X Max, A4 oder A3 sowie die Verwendung eines Orchestrators für die Bereitstellung des Clusters. Für die Bereitstellung dieser großen Cluster von Beschleunigern empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle im jeweiligen Bereitstellungsleitfaden für den gewünschten Cluster.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Training von Frontier-Modellen Training großer Modelle	A4X Max A4X A4 A3 Ultra	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Training von Frontier-Modellen Training großer Modelle	A4X Max A4X A4 A3 Ultra	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Training von Frontier-Modellen Training großer Modelle	A3 Mega	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Training von Frontier-Modellen Training großer Modelle	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Training großer Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Training großer Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Wenn Sie sicher sein möchten, dass Sie große Cluster von Beschleunigern erhalten, empfehlen wir die Verwendung einer Reservierung. Um die Kosten für reservierte Ressourcen zu minimieren, empfehlen wir, diese Reservierung für einen Zeitraum anzufordern, der lang genug ist, um Rabatte für zugesicherte Nutzung zu erhalten. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.

Empfehlungen zum Feinabstimmen von Modellen

Für die Feinabstimmung großer Fundierungsmodelle sind kleinere Accelerator-Cluster erforderlich. Dabei werden moderate Datenmengen gelesen und das Modell wird so angepasst, dass es bestimmte Aufgaben ausführen kann. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.

In den folgenden Abschnitten werden die empfohlenen Beschleuniger und der empfohlene Verbrauchstyp für das Feinabstimmen von Modellen beschrieben.

Empfohlene Beschleuniger

Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3 und die Bereitstellung des Clusters mit einem Orchestrator.

Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Anleitung zur Clusterbereitstellung für den von Ihnen ausgewählten Maschinentyp in der folgenden Tabelle.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Feinabstimmung großer Modelle	A4X Max A4X A4	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Feinabstimmung großer Modelle	A4X Max A4X A4	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Feinabstimmung großer Modelle	A3 Mega	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Feinabstimmung großer Modelle	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Feinabstimmung großer Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Feinabstimmung großer Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Für das Feinabstimmen von Arbeitslasten empfehlen wir, Ressourcen mit vorausschauenden Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Verbrauchsoptionen finden Sie unter Verbrauchsoption auswählen.

Empfehlungen für die Inferenz

In den folgenden Abschnitten werden die empfohlenen Beschleuniger und der empfohlene Verbrauchstyp für die Inferenz beschrieben.

Empfohlene Beschleuniger

Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie die Inferenz von Grenzmodellen oder großen Modellen mit mehreren Hosts oder die Inferenz von Grenzmodellen mit einem einzelnen Host durchführen.

Empfohlene Beschleuniger (Multi-Host)

Wenn Sie die Inferenz von Frontier- oder großen Modellen mit mehreren Hosts auf Google Cloudausführen möchten, empfehlen wir, einen beschleunigungsoptimierten Maschinentyp A4X Max, A4X, A4 oder A3 zu verwenden und die Maschine mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Damit Sie mit diesen Clustern loslegen können, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Grenzlinieninferenz mit mehreren Hosts	A4X Max A4X A4 A3 Ultra	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Grenzlinieninferenz mit mehreren Hosts	A4X Max A4X A4 A3 Ultra	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Grenzlinieninferenz mit mehreren Hosts	A3 Mega	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Grenzlinieninferenz mit mehreren Hosts	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Inferenz für große Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Standard-Modus-Clustern maximieren
Inferenz für große Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlene Beschleuniger (einzelner Host)

In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Grenzbereichsinferenz auf einem einzelnen Host aufgeführt. Um Ihnen den Einstieg in diese VMs zu erleichtern, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.

Arbeitslasten	Empfehlungen		Bereitstellungsleitfaden für VMs
	Maschinentyp	Orchestrator
Grenzinferenz auf einem einzelnen Host	A4 A3 Ultra	–	KI-optimierte Instanz erstellen
Grenzinferenz auf einem einzelnen Host	A3 High	–	A3-VM mit aktiviertem GPUDirect-TCPX erstellen

Empfohlener Verbrauchstyp

Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen

Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.

Empfohlene Beschleuniger

Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.

Arbeitslasten	Empfehlungen		Bereitstellungsleitfaden für VMs
	Maschinentyp	Orchestrator
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen	G4 G2	–	G2- oder G4-Instanz erstellen

Empfehlungen für HPC

Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenserie oder computing-optimierte Maschinenserie. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.

Zusammenfassung der Empfehlungen

Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen, welcher Beschleuniger und welcher Verbrauchstyp für verschiedene Arbeitslasten empfohlen werden.

Ressource	Empfehlung
Modell-Vortraining
Maschinenfamilie	Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp	Reservierungen verwenden
Modellabstimmung
Maschinenfamilie	Verwenden Sie die beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3.
Verbrauchstyp	Reservierungen verwenden
Inferenz
Maschinenfamilie	Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp	Reservierungen verwenden
HPC (Hochleistungs-Computing)
Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten

Empfohlene Konfigurationen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Arbeitslasten – Übersicht

Empfehlungen für das Vortrainieren von Modellen

Empfohlene Beschleuniger

Empfohlener Verbrauchstyp

Empfehlungen zum Feinabstimmen von Modellen

Empfohlene Beschleuniger

Empfohlener Verbrauchstyp

Empfehlungen für die Inferenz

Empfohlene Beschleuniger

Empfohlene Beschleuniger (Multi-Host)

Empfohlene Beschleuniger (einzelner Host)

Empfohlener Verbrauchstyp

Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen

Empfohlene Beschleuniger

Empfehlungen für HPC

Zusammenfassung der Empfehlungen

Empfohlene Konfigurationen