Empfohlene Konfigurationen

In diesem Dokument finden Sie Empfehlungen, welcher Beschleuniger, welcher Verbrauchstyp, welcher Speicherdienst und welches Bereitstellungstool sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Dieses Dokument soll Ihnen helfen, die beste Bereitstellung für Ihre Arbeitslast zu ermitteln.

Arbeitslasten – Übersicht

Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:

Arbeitslasten	Beschreibung	Empfehlung
Foundation Models vortrainieren	Dazu wird ein Sprachmodell mit einem großen Dataset erstellt. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet. Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt: *Frontier-Modell: Diese ML-Modelle umfassen Hunderte Milliarden bis Billionen oder mehr Parameter. Dazu gehören Large Language Models (LLMs) wie Gemini. Großes Modell*:Diese Modelle umfassen mehrere zehn bis mehrere hundert Milliarden Parameter oder mehr.	Empfehlungen für das Vortrainieren von Modellen
Feinabstimmung	Dabei wird ein trainiertes Modell mithilfe von spezialisierten Datasets oder anderen Techniken an bestimmte Aufgaben angepasst. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt.	Empfehlungen zum Optimieren von Modellen
Inferenz oder Bereitstellung	Dabei wird ein trainiertes oder feinabgestimmtes Modell für die Nutzung durch Nutzer oder Anwendungen verfügbar gemacht. Inferenzarbeitslasten werden anhand der Größe der Modelle in folgende Kategorien unterteilt: *Inferenz mit Foundation Models auf mehreren Hosts: Inferenz mit trainierten ML-Modellen mit Hunderten von Milliarden bis hin zu Billionen von Parametern oder mehr. Bei diesen Inferenzarbeitslasten wird die Rechenlast auf mehrere Hostmaschinen verteilt. Inferenz mit Foundation-Modellen auf einem einzelnen Host: Inferenz mit trainierten ML-Modellen mit zehn bis hunderten Milliarden von Parametern. Bei diesen Inferenzarbeitslasten ist die Rechenlast auf einen einzelnen Host beschränkt. Inferenz mit großen Modellen*:Inferenz mit trainierten oder feinabgestimmten ML-Modellen mit zehn bis hunderten Milliarden von Parametern.	Empfehlungen für die Inferenz
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen	Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die kleiner und weniger komplex sind, in der Regel für spezialisiertere Aufgaben.	Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen
HPC	Dabei werden Rechenressourcen aggregiert, um eine höhere Leistung zu erzielen als mit einer einzelnen Workstation, einem Server oder Computer. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt.	Empfehlungen für HPC

Empfehlungen für das Vortrainieren von Modellen

Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Vortraining von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für das Vortraining von Foundation Models auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4 oder A3 und die Verwendung eines Orchestrators zum Bereitstellen des Clusters. Für die Bereitstellung dieser großen Accelerator-Cluster empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Bereitstellungsanleitung für den gewünschten Cluster in der folgenden Tabelle.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Frontier-Modelltraining Training großer Modelle	A4X Max A4X A4 A3 Ultra	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Frontier-Modelltraining Training großer Modelle	A4X Max A4X A4 A3 Ultra	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Frontier-Modelltraining Training großer Modelle	A3 Mega	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Frontier-Modelltraining Training großer Modelle	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Training großer Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Training großer Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Wenn Sie sichergehen möchten, dass Sie große Cluster von Beschleunigern zu minimalen Kosten erhalten, empfehlen wir, eine Reservierung zu verwenden und diese für einen langen Zeitraum zu beantragen. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.

Empfohlene Speicherdienste

Für das Vortraining müssen Trainingsdaten kontinuierlich und schnell verfügbar sein. Wir empfehlen außerdem, das zu trainierende Modell häufig und schnell zu prüfen. Für die meisten dieser Anforderungen empfehlen wir die Verwendung von Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und aktiviertem Rapid Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen zum Feinabstimmen von Modellen

Für die Feinabstimmung großer Foundation Models sind kleinere Accelerator-Cluster erforderlich, die moderate Datenmengen lesen und das Modell anpassen, um bestimmte Aufgaben auszuführen. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Feinabstimmen von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3 und die Bereitstellung des Clusters mit einem Orchestrator.

Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle in der jeweiligen Clusterbereitstellungsanleitung für den von Ihnen ausgewählten Maschinentyp.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Feinabstimmung großer Modelle	A4X Max A4X A4	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Feinabstimmung großer Modelle	A4X Max A4X A4	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Feinabstimmung großer Modelle	A3 Mega	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Feinabstimmung großer Modelle	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Feinabstimmung großer Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Feinabstimmung großer Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Für das Finetuning von Arbeitslasten empfehlen wir, Ressourcen mit zukünftigen Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfohlene Speicherdienste

Für das Feinabstimmen von Modellen kann die erforderliche Datenmenge erheblich sein, insbesondere wenn es um die Lesegeschwindigkeiten für die Feinabstimmungsleistung geht. Wir empfehlen, das zu optimierende Modell häufig und schnell zu prüfen. Ähnlich wie beim Vortraining empfehlen wir für die meisten Anwendungsfälle Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und aktiviertem Rapid Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen für die Inferenz

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die für die Inferenz verwendet werden sollten.

Empfohlene Beschleuniger

Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie eine Inferenz mit mehreren Hosts oder mit einem einzelnen Host durchführen.

Empfohlene Beschleuniger (Multi-Host)

Wenn Sie auf Google CloudInferenz mit mehreren Hosts für Frontier- oder große Modelle ausführen möchten, empfehlen wir, einen beschleunigungsoptimierten Maschinentyp A4X Max, A4X, A4 oder A3 zu verwenden und die Maschine mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Damit Sie mit diesen Clustern beginnen können, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.

Arbeitslasten	Empfehlungen		Leitfaden für die Clusterbereitstellung
	Maschinentyp	Orchestrator
Grenzlinieninferenz mit mehreren Hosts	A4X Max A4X A4 A3 Ultra	GKE	KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Grenzlinieninferenz mit mehreren Hosts	A4X Max A4X A4 A3 Ultra	Slurm	Vollständig verwalteten Slurm-Cluster für KI-Arbeitslasten erstellen Selbstverwalteten Slurm-Cluster für KI-Arbeitslasten erstellen
Grenzlinieninferenz mit mehreren Hosts	A3 Mega	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Grenzlinieninferenz mit mehreren Hosts	A3 Mega	Slurm	KI-optimierten Cluster auf Grundlage einer Vorlage erstellen A3 Mega-Slurm-Cluster für ML-Training bereitstellen
Inferenz für große Modelle	A3 High	GKE	GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Inferenz für große Modelle	A3 High	Slurm	A3 High-Slurm-Cluster bereitstellen

Empfohlene Beschleuniger (einzelner Host)

In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Frontier-Inferenz auf einem einzelnen Host aufgeführt. Damit Sie mit diesen VMs beginnen können, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.

Arbeitslasten	Empfehlungen		Bereitstellungsleitfaden für VMs
	Maschinentyp	Orchestrator
Grenzlinieninferenz mit einem einzelnen Host	A4 A3 Ultra	–	KI-optimierte Instanz erstellen
Grenzbereich-Inferenz mit einem einzelnen Host	A3 High	–	A3-VM mit aktiviertem GPUDirect-TCPX erstellen

Empfohlener Verbrauchstyp

Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfohlene Speicherdienste

Für die Inferenz ist es erforderlich, die Inferenzbinärdateien und ‑Gewichte schnell auf vielen Servern zu laden. Dazu sind schnelle Datenlesevorgänge erforderlich. Wir empfehlen, Cloud Storage mit Cloud Storage FUSE und Rapid Cache für das Laden von Modellen zu verwenden. Rapid Cache bietet eine zonale Lösung für das Zwischenspeichern von Daten, die die Ladezeiten von Modellen verkürzt und die Gebühren für ausgehenden Netzwerktraffic senkt. In Kombination mit Cloud Storage FUSE ist Rapid Cache besonders nützlich, um Modelle über mehrere Zonen und Regionen hinweg zu laden. Wenn Sie Google Cloud Managed Lustre für das Training verwenden, empfehlen wir, es auch für das Laden von Modellen zu nutzen, da es schnelle Datenlesevorgänge ermöglicht und eine persistente zonale Speicherlösung ist. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen für das Trainieren von ML-Modellen in kleinem bis mittlerem Maßstab

Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.

Empfohlene Beschleuniger

Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.

Arbeitslasten	Empfehlungen		Bereitstellungsleitfaden für VMs
	Maschinentyp	Orchestrator
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen	G4 G2	–	G2- oder G4-Instanz erstellen

Empfehlungen für HPC

Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenserie oder computing-optimierte Maschinenserie. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.

Zusammenfassung der Empfehlungen

Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen für Beschleuniger, Verbrauchstyp und Speicherdienst für verschiedene Arbeitslasten.

Ressource	Empfehlung
Modell-Vortraining
Maschinenfamilie	Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Nutzungstyp	Reservierungen verwenden
Speicher	Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
Modellabstimmung
Maschinenfamilie	Beschleunigungsoptimierte Maschinentypen A4X Max, A4X, A4 oder A3 verwenden
Nutzungstyp	Reservierungen verwenden
Speicher	Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
Inferenz
Maschinenfamilie	Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High.
Nutzungstyp	Reservierungen verwenden
Speicher	Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
HPC (Hochleistungs-Computing)
Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten

Empfohlene Konfigurationen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Arbeitslasten – Übersicht

Empfehlungen für das Vortrainieren von Modellen

Empfohlene Beschleuniger

Empfohlener Verbrauchstyp

Empfohlene Speicherdienste

Empfehlungen zum Feinabstimmen von Modellen

Empfohlene Beschleuniger

Empfohlener Verbrauchstyp

Empfohlene Speicherdienste

Empfehlungen für die Inferenz

Empfohlene Beschleuniger

Empfohlene Beschleuniger (Multi-Host)

Empfohlene Beschleuniger (einzelner Host)

Empfohlener Verbrauchstyp

Empfohlene Speicherdienste

Empfehlungen für das Trainieren von ML-Modellen in kleinem bis mittlerem Maßstab

Empfohlene Beschleuniger

Empfehlungen für HPC

Zusammenfassung der Empfehlungen

Empfohlene Konfigurationen