Empfohlene Konfigurationen

In diesem Dokument finden Sie Empfehlungen, welcher Beschleuniger, welcher Verbrauchstyp, welcher Speicherdienst und welches Bereitstellungstool sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Dieses Dokument soll Ihnen helfen, die beste Bereitstellung für Ihre Arbeitslast zu ermitteln.

Arbeitslasten – Übersicht

Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:

Arbeitslasten Beschreibung Empfehlung
Foundation Models vortrainieren Dazu muss ein Sprachmodell mit einem großen Dataset erstellt werden. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet.
Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt:
  • Frontier-Modell: Diese ML-Modelle umfassen Hunderte Milliarden bis Billionen oder mehr Parameter. Dazu gehören Large Language Models (LLMs) wie Gemini.
  • Großes Modell:Diese Modelle umfassen Dutzende bis Hunderte Milliarden Parameter oder mehr.
Empfehlungen für das Vortrainieren von Modellen
Feinabstimmung Dabei wird ein trainiertes Modell verwendet und mithilfe von spezialisierten Datasets oder anderen Techniken so angepasst, dass es bestimmte Aufgaben ausführen kann. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt. Empfehlungen zum Feinabstimmen von Modellen
Inferenz oder Bereitstellung Dazu gehört, ein trainiertes oder feinabgestimmtes Modell zu verwenden und es für Nutzer oder Anwendungen verfügbar zu machen.
Inferenzarbeitslasten werden anhand der Größe der Modelle in folgende Kategorien eingeteilt:
  • Inferenz mit Foundation Models auf mehreren Hosts: Inferenz mit trainierten ML-Modellen mit Hunderten von Milliarden bis hin zu Billionen von Parametern oder mehr. Bei diesen Inferenzarbeitslasten wird die Rechenlast auf mehrere Hostmaschinen verteilt.
  • Inferenz mit Foundation-Modellen auf einem einzelnen Host: Inferenz mit trainierten ML-Modellen mit zehn bis hunderten von Milliarden von Parametern. Bei diesen Inferenzarbeitslasten ist die Rechenlast auf einen einzelnen Host beschränkt.
  • Inferenz mit großen Modellen:Inferenz mit trainierten oder feinabgestimmten ML-Modellen mit zehn bis hunderten Milliarden von Parametern.
Empfehlungen für die Inferenz
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die kleiner und weniger komplex sind, in der Regel für spezialisiertere Aufgaben. Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen
HPC Dabei werden Rechenressourcen zusammengefasst, um eine höhere Leistung als bei einer einzelnen Workstation, einem einzelnen Server oder einem einzelnen Computer zu erzielen. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt. Empfehlungen für HPC

Empfehlungen für das Vortraining von Modellen

Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Vortrainieren von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für das Vortrainieren von Fundierungsmodellen auf Google Cloudempfehlen wir die Verwendung von A4X-, A4- oder A3-Beschleuniger-optimierten Maschinen und die Bereitstellung dieser Maschinen mit einem Orchestrator. Für die Bereitstellung dieser großen Accelerator-Cluster empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Bereitstellungsanleitung für den gewünschten Cluster in der folgenden Tabelle.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
  • Frontier-Modelltraining
  • Training großer Modelle
  • A4X
  • A4
  • A3 Ultra
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
  • Frontier-Modelltraining
  • Training großer Modelle
A3 Mega GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm
  • Training großer Modelle
A3 High GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Wenn Sie sichergehen möchten, dass Sie große Cluster von Beschleunigern zu minimalen Kosten erhalten, empfehlen wir, eine Reservierung zu verwenden und diese für einen langen Zeitraum zu beantragen. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.

Empfohlene Speicherdienste

Für das Vortraining müssen Trainingsdaten kontinuierlich und schnell verfügbar sein. Wir empfehlen außerdem, das zu trainierende Modell häufig und schnell zu sichern. Für die meisten dieser Anforderungen empfehlen wir die Verwendung von Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen zum Feinabstimmen von Modellen

Für die Feinabstimmung großer Foundation Models sind kleinere Accelerator-Cluster erforderlich. Es werden moderate Datenmengen gelesen und das Modell wird angepasst, um bestimmte Aufgaben auszuführen. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Feinabstimmen von Modellen verwendet werden sollten.

Empfohlene Beschleuniger

Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von A4X-, A4- oder A3-Maschinen, die für Beschleuniger optimiert sind, und die Bereitstellung dieser Maschinen mit einem Orchestrator.

Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle in der jeweiligen Clusterbereitstellungsanleitung für den von Ihnen ausgewählten Maschinentyp.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
Feinabstimmung großer Modelle
  • A4X
  • A4
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
Feinabstimmung großer Modelle A3 Mega GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm
Feinabstimmung großer Modelle A3 High GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlener Verbrauchstyp

Für das Finetuning von Arbeitslasten empfehlen wir, Ressourcen mit zukünftigen Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfohlene Speicherdienste

Für das Feinabstimmen von Modellen kann die erforderliche Datenmenge erheblich sein, insbesondere wenn es um die Lesegeschwindigkeit für die Feinabstimmungsleistung geht. Wir empfehlen, das zu optimierende Modell häufig und schnell zu sichern. Ähnlich wie beim Vortraining empfehlen wir für die meisten Anwendungsfälle Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und aktiviertem Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen für die Inferenz

In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die für die Inferenz verwendet werden sollten.

Empfohlene Beschleuniger

Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie eine Frontier-Inferenz mit mehreren Hosts oder mit einem einzelnen Host durchführen.

Empfohlene Beschleuniger (Multi-Host)

Wenn Sie auf Google CloudGrenz- oder Large Model-Inferenz mit mehreren Hosts ausführen möchten, empfehlen wir, beschleunigungsoptimierte Maschinen vom Typ A4X, A4 oder A3 zu verwenden und diese Maschinen mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Um Ihnen den Einstieg in diese Cluster zu erleichtern, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.

Arbeitslasten Empfehlungen Leitfaden für die Clusterbereitstellung
Maschinentyp Orchestrator
Grenzlinieninferenz mit mehreren Hosts
  • A4X
  • A4
  • A3 Ultra
GKE KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen
Slurm
Grenzlinieninferenz mit mehreren Hosts A3 Mega GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm
Inferenz für große Modelle A3 High GKE GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren
Slurm A3 High-Slurm-Cluster bereitstellen

Empfohlene Beschleuniger (einzelner Host)

In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Frontier-Inferenz auf einem einzelnen Host aufgeführt. Damit Sie mit diesen VMs beginnen können, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.

Arbeitslasten Empfehlungen Bereitstellungsleitfaden für VMs
Maschinentyp Orchestrator
Grenzinferenz mit einem einzelnen Host
  • A4
  • A3 Ultra
KI-optimierte Instanz erstellen
Grenzinferenz mit einem einzelnen Host A3 High A3-VM mit aktiviertem GPUDirect-TCPX erstellen

Empfohlener Verbrauchstyp

Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.

Empfohlene Speicherdienste

Für die Inferenz ist es erforderlich, die Inferenzbinärdateien und ‑gewichte schnell auf vielen Servern zu laden. Dazu sind schnelle Datenlesevorgänge erforderlich. Wir empfehlen, Cloud Storage mit aktiviertem Cloud Storage FUSE und Anywhere Cache zum Laden von Modellen zu verwenden. Anywhere Cache ist eine zonale Lösung für das Zwischenspeichern von Daten, die die Ladezeiten von Modellen verkürzt und auch die Gebühren für ausgehenden Netzwerktraffic senkt. In Kombination mit Cloud Storage FUSE ist Anywhere Cache besonders nützlich, um Modelle über mehrere Zonen und Regionen hinweg zu laden. Wenn Sie Google Cloud Managed Lustre für das Training verwenden, empfehlen wir, es auch für das Laden von Modellen zu nutzen, da es schnelle Datenlesevorgänge ermöglicht und eine persistente zonale Speicherlösung ist. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.

Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen

Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.

Empfohlene Beschleuniger

Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.

Arbeitslasten Empfehlungen Bereitstellungsleitfaden für VMs
Maschinentyp Orchestrator
Maschinelles Lernen mit kleinen bis mittelgroßen Modellen
  • G4
  • G2
G2- oder G4-Instanz erstellen

Empfehlungen für HPC

Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenreihe oder computing-optimierte Maschinenreihe. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.

Zusammenfassung der Empfehlungen

Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen für Beschleuniger, Verbrauchstyp und Speicherdienst für verschiedene Arbeitslasten.


Ressource

Empfehlung
Vortraining des Modells
Maschinenfamilie Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp Reservierungen verwenden
Speicher Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
Modellabstimmung
Maschinenfamilie Beschleunigungsoptimierte Maschinentypen A4X, A4 oder A3 verwenden
Verbrauchstyp Reservierungen verwenden
Speicher Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
Inferenz
Maschinenfamilie Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4, A3 Ultra, A3 Mega oder A3 High.
Verbrauchstyp Reservierungen verwenden
Speicher Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE.
HPC (Hochleistungs-Computing)
Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten