In diesem Dokument finden Sie Empfehlungen, welcher Beschleuniger, welcher Verbrauchstyp, welcher Speicherdienst und welches Bereitstellungstool sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Dieses Dokument soll Ihnen helfen, die beste Bereitstellung für Ihre Arbeitslast zu ermitteln.
Arbeitslasten – Übersicht
Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:
| Arbeitslasten | Beschreibung | Empfehlung |
|---|---|---|
| Foundation Models vortrainieren | Dazu wird ein Sprachmodell mit einem großen Dataset erstellt. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet. Die Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt:
|
Empfehlungen für das Vortrainieren von Modellen |
| Feinabstimmung | Dabei wird ein trainiertes Modell mithilfe von spezialisierten Datasets oder anderen Techniken an bestimmte Aufgaben angepasst. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt. | Empfehlungen zum Optimieren von Modellen |
| Inferenz oder Bereitstellung | Dabei wird ein trainiertes oder feinabgestimmtes Modell für die Nutzung durch Nutzer oder Anwendungen verfügbar gemacht. Inferenzarbeitslasten werden anhand der Größe der Modelle in folgende Kategorien eingeteilt:
|
Empfehlungen für die Inferenz |
| Maschinelles Lernen mit kleinen bis mittelgroßen Modellen | Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die in Größe und Komplexität kleiner sind, in der Regel für spezialisiertere Aufgaben. | Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen |
| HPC | Dabei werden Rechenressourcen aggregiert, um eine höhere Leistung zu erzielen als mit einer einzelnen Workstation, einem Server oder Computer. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt. | Empfehlungen für HPC |
Empfehlungen für das Vortrainieren von Modellen
Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Vortraining von Modellen verwendet werden sollten.
Empfohlene Beschleuniger
Für das Vortraining von Foundation Models auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4 oder A3 und die Verwendung eines Orchestrators zum Bereitstellen des Clusters. Für die Bereitstellung dieser großen Accelerator-Cluster empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Bereitstellungsanleitung für den gewünschten Cluster in der folgenden Tabelle.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
|
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
|
A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
|
A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlener Verbrauchstyp
Wenn Sie sichergehen möchten, dass Sie große Cluster von Beschleunigern zu minimalen Kosten erhalten, empfehlen wir, eine Reservierung zu verwenden und diese für einen langen Zeitraum zu beantragen. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.
Empfohlene Speicherdienste
Für das Vortraining müssen Trainingsdaten kontinuierlich und schnell verfügbar sein. Wir empfehlen außerdem, das zu trainierende Modell häufig und schnell zu prüfen. Für die meisten dieser Anforderungen empfehlen wir die Verwendung von Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen zum Feinabstimmen von Modellen
Für die Feinabstimmung großer Foundation Models sind kleinere Accelerator-Cluster erforderlich, die moderate Datenmengen lesen und das Modell anpassen, um bestimmte Aufgaben auszuführen. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Feinabstimmen von Modellen verwendet werden sollten.
Empfohlene Beschleuniger
Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von beschleunigungsoptimierten Maschinentypen A4X Max, A4X, A4 oder A3 und die Bereitstellung des Clusters mit einem Orchestrator.
Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle in der jeweiligen Clusterbereitstellungsanleitung für den von Ihnen ausgewählten Maschinentyp.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Feinabstimmung großer Modelle |
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
| Feinabstimmung großer Modelle | A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
| Feinabstimmung großer Modelle | A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlener Verbrauchstyp
Für das Finetuning von Arbeitslasten empfehlen wir, Ressourcen mit zukünftigen Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.
Empfohlene Speicherdienste
Für das Feinabstimmen von Modellen kann die erforderliche Datenmenge erheblich sein, insbesondere wenn es um die Lesegeschwindigkeiten für die Feinabstimmungsleistung geht. Wir empfehlen, das zu optimierende Modell häufig und schnell zu prüfen. Ähnlich wie beim Vortraining empfehlen wir für die meisten Anwendungsfälle Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit aktiviertem Cloud Storage FUSE und Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen für die Inferenz
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die für die Inferenz verwendet werden sollten.
Empfohlene Beschleuniger
Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie eine Inferenz mit mehreren Hosts oder mit einem einzelnen Host durchführen.
Empfohlene Beschleuniger (Multi-Host)
Wenn Sie auf Google CloudInferenz mit mehreren Hosts für Frontier- oder große Modelle ausführen möchten, empfehlen wir, einen beschleunigungsoptimierten Maschinentyp A4X Max, A4X, A4 oder A3 zu verwenden und die Maschine mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Damit Sie mit diesen Clustern beginnen können, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Grenzlinieninferenz mit mehreren Hosts |
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
| Grenzlinieninferenz mit mehreren Hosts | A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
| Inferenz für große Modelle | A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlene Beschleuniger (einzelner Host)
In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Frontier-Inferenz auf einem einzelnen Host aufgeführt. Um Ihnen den Einstieg in diese VMs zu erleichtern, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.
| Arbeitslasten | Empfehlungen | Bereitstellungsleitfaden für VMs | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Grenzbereich-Inferenz mit einem einzelnen Host |
|
– | KI-optimierte Instanz erstellen |
| Grenzinferenz auf einem einzelnen Host | A3 High | – | A3-VM mit aktiviertem GPUDirect-TCPX erstellen |
Empfohlener Verbrauchstyp
Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.
Empfohlene Speicherdienste
Für die Inferenz ist es erforderlich, die Inferenzbinärdateien und ‑gewichte schnell auf vielen Servern zu laden. Dazu sind schnelle Datenlesevorgänge erforderlich. Wir empfehlen, Cloud Storage mit aktiviertem Cloud Storage FUSE und Anywhere Cache zum Laden von Modellen zu verwenden. Anywhere Cache ist eine zonale Lösung für das Zwischenspeichern von Daten, die die Ladezeiten von Modellen verkürzt und auch die Gebühren für ausgehenden Netzwerktraffic senkt. In Kombination mit Cloud Storage FUSE ist Anywhere Cache besonders nützlich, um Modelle über mehrere Zonen und Regionen hinweg zu laden. Wenn Sie Google Cloud Managed Lustre für das Training verwenden, empfehlen wir, es auch für das Laden von Modellen zu nutzen, da es schnelle Datenlesevorgänge ermöglicht und eine persistente zonale Speicherlösung ist. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen für das Trainieren von ML-Modellen in kleinem bis mittlerem Maßstab
Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.
Empfohlene Beschleuniger
Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.
| Arbeitslasten | Empfehlungen | Bereitstellungsleitfaden für VMs | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Maschinelles Lernen mit kleinen bis mittelgroßen Modellen |
|
– | G2- oder G4-Instanz erstellen |
Empfehlungen für HPC
Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenserie oder computing-optimierte Maschinenserie. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.
Zusammenfassung der Empfehlungen
Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen für Beschleuniger, Verbrauchstyp und Speicherdienst für verschiedene Arbeitslasten.
Ressource |
Empfehlung |
|---|---|
| Vortraining von Modellen | |
| Maschinenfamilie | Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High. |
| Nutzungstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| Modellabstimmung | |
| Maschinenfamilie | Beschleunigungsoptimierte Maschinentypen A4X Max, A4X, A4 oder A3 verwenden |
| Nutzungstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| Inferenz | |
| Maschinenfamilie | Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4X Max, A4X, A4, A3 Ultra, A3 Mega oder A3 High. |
| Nutzungstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| HPC (Hochleistungs-Computing) | |
| Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten | |