In diesem Dokument finden Sie Empfehlungen, welcher Beschleuniger, welcher Verbrauchstyp, welcher Speicherdienst und welches Bereitstellungstool sich am besten für verschiedene Arbeitslasten aus den Bereichen künstliche Intelligenz (KI), maschinelles Lernen (ML) und Hochleistungs-Computing (HPC) eignen. Dieses Dokument soll Ihnen helfen, die beste Bereitstellung für Ihre Arbeitslast zu ermitteln.
Arbeitslasten – Übersicht
Die AI Hypercomputer-Architektur unterstützt die folgenden Anwendungsfälle:
| Arbeitslasten | Beschreibung | Empfehlung |
|---|---|---|
| Foundation Models vortrainieren | Dazu muss ein Sprachmodell mit einem großen Dataset erstellt werden. Das Ergebnis des Vortrainings von Foundation Models ist ein neues Modell, das sich gut für allgemeine Aufgaben eignet. Modelle werden anhand ihrer Größe in folgende Kategorien eingeteilt:
|
Empfehlungen für das Vortrainieren von Modellen |
| Feinabstimmung | Dabei wird ein trainiertes Modell verwendet und mithilfe von spezialisierten Datasets oder anderen Techniken so angepasst, dass es bestimmte Aufgaben ausführen kann. Die Feinabstimmung wird in der Regel bei großen Modellen durchgeführt. | Empfehlungen zum Feinabstimmen von Modellen |
| Inferenz oder Bereitstellung | Dazu gehört, ein trainiertes oder feinabgestimmtes Modell zu verwenden und es für Nutzer oder Anwendungen verfügbar zu machen. Inferenzarbeitslasten werden anhand der Größe der Modelle in folgende Kategorien eingeteilt:
|
Empfehlungen für die Inferenz |
| Maschinelles Lernen mit kleinen bis mittelgroßen Modellen | Dazu gehört das Trainieren und Bereitstellen von ML-Modellen, die kleiner und weniger komplex sind, in der Regel für spezialisiertere Aufgaben. | Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen |
| HPC | Dabei werden Rechenressourcen zusammengefasst, um eine höhere Leistung als bei einer einzelnen Workstation, einem einzelnen Server oder einem einzelnen Computer zu erzielen. HPC wird zur Lösung von Problemen in der akademischen Forschung, Wissenschaft, im Design, in der Simulation und in der Business Intelligence eingesetzt. | Empfehlungen für HPC |
Empfehlungen für das Vortraining von Modellen
Für das Vortraining von Foundation Models sind große Cluster von Beschleunigern erforderlich, die kontinuierlich große Datenmengen lesen und Gewichte durch Vorwärts- und Rückwärtsläufe anpassen, um aus den Daten zu lernen. Diese Trainingsjobs werden über Wochen oder sogar Monate hinweg ausgeführt.
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Vortrainieren von Modellen verwendet werden sollten.
Empfohlene Beschleuniger
Für das Vortrainieren von Fundierungsmodellen auf Google Cloudempfehlen wir die Verwendung von A4X-, A4- oder A3-Beschleuniger-optimierten Maschinen und die Bereitstellung dieser Maschinen mit einem Orchestrator. Für die Bereitstellung dieser großen Accelerator-Cluster empfehlen wir die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der entsprechenden Bereitstellungsanleitung für den gewünschten Cluster in der folgenden Tabelle.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
|
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
|
A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
|
A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlener Verbrauchstyp
Wenn Sie sichergehen möchten, dass Sie große Cluster von Beschleunigern zu minimalen Kosten erhalten, empfehlen wir, eine Reservierung zu verwenden und diese für einen langen Zeitraum zu beantragen. Weitere Informationen zu Verbrauchstypen finden Sie unter Verbrauchsoption auswählen.
Empfohlene Speicherdienste
Für das Vortraining müssen Trainingsdaten kontinuierlich und schnell verfügbar sein. Wir empfehlen außerdem, das zu trainierende Modell häufig und schnell zu sichern. Für die meisten dieser Anforderungen empfehlen wir die Verwendung von Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen zum Feinabstimmen von Modellen
Für die Feinabstimmung großer Foundation Models sind kleinere Accelerator-Cluster erforderlich. Es werden moderate Datenmengen gelesen und das Modell wird angepasst, um bestimmte Aufgaben auszuführen. Diese Feinabstimmungsjobs werden über Tage oder sogar Wochen ausgeführt.
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die beim Feinabstimmen von Modellen verwendet werden sollten.
Empfohlene Beschleuniger
Für die Feinabstimmung von Modellen auf Google Cloudempfehlen wir die Verwendung von A4X-, A4- oder A3-Maschinen, die für Beschleuniger optimiert sind, und die Bereitstellung dieser Maschinen mit einem Orchestrator.
Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Weitere Informationen finden Sie in der folgenden Tabelle in der jeweiligen Clusterbereitstellungsanleitung für den von Ihnen ausgewählten Maschinentyp.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Feinabstimmung großer Modelle |
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
| Feinabstimmung großer Modelle | A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
| Feinabstimmung großer Modelle | A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlener Verbrauchstyp
Für das Finetuning von Arbeitslasten empfehlen wir, Ressourcen mit zukünftigen Reservierungen im Kalendermodus bereitzustellen. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.
Empfohlene Speicherdienste
Für das Feinabstimmen von Modellen kann die erforderliche Datenmenge erheblich sein, insbesondere wenn es um die Lesegeschwindigkeit für die Feinabstimmungsleistung geht. Wir empfehlen, das zu optimierende Modell häufig und schnell zu sichern. Ähnlich wie beim Vortraining empfehlen wir für die meisten Anwendungsfälle Google Cloud Managed Lustre. Alternativ können Sie Cloud Storage mit Cloud Storage FUSE und aktiviertem Anywhere Cache verwenden. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen für die Inferenz
In den folgenden Abschnitten werden die Beschleuniger, der empfohlene Verbrauchstyp und der Speicherdienst beschrieben, die für die Inferenz verwendet werden sollten.
Empfohlene Beschleuniger
Die empfohlenen Beschleuniger für die Inferenz hängen davon ab, ob Sie eine Frontier-Inferenz mit mehreren Hosts oder mit einem einzelnen Host durchführen.
Empfohlene Beschleuniger (Multi-Host)
Wenn Sie auf Google CloudGrenz- oder Large Model-Inferenz mit mehreren Hosts ausführen möchten, empfehlen wir, beschleunigungsoptimierte Maschinen vom Typ A4X, A4 oder A3 zu verwenden und diese Maschinen mit einem Orchestrator bereitzustellen. Für die Bereitstellung dieser Accelerator-Cluster empfehlen wir außerdem die Verwendung von Cluster Director oder Cluster Toolkit. Um Ihnen den Einstieg in diese Cluster zu erleichtern, finden Sie für jeden empfohlenen Maschinentyp einen Link zu einer Anleitung zur Clusterbereitstellung.
| Arbeitslasten | Empfehlungen | Leitfaden für die Clusterbereitstellung | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Grenzlinieninferenz mit mehreren Hosts |
|
GKE | KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen |
| Slurm | |||
| Grenzlinieninferenz mit mehreren Hosts | A3 Mega | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | |||
| Inferenz für große Modelle | A3 High | GKE | GPU-Netzwerkbandbreite in Clustern im Standard-Modus maximieren |
| Slurm | A3 High-Slurm-Cluster bereitstellen | ||
Empfohlene Beschleuniger (einzelner Host)
In der folgenden Tabelle sind die empfohlenen Beschleuniger für die Frontier-Inferenz auf einem einzelnen Host aufgeführt. Damit Sie mit diesen VMs beginnen können, wird für jeden empfohlenen Maschinentyp ein Link zu einer Anleitung zur VM-Bereitstellung bereitgestellt.
| Arbeitslasten | Empfehlungen | Bereitstellungsleitfaden für VMs | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Grenzinferenz mit einem einzelnen Host |
|
– | KI-optimierte Instanz erstellen |
| Grenzinferenz mit einem einzelnen Host | A3 High | – | A3-VM mit aktiviertem GPUDirect-TCPX erstellen |
Empfohlener Verbrauchstyp
Für die Inferenz empfehlen wir entweder eine Reservierung mit langer Laufzeit oder eine vorausschauende Reservierung im Kalendermodus. Weitere Informationen zu den Nutzungsoptionen finden Sie unter Nutzungsoption auswählen.
Empfohlene Speicherdienste
Für die Inferenz ist es erforderlich, die Inferenzbinärdateien und ‑gewichte schnell auf vielen Servern zu laden. Dazu sind schnelle Datenlesevorgänge erforderlich. Wir empfehlen, Cloud Storage mit aktiviertem Cloud Storage FUSE und Anywhere Cache zum Laden von Modellen zu verwenden. Anywhere Cache ist eine zonale Lösung für das Zwischenspeichern von Daten, die die Ladezeiten von Modellen verkürzt und auch die Gebühren für ausgehenden Netzwerktraffic senkt. In Kombination mit Cloud Storage FUSE ist Anywhere Cache besonders nützlich, um Modelle über mehrere Zonen und Regionen hinweg zu laden. Wenn Sie Google Cloud Managed Lustre für das Training verwenden, empfehlen wir, es auch für das Laden von Modellen zu nutzen, da es schnelle Datenlesevorgänge ermöglicht und eine persistente zonale Speicherlösung ist. Weitere Informationen zu Speicheroptionen finden Sie unter Speicherdienste.
Empfehlungen für das maschinelle Lernen mit kleinen bis mittelgroßen Modellen
Bei Machine-Learning-Arbeitslasten mit kleinen bis mittelgroßen Modellen ist ein optimales Preis-Leistungs-Verhältnis von entscheidender Bedeutung.
Empfohlene Beschleuniger
Die folgende Tabelle enthält die empfohlenen Beschleuniger für ML-Arbeitslasten mit kleinen bis mittelgroßen Modellen.
| Arbeitslasten | Empfehlungen | Bereitstellungsleitfaden für VMs | |
|---|---|---|---|
| Maschinentyp | Orchestrator | ||
| Maschinelles Lernen mit kleinen bis mittelgroßen Modellen |
|
– | G2- oder G4-Instanz erstellen |
Empfehlungen für HPC
Für HPC-Arbeitslasten eignet sich jede beschleunigungsoptimierte Maschinenreihe oder computing-optimierte Maschinenreihe. Wenn Sie eine beschleunigungsoptimierte Maschinenserie verwenden, hängt die beste Lösung davon ab, wie viel Rechenaufwand an die GPU ausgelagert werden muss. Eine detaillierte Liste mit Empfehlungen für HPC-Arbeitslasten finden Sie unter Best Practices zum Ausführen von HPC-Arbeitslasten.
Zusammenfassung der Empfehlungen
Im Folgenden finden Sie eine Zusammenfassung der Empfehlungen für Beschleuniger, Verbrauchstyp und Speicherdienst für verschiedene Arbeitslasten.
Ressource |
Empfehlung |
|---|---|
| Vortraining des Modells | |
| Maschinenfamilie | Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4, A3 Ultra, A3 Mega oder A3 High. |
| Verbrauchstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| Modellabstimmung | |
| Maschinenfamilie | Beschleunigungsoptimierte Maschinentypen A4X, A4 oder A3 verwenden |
| Verbrauchstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| Inferenz | |
| Maschinenfamilie | Verwenden Sie einen der folgenden beschleunigungsoptimierten Maschinentypen: A4, A3 Ultra, A3 Mega oder A3 High. |
| Verbrauchstyp | Reservierungen verwenden |
| Speicher | Verwenden Sie einen Google Cloud verwalteten Dienst wie Google Cloud Managed Lustre oder Cloud Storage FUSE. |
| HPC (Hochleistungs-Computing) | |
| Zusammenfassung der Best Practices zum Ausführen von HPC-Arbeitslasten | |