AI Hypercomputer ist ein Supercomputing-System, das Ihre Arbeitslasten im Bereich künstliche Intelligenz (KI) und maschinelles Lernen (ML) unterstützt. Es ist ein integriertes System aus leistungsoptimierter Hardware, offener Software, ML-Frameworks und flexiblen Nutzungsmodellen.
Das AI Hypercomputer-System umfasst Best Practices und ein Design auf Systemebene, um die Effizienz und Produktivität bei KI-Pre-Training, ‑Abstimmung und ‑Bereitstellung zu steigern.
Systemarchitektur
AI Hypercomputer besteht aus den folgenden Ebenen:
- Leistungsoptimierte Infrastruktur: Enthält Beschleuniger-, Netzwerk- und Speicherressourcen, die die Rechenleistung zur Unterstützung Ihrer Arbeitslasten bereitstellen.
- Open-Source-Software: Optimierte Versionen beliebter Machine-Learning- Frameworks wie TensorFlow, PyTorch und JAX. Google bietet Betriebssysteme (OS), die mit der erforderlichen Software konfiguriert sind, um die in Ihren Clustern bereitgestellten Rechenressourcen zu nutzen. Wenn Sie eine große Anzahl von Beschleunigern als eine Einheit bereitstellen und verwalten möchten, können Sie Cluster Director, die Google Kubernetes Engine oder Slurm verwenden. Alternativ können Sie Ihre Ressourcen manuell mit den Compute Engine APIs bereitstellen.
- Nutzungsoptionen: Mehrere Optionen zum Bereitstellen von Clustern, mit denen Kosten und Hardwareverfügbarkeit basierend auf Ihren spezifischen Anforderungen und Arbeitslastmustern optimiert werden.
Vorteile
AI Hypercomputer bietet folgende Vorteile:
- Hohe Leistung und Goodput: Goodput -Messwerte messen die ML-Produktivität. AI Hypercomputer optimiert die Ebenen für Planung, Laufzeit und Orchestrierung.
- Schnelle Einrichtung: AI Hypercomputer bietet Tools, wie Cluster Director und Blueprints, mit denen Sie zuverlässig und wiederholt eine große Anzahl von beschleunigeroptimierten Ressourcen bereitstellen können, die für die Unterstützung Ihrer anspruchsvollsten KI- und ML-Arbeitslasten konfiguriert sind.
- Leistungsoptimierte Speicherebene: Verwenden Sie leistungsstarke Speicherdienste wie Cloud Storage und Google Cloud Managed Lustre, um skalierbaren Speicher mit hohem Durchsatz und geringer Latenz für KI- und ML-Arbeitslasten bereitzustellen.
Anwendungsfälle
AI Hypercomputer wurde für die folgenden Anwendungsfälle entwickelt:
Anwendungsfall |
Beispiel-Arbeitslasten |
|---|---|
Umfangreiche KI- und ML-Arbeitslasten |
|
Hochleistungs-Computing (HPC) |
|
Nächste Schritte
- Informationen zur leistungsoptimierten Infrastruktur von AI Hypercomputer:
- Nutzungsmodelle ansehen
- Informationen zur Clusterverwaltung