AI Hypercomputer – Übersicht

AI Hypercomputer ist ein Supercomputing-System, das Ihre Arbeitslasten im Bereich künstliche Intelligenz (KI) und maschinelles Lernen (ML) unterstützt. Es ist ein integriertes System aus leistungsoptimierter Hardware, offener Software, ML-Frameworks und flexiblen Nutzungsmodellen.

Das AI Hypercomputer-System umfasst Best Practices und ein Design auf Systemebene, um die Effizienz und Produktivität bei KI-Vortraining, ‑Abstimmung und ‑Bereitstellung zu steigern.

Systemarchitektur

AI Hypercomputer besteht aus den folgenden Ebenen:

  • Leistungsoptimierte Infrastruktur: Enthält Beschleuniger-, Netzwerk- und Speicherressourcen, die die Rechenleistung für Ihre Arbeitslasten bereitstellen.
  • Offene Software: Optimierte Versionen beliebter Frameworks für maschinelles Lernen wie TensorFlow, PyTorch und JAX. Google stellt Betriebssysteme (OS) bereit, die mit wichtiger Software konfiguriert sind, um die in Ihren Clustern bereitgestellten Rechenressourcen zu nutzen. Wenn Sie eine große Anzahl von Beschleunigern als eine Einheit bereitstellen und verwalten möchten, können Sie Cluster Director, Google Kubernetes Engine oder Slurm verwenden. Alternativ können Sie Ihre Ressourcen manuell mit den Compute Engine APIs bereitstellen.
  • Nutzungsoptionen: Mehrere Optionen zum Bereitstellen von Clustern, mit denen Kosten und Hardwareverfügbarkeit basierend auf Ihren spezifischen Anforderungen und Arbeitslastmustern optimiert werden.

Vorteile

Der KI-Hypercomputer bietet folgende Vorteile:

  • Hohe Leistung und Goodput: Goodput-Messwerte messen die ML-Produktivität. AI Hypercomputer optimiert die Ebenen für Planung, Laufzeit und Orchestrierung.
  • Schnell einsatzbereit: AI Hypercomputer bietet Tools wie Cluster Director und Blaupausen, mit denen Sie zuverlässig und wiederholt eine große Anzahl von beschleunigungsoptimierten Ressourcen bereitstellen können, die für Ihre anspruchsvollsten KI- und ML-Arbeitslasten konfiguriert sind.

Anwendungsfälle

AI Hypercomputer wurde für die folgenden Anwendungsfälle entwickelt:


Anwendungsfall

Beispielarbeitslasten

Große KI- und ML-Arbeitslasten

  • Verteiltes Training von generativer KI
  • Generative KI-Inferenz
  • Betrugserkennung
  • Empfehlungsmodelle

Hochleistungs-Computing (HPC)

  • Komplexe Simulationen
  • Arzneimittelforschung, Proteinfaltung und Genomanalyse
  • Risikoanalyse und quantitativer Handel

Nächste Schritte