Présentation d'AI Hypercomputer

AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Il s'agit d'un système intégré combinant du matériel optimisé pour les performances, des logiciels ouverts, des frameworks de ML et des modèles de consommation flexibles.

Le système AI Hypercomputer intègre des bonnes pratiques et une conception au niveau du système pour accroître l'efficacité et la productivité lors du pré-entraînement, du réglage et de la mise en service de l'IA.

Architecture du système

AI Hypercomputer comprend les couches suivantes :

  • Infrastructure optimisée pour les performances : contient des accélérateurs, des ressources de mise en réseau et de stockage qui fournissent les capacités de calcul nécessaires pour prendre en charge vos charges de travail.
  • Logiciels ouverts : versions optimisées de frameworks de machine learning populaires tels que TensorFlow, PyTorch, et JAX. Google fournit des systèmes d'exploitation (OS) configurés avec des logiciels essentiels pour exploiter les ressources de calcul provisionnées dans vos clusters. Pour déployer et gérer un grand nombre d'accélérateurs comme un tout, vous pouvez utiliser Cluster Director, Google Kubernetes Engine ou Slurm. Vous pouvez également déployer manuellement vos ressources à l'aide des API Compute Engine.
  • Options de consommation : plusieurs options permettant de provisionner des clusters qui optimisent les coûts et la disponibilité du matériel en fonction de vos besoins spécifiques et de vos modèles de charge de travail.

Avantages

AI Hypercomputer présente les avantages suivants :

  • Hautes performances et bon débit utile: les métriques de débit utile mesurent la productivité du ML. AI Hypercomputer optimise les couches de planification, d'exécution et d'orchestration.
  • Mise en route rapide : AI Hypercomputer fournit des outils, tels que Cluster Director et des plans, qui vous permettent de déployer de manière fiable et répétée un grand nombre de ressources optimisées pour les accélérateurs et configurées pour prendre en charge vos charges de travail d'IA et de ML les plus exigeantes.
  • Couche de stockage optimisée pour les performances : utilisez des services de stockage hautes performances, tels que Cloud Storage et Google Cloud Managed Lustre, pour fournir un stockage évolutif, à haut débit et à faible latence pour les charges de travail d'IA et de ML.

Cas d'utilisation

AI Hypercomputer a été conçu pour répondre aux besoins des cas d'utilisation suivants :


Cas d'utilisation

Exemples de charges de travail

Charges de travail d'IA et de ML à grande échelle

  • Entraînement distribué d'IA générative
  • Inférence d'IA générative
  • Détection de fraudes
  • Modèles de recommandation

Calcul hautes performances (HPC)

  • Simulations complexes
  • Découverte de médicaments, repliement des protéines et analyse génomique
  • Analyse des risques et trading quantitatif

Étape suivante