AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Il s'agit d'un système intégré combinant du matériel optimisé pour les performances, des logiciels ouverts, des frameworks de ML et des modèles de consommation flexibles.
Le système AI Hypercomputer intègre les bonnes pratiques et la conception au niveau du système pour améliorer l'efficacité et la productivité lors du pré-entraînement, du réglage et de la mise en service de l'IA.
Architecture du système
AI Hypercomputer se compose des couches suivantes :
- Infrastructure optimisée pour les performances : contient des ressources d'accélération, de mise en réseau et de stockage qui fournissent les capacités de calcul nécessaires pour prendre en charge vos charges de travail.
- Logiciel Open Source : versions optimisées des frameworks de machine learning populaires tels que TensorFlow, PyTorch et JAX. Google fournit des systèmes d'exploitation (OS) configurés avec des logiciels essentiels pour exploiter les ressources de calcul provisionnées dans vos clusters. Pour déployer et gérer un grand nombre d'accélérateurs comme un tout, vous pouvez utiliser Cluster Director, Google Kubernetes Engine ou Slurm. Vous pouvez également déployer manuellement vos ressources à l'aide des API Compute Engine.
- Options de consommation : plusieurs options pour provisionner des clusters qui optimisent les coûts et la disponibilité du matériel en fonction de vos besoins spécifiques et de vos modèles de charge de travail.
Avantages
AI Hypercomputer présente les avantages suivants :
- Hautes performances et débit utile : les métriques de Goodput mesurent la productivité du ML. AI Hypercomputer optimise les couches de planification, d'exécution et d'orchestration.
- Démarrez rapidement : AI Hypercomputer fournit des outils tels que Cluster Director et des plans qui vous permettent de déployer de manière fiable et répétée un grand nombre de ressources optimisées pour les accélérateurs et configurées pour prendre en charge vos charges de travail d'IA et de ML les plus exigeantes.
Cas d'utilisation
AI Hypercomputer a été conçu pour répondre aux besoins des cas d'utilisation suivants :
Cas d'utilisation |
Exemples de charges de travail |
|---|---|
Charges de travail d'IA et de ML à grande échelle |
|
Calcul hautes performances (HPC) |
|
Étape suivante
- Consultez la section Infrastructure optimisée pour les performances.
- Consultez la présentation de la mise en réseau des GPU.
- Consultez les modèles de consommation.
- En savoir plus sur la gestion des clusters