AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Il s'agit d'un système intégré combinant du matériel optimisé pour les performances, des logiciels ouverts, des frameworks de ML et des modèles de consommation flexibles.
Le système AI Hypercomputer intègre des bonnes pratiques et une conception au niveau du système pour améliorer l'efficacité et la productivité lors du pré-entraînement, du réglage et de la mise au service de l'IA.
Architecture du système
AI Hypercomputer se compose des couches suivantes :
- Infrastructure optimisée pour les performances : contient des ressources d'accélération, de mise en réseau et de stockage qui fournissent les capacités de calcul nécessaires pour prendre en charge vos charges de travail.
- Logiciel Open Source : versions optimisées des frameworks de machine learning populaires tels que TensorFlow, PyTorch et JAX. Google fournit des systèmes d'exploitation (OS) configurés avec des logiciels essentiels pour exploiter les ressources de calcul provisionnées dans vos clusters. Pour déployer et gérer un grand nombre d'accélérateurs comme un tout, vous pouvez utiliser Cluster Director, Google Kubernetes Engine ou Slurm. Vous pouvez également déployer manuellement vos ressources à l'aide des API Compute Engine.
- Options de consommation : plusieurs options pour provisionner des clusters qui optimisent les coûts et la disponibilité du matériel en fonction de vos besoins spécifiques et de vos modèles de charge de travail.
Avantages
AI Hypercomputer présente les avantages suivants :
- Hautes performances et débit utile : les métriques de débit utile mesurent la productivité du ML. AI Hypercomputer optimise les couches de planification, d'exécution et d'orchestration.
- Démarrez rapidement : AI Hypercomputer fournit des outils tels que Cluster Director et des plans qui vous permettent de déployer de manière fiable et répétée un grand nombre de ressources optimisées pour les accélérateurs et configurées pour prendre en charge vos charges de travail d'IA et de ML les plus exigeantes.
- Couche de stockage optimisée pour les performances : utilisez des services de stockage hautes performances, tels que Cloud Storage et Google Cloud Managed Lustre, pour fournir un stockage évolutif, à haut débit et à faible latence pour les charges de travail d'IA et de ML.
Cas d'utilisation
AI Hypercomputer a été conçu pour répondre aux besoins des cas d'utilisation suivants :
Cas d'utilisation |
Exemples de charges de travail |
|---|---|
Charges de travail d'IA et de ML à grande échelle |
|
Calcul hautes performances (HPC) |
|
Étapes suivantes
- Découvrez l'infrastructure optimisée pour les performances d'AI Hypercomputer :
- Consultez les modèles de consommation.
- En savoir plus sur la gestion des clusters