Ce document fournit des recommandations sur l'accélérateur, le type de consommation, le service de stockage et l'outil de déploiement les mieux adaptés aux différentes charges de travail d'intelligence artificielle (IA), de machine learning (ML) et de calcul hautes performances (HPC). Utilisez ce document pour identifier le meilleur déploiement pour votre charge de travail.
Présentation des charges de travail
L'architecture AI Hypercomputer est compatible avec les cas d'utilisation suivants :
| Charges de travail | Description | Recommandation |
|---|---|---|
| Pré-entraînement des modèles de fondation | Cela implique de créer un modèle de langage à l'aide d'un grand ensemble de données. Le résultat du pré-entraînement des modèles de fondation est un nouveau modèle qui est performant pour les tâches générales. Les modèles sont classés en fonction de leur taille comme suit :
|
Consultez les recommandations pour les modèles de pré-entraînement. |
| Réglage fin | Cela implique de prendre un modèle entraîné et de l'adapter pour effectuer des tâches spécifiques à l'aide d'ensembles de données spécialisés ou d'autres techniques. L'affinage est généralement effectué sur des modèles volumineux. | Consultez les recommandations pour affiner les modèles. |
| Inférence ou diffusion | Cela implique de prendre un modèle entraîné ou affiné et de le rendre disponible pour les utilisateurs ou les applications. Les charges de travail d'inférence sont classées en fonction de la taille des modèles comme suit :
|
Consultez les recommandations pour l'inférence. |
| Machine learning pour les modèles de petite et moyenne taille | Cela implique d'entraîner et de diffuser des modèles de ML de taille et de complexité réduites, généralement pour des tâches plus spécialisées. | Consultez les recommandations pour le machine learning sur les modèles de petite et moyenne taille. |
| HPC | Il s'agit d'agréger des ressources de calcul afin d'obtenir des performances supérieures à celles d'une station de travail, d'un serveur ou d'un ordinateur unique. Le HPC permet de résoudre des problèmes dans les domaines de la recherche universitaire, de la science, de la conception, de la simulation et de l'informatique décisionnelle. | Consultez les recommandations pour le HPC. |
Recommandations pour les modèles de pré-entraînement
Le pré-entraînement des modèles de fondation implique de grands clusters d'accélérateurs, qui lisent en continu de grands volumes de données et ajustent les pondérations par le biais de passes avant et arrière pour apprendre à partir des données. Ces jobs d'entraînement s'exécutent pendant des semaines, voire des mois.
Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser lors du pré-entraînement des modèles.
Accélérateurs recommandés
Pour pré-entraîner des modèles de base sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et d'utiliser un orchestrateur pour déployer ces machines. Pour déployer ces grands clusters d'accélérateurs, nous vous recommandons d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement correspondant au cluster de votre choix dans le tableau suivant.
| Charges de travail | Recommandations | Guide de déploiement de clusters | |
|---|---|---|---|
| Type de machine | Orchestrateur | ||
|
|
GKE | Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut |
| Slurm | |||
|
A3 Mega | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | |||
|
A3 High | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | Déployer un cluster Slurm A3 High | ||
Type de consommation recommandé
Pour obtenir un grand nombre de clusters d'accélérateurs à un coût minimal, nous vous recommandons d'utiliser une réservation et de la demander pour une longue durée. Pour en savoir plus sur les types de consommation, consultez Choisir une option de consommation.
Services de stockage recommandés
Pour le pré-entraînement, les données d'entraînement doivent être prêtes en continu et rapidement. Nous vous recommandons également de créer des points de contrôle fréquents et rapides pour le modèle en cours d'entraînement. Pour la plupart de ces besoins, nous vous recommandons d'utiliser Google Cloud Managed Lustre. Vous pouvez également utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activé. Pour en savoir plus sur les options de stockage, consultez Services de stockage.
Recommandations pour l'affinage des modèles
L'affinage de grands modèles de fondation implique des clusters d'accélérateurs plus petits, la lecture de volumes de données modérés et l'ajustement du modèle pour effectuer des tâches spécifiques. Ces jobs d'affinage s'exécutent pendant des jours, voire des semaines.
Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser pour affiner les modèles.
Accélérateurs recommandés
Pour affiner des modèles sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et d'utiliser un orchestrateur pour déployer ces machines.
Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement de cluster correspondant au type de machine de votre choix dans le tableau suivant.
| Charges de travail | Recommandations | Guide de déploiement de clusters | |
|---|---|---|---|
| Type de machine | Orchestrateur | ||
| Affinage de grands modèles |
|
GKE | Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut |
| Slurm | |||
| Affinage de grands modèles | A3 Mega | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | |||
| Affinage de grands modèles | A3 High | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | Déployer un cluster Slurm A3 High | ||
Type de consommation recommandé
Pour les charges de travail d'affinage, nous vous recommandons d'utiliser la réservation future en mode Agenda pour provisionner des ressources. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.
Services de stockage recommandés
Pour les modèles d'affinage, la quantité de données requise peut être importante, en particulier en ce qui concerne les vitesses de lecture pour les performances d'affinage. Nous vous recommandons de créer des points de contrôle fréquents et rapides pour le modèle en cours d'ajustement. Comme pour le pré-entraînement, nous recommandons Google Cloud Managed Lustre pour la plupart des cas d'utilisation. Vous pouvez également utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activé. Pour en savoir plus sur les options de stockage, consultez Services de stockage.
Recommandations pour l'inférence
Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser lors de l'inférence.
Accélérateurs recommandés
Les accélérateurs recommandés pour l'inférence dépendent du type d'inférence que vous effectuez : inférence de modèle volumineux ou de pointe multihôte, ou inférence de pointe monohôte.
Accélérateurs recommandés (multihôte)
Pour effectuer une inférence multihôte de modèles frontier ou de grands modèles sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et de déployer ces machines à l'aide d'un orchestrateur. Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour vous aider à démarrer avec ces clusters, un lien vers un guide de déploiement de cluster est fourni pour chaque type de machine recommandé.
| Charges de travail | Recommandations | Guide de déploiement de clusters | |
|---|---|---|---|
| Type de machine | Orchestrateur | ||
| Inférence de frontière multi-hôtes |
|
GKE | Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut |
| Slurm | |||
| Inférence de frontière multi-hôtes | A3 Mega | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | |||
| Inférence de grands modèles | A3 High | GKE | Maximiser la bande passante réseau des GPU dans les clusters en mode Standard |
| Slurm | Déployer un cluster Slurm A3 High | ||
Accélérateurs recommandés (hôte unique)
Le tableau suivant présente les accélérateurs recommandés à utiliser lors de l'inférence frontier à hôte unique. Pour vous aider à démarrer avec ces VM, un lien vers un guide de déploiement de VM est fourni pour chaque type de machine recommandé.
| Charges de travail | Recommandations | Guide de déploiement de VM | |
|---|---|---|---|
| Type de machine | Orchestrateur | ||
| Inférence de la frontière à hôte unique |
|
N/A | Créer une instance optimisée pour l'IA |
| Inférence de la frontière à hôte unique | A3 High | N/A | Créer une VM A3 avec GPUDirect-TCPX activé |
Type de consommation recommandé
Pour l'inférence, nous vous recommandons d'utiliser une réservation de longue durée ou une réservation future en mode Agenda. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.
Services de stockage recommandés
Pour l'inférence, le chargement rapide des binaires et des pondérations d'inférence sur de nombreux serveurs nécessite des lectures de données rapides. Nous vous recommandons d'utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activés pour le chargement des modèles. Anywhere Cache fournit une solution de mise en cache des données zonales qui accélère les temps de chargement des modèles et réduit également les frais de sortie réseau. Associé à Cloud Storage FUSE, Anywhere Cache est particulièrement utile pour charger des modèles dans plusieurs zones et régions. Si vous utilisez Google Cloud Managed Lustre pour l'entraînement, nous vous recommandons de l'utiliser également pour le chargement de modèles, car il permet de lire rapidement les données et constitue une solution de stockage zonal persistant. Pour en savoir plus sur les options de stockage, consultez Services de stockage.
Recommandations pour le machine learning de modèles de petite à moyenne taille
Pour les charges de travail de machine learning impliquant des modèles de petite ou moyenne taille, l'objectif principal est d'atteindre un équilibre optimal entre prix et performances.
Accélérateurs recommandés
Le tableau suivant présente les accélérateurs recommandés pour les charges de travail de ML de modèles de petite à moyenne taille.
| Charges de travail | Recommandations | Guide de déploiement de VM | |
|---|---|---|---|
| Type de machine | Orchestrateur | ||
| Machine learning pour les modèles de petite à moyenne taille |
|
N/A | Créer une instance G2 ou G4 |
Recommandations pour le HPC
Pour les charges de travail HPC, n'importe quelle série de machines optimisées pour les accélérateurs ou série de machines optimisées pour le calcul convient. Si vous utilisez une série de machines optimisée pour les accélérateurs, la solution la plus adaptée dépend de la quantité de calculs devant être déchargée sur le GPU. Pour obtenir une liste détaillée des recommandations pour les charges de travail HPC, consultez Bonnes pratiques pour exécuter des charges de travail HPC.
Récapitulatif des recommandations
Vous trouverez ci-dessous un récapitulatif des recommandations concernant l'accélérateur, le type de consommation et le service de stockage que nous recommandons pour différentes charges de travail.
Ressource |
Recommandation |
|---|---|
| Pré-entraînement du modèle | |
| Famille de machines | Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4, A3 Ultra, A3 Mega ou A3 High. |
| Type de consommation | Utiliser les réservations |
| Stockage | Utilisez un service géré Google Cloud , tel que Google Cloud Managed Lustre ou Cloud Storage FUSE. |
| Affinage de modèles | |
| Famille de machines | Utiliser des types de machines A4X, A4 ou A3 optimisés pour les accélérateurs |
| Type de consommation | Utiliser les réservations |
| Stockage | Utilisez un service géré Google Cloud tel que Google Cloud Managed Lustre ou Cloud Storage FUSE. |
| Inférence | |
| Famille de machines | Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4, A3 Ultra, A3 Mega ou A3 High. |
| Type de consommation | Utiliser les réservations |
| Stockage | Utilisez un service géré Google Cloud , tel que Google Cloud Managed Lustre ou Cloud Storage FUSE. |
| HPC | |
| Consultez la section récapitulative des bonnes pratiques pour exécuter des charges de travail HPC. | |