Configurations recommandées

Ce document fournit des recommandations sur l'accélérateur, le type de consommation, le service de stockage et l'outil de déploiement les mieux adaptés aux différentes charges de travail d'intelligence artificielle (IA), de machine learning (ML) et de calcul hautes performances (HPC). Utilisez ce document pour identifier le meilleur déploiement pour votre charge de travail.

Présentation des charges de travail

L'architecture AI Hypercomputer est compatible avec les cas d'utilisation suivants :

Charges de travail Description Recommandation
Pré-entraînement des modèles de fondation Cela implique de créer un modèle de langage à l'aide d'un grand ensemble de données. Le résultat du pré-entraînement des modèles de fondation est un nouveau modèle qui est performant pour les tâches générales.
Les modèles sont classés en fonction de leur taille comme suit :
  • Modèle Frontier : il s'agit de modèles de ML qui couvrent des centaines de milliards à des milliers de milliards de paramètres, voire plus. Il s'agit, par exemple, des grands modèles de langage (LLM) tels que Gemini.
  • Grand modèle : il s'agit de modèles qui couvrent des dizaines à des centaines de milliards de paramètres, voire plus.
Consultez les recommandations pour les modèles de pré-entraînement.
Réglage fin Cela implique de prendre un modèle entraîné et de l'adapter pour effectuer des tâches spécifiques à l'aide d'ensembles de données spécialisés ou d'autres techniques. L'affinage est généralement effectué sur des modèles volumineux. Consultez les recommandations pour affiner les modèles.
Inférence ou diffusion Cela implique de prendre un modèle entraîné ou affiné et de le rendre disponible pour les utilisateurs ou les applications.
Les charges de travail d'inférence sont classées en fonction de la taille des modèles comme suit :
  • Inférence de modèle de fondation multihôte : effectuer l'inférence avec des modèles de ML entraînés qui couvrent des centaines de milliards à des milliers de milliards de paramètres, voire plus. Pour ces charges de travail d'inférence, la charge de calcul est répartie sur plusieurs machines hôtes.
  • Inférence de modèle de fondation à hôte unique : effectuer l'inférence avec des modèles de ML entraînés qui couvrent des dizaines à des centaines de milliards de paramètres. Pour ces charges de travail d'inférence, la charge de calcul est limitée à une seule machine hôte.
  • Inférence de grands modèles : effectuer une inférence avec des modèles de ML entraînés ou affinés qui comportent des dizaines à des centaines de milliards de paramètres.
Consultez les recommandations pour l'inférence.
Machine learning pour les modèles de petite et moyenne taille Cela implique d'entraîner et de diffuser des modèles de ML de taille et de complexité réduites, généralement pour des tâches plus spécialisées. Consultez les recommandations pour le machine learning sur les modèles de petite et moyenne taille.
HPC Il s'agit d'agréger des ressources de calcul afin d'obtenir des performances supérieures à celles d'une station de travail, d'un serveur ou d'un ordinateur unique. Le HPC permet de résoudre des problèmes dans les domaines de la recherche universitaire, de la science, de la conception, de la simulation et de l'informatique décisionnelle. Consultez les recommandations pour le HPC.

Recommandations pour les modèles de pré-entraînement

Le pré-entraînement des modèles de fondation implique de grands clusters d'accélérateurs, qui lisent en continu de grands volumes de données et ajustent les pondérations par le biais de passes avant et arrière pour apprendre à partir des données. Ces jobs d'entraînement s'exécutent pendant des semaines, voire des mois.

Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser lors du pré-entraînement des modèles.

Accélérateurs recommandés

Pour pré-entraîner des modèles de base sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et d'utiliser un orchestrateur pour déployer ces machines. Pour déployer ces grands clusters d'accélérateurs, nous vous recommandons d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement correspondant au cluster de votre choix dans le tableau suivant.

Charges de travail Recommandations Guide de déploiement de clusters
Type de machine Orchestrateur
  • Entraînement de modèles Frontier
  • Entraînement de grands modèles
  • A4X
  • A4
  • A3 Ultra
GKE Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
Slurm
  • Entraînement de modèles Frontier
  • Entraînement de grands modèles
A3 Mega GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm
  • Entraînement de grands modèles
A3 High GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm Déployer un cluster Slurm A3 High

Type de consommation recommandé

Pour obtenir un grand nombre de clusters d'accélérateurs à un coût minimal, nous vous recommandons d'utiliser une réservation et de la demander pour une longue durée. Pour en savoir plus sur les types de consommation, consultez Choisir une option de consommation.

Services de stockage recommandés

Pour le pré-entraînement, les données d'entraînement doivent être prêtes en continu et rapidement. Nous vous recommandons également de créer des points de contrôle fréquents et rapides pour le modèle en cours d'entraînement. Pour la plupart de ces besoins, nous vous recommandons d'utiliser Google Cloud Managed Lustre. Vous pouvez également utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activé. Pour en savoir plus sur les options de stockage, consultez Services de stockage.

Recommandations pour l'affinage des modèles

L'affinage de grands modèles de fondation implique des clusters d'accélérateurs plus petits, la lecture de volumes de données modérés et l'ajustement du modèle pour effectuer des tâches spécifiques. Ces jobs d'affinage s'exécutent pendant des jours, voire des semaines.

Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser pour affiner les modèles.

Accélérateurs recommandés

Pour affiner des modèles sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et d'utiliser un orchestrateur pour déployer ces machines.

Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement de cluster correspondant au type de machine de votre choix dans le tableau suivant.

Charges de travail Recommandations Guide de déploiement de clusters
Type de machine Orchestrateur
Affinage de grands modèles
  • A4X
  • A4
GKE Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
Slurm
Affinage de grands modèles A3 Mega GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm
Affinage de grands modèles A3 High GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm Déployer un cluster Slurm A3 High

Type de consommation recommandé

Pour les charges de travail d'affinage, nous vous recommandons d'utiliser la réservation future en mode Agenda pour provisionner des ressources. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.

Services de stockage recommandés

Pour les modèles d'affinage, la quantité de données requise peut être importante, en particulier en ce qui concerne les vitesses de lecture pour les performances d'affinage. Nous vous recommandons de créer des points de contrôle fréquents et rapides pour le modèle en cours d'ajustement. Comme pour le pré-entraînement, nous recommandons Google Cloud Managed Lustre pour la plupart des cas d'utilisation. Vous pouvez également utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activé. Pour en savoir plus sur les options de stockage, consultez Services de stockage.

Recommandations pour l'inférence

Les sections suivantes décrivent les accélérateurs, le type de consommation recommandé et le service de stockage à utiliser lors de l'inférence.

Accélérateurs recommandés

Les accélérateurs recommandés pour l'inférence dépendent du type d'inférence que vous effectuez : inférence de modèle volumineux ou de pointe multihôte, ou inférence de pointe monohôte.

Accélérateurs recommandés (multihôte)

Pour effectuer une inférence multihôte de modèles frontier ou de grands modèles sur Google Cloud, nous vous recommandons d'utiliser des machines optimisées pour les accélérateurs A4X, A4 ou A3, et de déployer ces machines à l'aide d'un orchestrateur. Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour vous aider à démarrer avec ces clusters, un lien vers un guide de déploiement de cluster est fourni pour chaque type de machine recommandé.

Charges de travail Recommandations Guide de déploiement de clusters
Type de machine Orchestrateur
Inférence de frontière multi-hôtes
  • A4X
  • A4
  • A3 Ultra
GKE Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
Slurm
Inférence de frontière multi-hôtes A3 Mega GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm
Inférence de grands modèles A3 High GKE Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Slurm Déployer un cluster Slurm A3 High

Accélérateurs recommandés (hôte unique)

Le tableau suivant présente les accélérateurs recommandés à utiliser lors de l'inférence frontier à hôte unique. Pour vous aider à démarrer avec ces VM, un lien vers un guide de déploiement de VM est fourni pour chaque type de machine recommandé.

Charges de travail Recommandations Guide de déploiement de VM
Type de machine Orchestrateur
Inférence de la frontière à hôte unique
  • A4
  • A3 Ultra
N/A Créer une instance optimisée pour l'IA
Inférence de la frontière à hôte unique A3 High N/A Créer une VM A3 avec GPUDirect-TCPX activé

Type de consommation recommandé

Pour l'inférence, nous vous recommandons d'utiliser une réservation de longue durée ou une réservation future en mode Agenda. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.

Services de stockage recommandés

Pour l'inférence, le chargement rapide des binaires et des pondérations d'inférence sur de nombreux serveurs nécessite des lectures de données rapides. Nous vous recommandons d'utiliser Cloud Storage avec Cloud Storage FUSE et Anywhere Cache activés pour le chargement des modèles. Anywhere Cache fournit une solution de mise en cache des données zonales qui accélère les temps de chargement des modèles et réduit également les frais de sortie réseau. Associé à Cloud Storage FUSE, Anywhere Cache est particulièrement utile pour charger des modèles dans plusieurs zones et régions. Si vous utilisez Google Cloud Managed Lustre pour l'entraînement, nous vous recommandons de l'utiliser également pour le chargement de modèles, car il permet de lire rapidement les données et constitue une solution de stockage zonal persistant. Pour en savoir plus sur les options de stockage, consultez Services de stockage.

Recommandations pour le machine learning de modèles de petite à moyenne taille

Pour les charges de travail de machine learning impliquant des modèles de petite ou moyenne taille, l'objectif principal est d'atteindre un équilibre optimal entre prix et performances.

Accélérateurs recommandés

Le tableau suivant présente les accélérateurs recommandés pour les charges de travail de ML de modèles de petite à moyenne taille.

Charges de travail Recommandations Guide de déploiement de VM
Type de machine Orchestrateur
Machine learning pour les modèles de petite à moyenne taille
  • G4
  • G2
N/A Créer une instance G2 ou G4

Recommandations pour le HPC

Pour les charges de travail HPC, n'importe quelle série de machines optimisées pour les accélérateurs ou série de machines optimisées pour le calcul convient. Si vous utilisez une série de machines optimisée pour les accélérateurs, la solution la plus adaptée dépend de la quantité de calculs devant être déchargée sur le GPU. Pour obtenir une liste détaillée des recommandations pour les charges de travail HPC, consultez Bonnes pratiques pour exécuter des charges de travail HPC.

Récapitulatif des recommandations

Vous trouverez ci-dessous un récapitulatif des recommandations concernant l'accélérateur, le type de consommation et le service de stockage que nous recommandons pour différentes charges de travail.


Ressource

Recommandation
Pré-entraînement du modèle
Famille de machines Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4, A3 Ultra, A3 Mega ou A3 High.
Type de consommation Utiliser les réservations
Stockage Utilisez un service géré Google Cloud , tel que Google Cloud Managed Lustre ou Cloud Storage FUSE.
Affinage de modèles
Famille de machines Utiliser des types de machines A4X, A4 ou A3 optimisés pour les accélérateurs
Type de consommation Utiliser les réservations
Stockage Utilisez un service géré Google Cloud tel que Google Cloud Managed Lustre ou Cloud Storage FUSE.
Inférence
Famille de machines Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4, A3 Ultra, A3 Mega ou A3 High.
Type de consommation Utiliser les réservations
Stockage Utilisez un service géré Google Cloud , tel que Google Cloud Managed Lustre ou Cloud Storage FUSE.
HPC
Consultez la section récapitulative des bonnes pratiques pour exécuter des charges de travail HPC.