Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurations recommandées

Ce document fournit des recommandations concernant les accélérateurs, les types de consommation et les outils de déploiement les mieux adaptés aux différentes charges de travail d'intelligence artificielle (IA), de machine learning (ML) et de calcul hautes performances (HPC). Utilisez ce document pour identifier le meilleur déploiement pour votre charge de travail.

Pour obtenir des informations et des recommandations sur les piliers d'infrastructure pour les charges de travail d'IA, de ML et de HPC, consultez les documents suivants :

Présentation des charges de travail

L'architecture AI Hypercomputer est compatible avec les cas d'utilisation suivants :

Charges de travail	Description	Recommandation
Pré-entraînement des modèles de fondation	Cela implique de créer un modèle de langage à l'aide d'un grand ensemble de données. Le résultat du pré-entraînement des modèles de fondation est un nouveau modèle qui est performant pour les tâches générales. Les modèles sont classés en fonction de leur taille comme suit : *Modèle de frontière* : il s'agit de modèles de ML qui couvrent des centaines de milliards à des milliers de milliards de paramètres, voire plus. Il s'agit, par exemple, des grands modèles de langage (LLM) tels que Gemini. *Grand modèle* : il s'agit de modèles qui couvrent des dizaines, voire des centaines de milliards de paramètres ou plus.	Consultez les recommandations pour les modèles de pré-entraînement.
Réglage fin	Cela implique de prendre un modèle entraîné et de l'adapter pour effectuer des tâches spécifiques à l'aide d'ensembles de données spécialisés ou d'autres techniques. L'affinage est généralement effectué sur des modèles volumineux.	Consultez les recommandations pour affiner les modèles.
Inférence ou mise en service	Cela implique de prendre un modèle entraîné ou affiné et de le mettre à la disposition des utilisateurs ou des applications. Les charges de travail d'inférence sont classées en fonction de la taille des modèles comme suit : *Inférence de modèle de fondation multihôte* : effectuer l'inférence avec des modèles de ML entraînés qui couvrent des centaines de milliards à des milliers de milliards de paramètres, voire plus. Pour ces charges de travail d'inférence, la charge de calcul est répartie sur plusieurs machines hôtes. *Inférence de modèle de fondation à hôte unique* : inférence avec des modèles de ML entraînés qui couvrent des dizaines à des centaines de milliards de paramètres. Pour ces charges de travail d'inférence, la charge de calcul est limitée à une seule machine hôte. *Inférence de grands modèles* : effectuer l'inférence avec des modèles de ML entraînés ou affinés qui comportent des dizaines à des centaines de milliards de paramètres.	Consultez les recommandations pour l'inférence.
Machine learning pour les modèles de petite et moyenne taille	Cela implique d'entraîner et de diffuser des modèles de ML de taille et de complexité plus petites, généralement pour des tâches plus spécialisées.	Consultez les recommandations pour le machine learning sur les modèles de petite et moyenne taille.
HPC	Il s'agit d'agréger des ressources de calcul afin d'obtenir des performances supérieures à celles d'une station de travail, d'un serveur ou d'un ordinateur unique. Le HPC permet de résoudre des problèmes dans les domaines de la recherche universitaire, de la science, de la conception, de la simulation et de l'informatique décisionnelle.	Consulter les recommandations pour le HPC

Recommandations pour les modèles de pré-entraînement

Le pré-entraînement des modèles de fondation implique de grands clusters d'accélérateurs, la lecture continue de grands volumes de données et l'ajustement des pondérations par le biais de passes avant et arrière pour apprendre à partir des données. Ces jobs d'entraînement s'exécutent pendant des semaines, voire des mois.

Les sections suivantes décrivent les accélérateurs et le type de consommation recommandé à utiliser lors du pré-entraînement des modèles.

Accélérateurs recommandés

Pour pré-entraîner des modèles de fondation sur Google Cloud, nous vous recommandons d'utiliser des types de machines optimisés pour les accélérateurs A4X Max, A4 ou A3, et d'utiliser un orchestrateur pour déployer le cluster. Pour déployer ces grands clusters d'accélérateurs, nous vous recommandons d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement correspondant au cluster de votre choix dans le tableau suivant.

Charges de travail	Recommandations		Guide de déploiement de clusters
	Type de machine	Orchestrateur
Entraînement de modèles de frontière Entraînement de grands modèles	A4X Max A4X A4 A3 Ultra	GKE	Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
	A4X Max A4X A4 A3 Ultra	Slurm	Créer un cluster Slurm entièrement géré pour les charges de travail d'IA Créer un cluster Slurm autogéré pour les charges de travail d'IA
Entraînement de modèles de frontière Entraînement de grands modèles	A3 Mega	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
	A3 Mega	Slurm	Créer un cluster optimisé pour l'IA à partir d'un modèle Déployer un cluster Slurm A3 Mega pour l'entraînement ML
Entraînement de grands modèles	A3 High	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Entraînement de grands modèles	A3 High	Slurm	Déployer un cluster Slurm A3 High

Type de consommation recommandé

Pour obtenir un niveau d'assurance élevé concernant l'obtention de grands clusters d'accélérateurs à un coût minimal, nous vous recommandons d'utiliser une réservation et de la demander pour une longue durée. Pour en savoir plus sur les types de consommation, consultez Choisir une option de consommation.

Recommandations pour l'affinage de modèles

L'affinage de grands modèles de fondation implique des clusters d'accélérateurs plus petits, la lecture de volumes de données modérés et l'ajustement du modèle pour effectuer des tâches spécifiques. Ces jobs d'affinage s'exécutent pendant des jours, voire des semaines.

Les sections suivantes décrivent les accélérateurs et le type de consommation recommandés à utiliser lors du réglage fin des modèles.

Accélérateurs recommandés

Pour affiner des modèles sur Google Cloud, nous vous recommandons d'utiliser des types de machines optimisés pour les accélérateurs A4X Max, A4X, A4 ou A3, et d'utiliser un orchestrateur pour déployer le cluster.

Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour en savoir plus, consultez le guide de déploiement de cluster correspondant au type de machine de votre choix dans le tableau suivant.

Charges de travail	Recommandations		Guide de déploiement de clusters
	Type de machine	Orchestrateur
Affinage de grands modèles	A4X Max A4X A4	GKE	Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
Affinage de grands modèles	A4X Max A4X A4	Slurm	Créer un cluster Slurm entièrement géré pour les charges de travail d'IA Créer un cluster Slurm autogéré pour les charges de travail d'IA
Affinage de grands modèles	A3 Mega	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Affinage de grands modèles	A3 Mega	Slurm	Créer un cluster optimisé pour l'IA à partir d'un modèle Déployer un cluster Slurm A3 Mega pour l'entraînement ML
Affinage de grands modèles	A3 High	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Affinage de grands modèles	A3 High	Slurm	Déployer un cluster Slurm A3 High

Type de consommation recommandé

Pour les charges de travail d'affinage, nous vous recommandons d'utiliser la réservation future en mode Agenda pour provisionner des ressources. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.

Recommandations pour l'inférence

Les sections suivantes décrivent les accélérateurs et le type de consommation recommandés pour effectuer l'inférence.

Accélérateurs recommandés

Les accélérateurs recommandés pour l'inférence dépendent du type d'inférence que vous effectuez : inférence de modèle volumineux ou de pointe multihôte, ou inférence de pointe monohôte.

Accélérateurs recommandés (multihôte)

Pour effectuer une inférence multihôte de modèles Frontier ou volumineux sur Google Cloud, nous vous recommandons d'utiliser un type de machine optimisé pour les accélérateurs A4X Max, A4X, A4 ou A3, et de déployer la machine à l'aide d'un orchestrateur. Pour déployer ces clusters d'accélérateurs, nous vous recommandons également d'utiliser Cluster Director ou Cluster Toolkit. Pour vous aider à démarrer avec ces clusters, un lien vers un guide de déploiement de cluster est fourni pour chaque type de machine recommandé.

Charges de travail	Recommandations		Guide de déploiement de clusters
	Type de machine	Orchestrateur
Inférence de la frontière multihôte	A4X Max A4X A4 A3 Ultra	GKE	Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut
Inférence de la frontière multihôte	A4X Max A4X A4 A3 Ultra	Slurm	Créer un cluster Slurm entièrement géré pour les charges de travail d'IA Créer un cluster Slurm autogéré pour les charges de travail d'IA
Inférence de la frontière multihôte	A3 Mega	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Inférence de la frontière multihôte	A3 Mega	Slurm	Créer un cluster optimisé pour l'IA à partir d'un modèle Déployer un cluster Slurm A3 Mega pour l'entraînement ML
Inférence de grands modèles	A3 High	GKE	Maximiser la bande passante réseau des GPU dans les clusters en mode Standard
Inférence de grands modèles	A3 High	Slurm	Déployer un cluster Slurm A3 High

Accélérateurs recommandés (hôte unique)

Le tableau suivant présente les accélérateurs recommandés à utiliser lors de l'inférence frontier à hôte unique. Pour vous aider à démarrer avec ces VM, un lien vers un guide de déploiement de VM est fourni pour chaque type de machine recommandé.

Charges de travail	Recommandations		Guide de déploiement de VM
	Type de machine	Orchestrateur
Inférence de la frontière à hôte unique	A4 A3 Ultra	N/A	Créer une instance optimisée pour l'IA
Inférence de la frontière à hôte unique	A3 High	N/A	Créer une VM A3 avec GPUDirect-TCPX activé

Type de consommation recommandé

Pour l'inférence, nous vous recommandons d'utiliser une réservation de longue durée ou une réservation future en mode Agenda. Pour en savoir plus sur les options de consommation, consultez Choisir une option de consommation.

Recommandations pour le machine learning de modèles de petite à moyenne taille

Pour les charges de travail de machine learning impliquant des modèles de petite ou moyenne taille, l'objectif principal est d'atteindre un équilibre optimal entre prix et performances.

Accélérateurs recommandés

Le tableau suivant présente les accélérateurs recommandés pour les charges de travail de ML de modèles de petite à moyenne taille.

Charges de travail	Recommandations		Guide de déploiement de VM
	Type de machine	Orchestrateur
Machine learning pour les modèles de petite à moyenne taille	G4 G2	N/A	Créer une instance G2 ou G4

Recommandations pour le HPC

Pour les charges de travail HPC, n'importe quelle série de machines optimisées pour les accélérateurs ou série de machines optimisées pour le calcul convient. Si vous utilisez une série de machines optimisée pour les accélérateurs, la solution la plus adaptée dépend de la quantité de calculs devant être déchargée sur le GPU. Pour obtenir une liste détaillée des recommandations concernant les charges de travail HPC, consultez Bonnes pratiques pour exécuter des charges de travail HPC.

Récapitulatif des recommandations

Vous trouverez ci-dessous un récapitulatif des recommandations concernant l'accélérateur et le type de consommation que nous recommandons pour différentes charges de travail.

Ressource	Recommandation
Pré-entraînement du modèle
Famille de machines	Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High.
Type de consommation	Utiliser les réservations
Affinage de modèles
Famille de machines	Utiliser les types de machines A4X Max, A4X, A4 ou A3 optimisés pour les accélérateurs
Type de consommation	Utiliser les réservations
Inférence
Famille de machines	Utilisez l'un des types de machines optimisés pour les accélérateurs suivants : A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High.
Type de consommation	Utiliser les réservations
HPC
Consultez la section récapitulative des bonnes pratiques pour exécuter des charges de travail HPC.

Configurations recommandées Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Présentation des charges de travail

Recommandations pour les modèles de pré-entraînement

Accélérateurs recommandés

Type de consommation recommandé

Recommandations pour l'affinage de modèles

Accélérateurs recommandés

Type de consommation recommandé

Recommandations pour l'inférence

Accélérateurs recommandés

Accélérateurs recommandés (multihôte)

Accélérateurs recommandés (hôte unique)

Type de consommation recommandé

Recommandations pour le machine learning de modèles de petite à moyenne taille

Accélérateurs recommandés

Recommandations pour le HPC

Récapitulatif des recommandations

Configurations recommandées