Concevoir et optimiser votre cluster avec Gemini

Ce document explique comment planifier et concevoir votre cluster en interrogeant Gemini.

Vous pouvez utiliser Gemini dans la console Google Cloud comme interface basée sur l'IA pour évaluer les options matérielles, estimer les coûts de déploiement et afficher les configurations recommandées pour vos clusters. Pour personnaliser ses recommandations, Gemini évalue votre projet Google Clouden vérifiant vos limites de quota, vos réservations existantes, vos remises sur engagement d'utilisation, votre région et zone par défaut, ainsi que toutes les contraintes liées à l'emplacement des ressources. En utilisant Gemini pour vous aider à planifier, vous pouvez atteindre une configuration optimale pour votre charge de travail avant de créer ou de modifier un cluster.

Pour en savoir plus sur les composants que vous devez configurer avant ou lorsque vous créez un cluster, consultez Présentation des options de déploiement.

Limites

Lorsque vous envoyez des requêtes à Gemini dans la console Google Cloud , vous ne pouvez pas créer, modifier ni supprimer de ressources.

Avant de commencer

Lorsque vous utilisez la console Google Cloud pour accéder aux services Google Cloud et aux API, vous n'avez pas besoin de configurer l'authentification.

Rôles requis

Pour obtenir les autorisations nécessaires pour accéder à Gemini et lui envoyer des requêtes, demandez à votre administrateur de vous accorder le rôle IAM Lecteur Cluster Director (roles/hypercomputecluster.viewer) sur le projet. Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ce rôle prédéfini contient les autorisations requises pour accéder à Gemini et lui envoyer des requêtes. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Vous devez disposer des autorisations suivantes pour accéder à Gemini et lui envoyer des requêtes :

  • Pour afficher la liste des clusters : hypercomputecluster.clusters.list

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Accéder à Gemini dans la console Google Cloud

Pour accéder à Gemini dans la console Google Cloud , procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Présentation.

    Accéder à la page "Vue d'ensemble"

  2. Dans la section Concevez votre infrastructure avec Compute Advisor, cliquez sur Démarrer une discussion.

  3. Sur la page Compute Advisor, vous pouvez afficher les éléments suivants :

    Capture d'écran de la page Compute Advisor et des éléments d'interface utilisateur qui la composent.

    Les éléments d'UI affichés dans la capture d'écran précédente sont les suivants :

    • Panneau latéral de l'historique des conversations : affiche vos discussions récentes. Vous pouvez interagir avec ce panneau comme suit :

      • Pour démarrer une nouvelle conversation, cliquez sur Nouvelle discussion.

      • Pour reprendre une conversation récente, cliquez dessus dans la section Discussions récentes.

      • Pour afficher la liste de toutes vos conversations, cliquez sur Tout afficher. Sur la page Mon historique, vous pouvez consulter les détails d'une conversation passée et la reprendre, ou supprimer des conversations si vous n'en avez plus besoin.

    • Fiches d'invite à action rapide : ensemble de fiches contenant chacune un exemple d'invite. Si vous cliquez sur une fiche, la console Google Cloud remplit automatiquement le champ du prompt avec l'exemple de prompt.

    • Zone de saisie des requêtes : ce champ vous permet de saisir et d'envoyer des requêtes. Pour envoyer une requête, cliquez sur Envoyer une requête.

Envoyer des prompts à Gemini

Une fois que vous avez envoyé une requête, Gemini commence à générer une réponse. Un volet s'affiche et la console Google Cloud affiche la réponse à votre requête dans le volet, comme illustré dans la capture d'écran suivante :

Capture d'écran de la page Compute Advisor après l'envoi d'une requête.

En fonction de votre requête, le volet de réponse inclut les éléments suivants :

  • Ancrage contextuel : Gemini évalue automatiquement le contexte de votre projet pour fournir des recommandations très personnalisées, y compris les limites de quota, les réservations existantes, les remises pour utilisation soutenue, votre région et zone par défaut, ainsi que toutes les contraintes d'emplacement des ressources.

  • Extraits de code interactifs : Gemini génère des commandes gcloud, des méthodes d'API REST ou des ressources Terraform. Vous pouvez copier et coller ces extraits de code ou les exécuter dans Cloud Shell.

  • Canevas visuel : Gemini organise les recommandations dans des tableaux structurés et des comparaisons côte à côte. Cette vue vous aide à évaluer les fonctionnalités du produit et les approches architecturales. Il fournit également un plan d'implémentation pour votre cas d'utilisation.

Les sections suivantes décrivent les bonnes pratiques pour rédiger des requêtes et fournissent des exemples de requêtes que vous pouvez utiliser avant de créer ou de modifier un cluster.

Bonnes pratiques concernant les requêtes

Pour obtenir les recommandations les plus précises et les plus utiles de Gemini, nous vous conseillons de structurer vos requêtes de la même manière que vous le feriez pour un bloc de code. Cette approche guide l'IA générative en utilisant des déclarations de paramètres claires, des définitions de rôle, des instructions spécifiques et des formats de sortie explicites.

Lorsque vous envoyez une requête à Gemini, tenez compte des bonnes pratiques suivantes :

  • Concentrez-vous sur la conception et la planification : nous vous recommandons de ne pas demander à Gemini de résoudre les erreurs liées aux clusters. Pour résoudre ces erreurs, consultez plutôt Résoudre les problèmes de création, de mise à jour et de suppression d'instances de calcul.

  • Spécifiez un persona ou un rôle : indiquez un rôle ou un persona cible que Gemini doit adopter, comme un administrateur informatique, un chercheur en IA ou un ingénieur de plate-forme. Cette approche guide le ton, la profondeur et le niveau d'expertise des recommandations obtenues.

  • Fournissez des instructions explicites et numérotées : décomposez votre objectif en questions ou tâches concrètes, étape par étape. Cette approche structure le processus de raisonnement de Gemini et permet de s'assurer que Gemini répond à toutes vos exigences.

  • Définissez un format de sortie spécifique : indiquez explicitement le format souhaité pour la recommandation, par exemple une explication détaillée, un tableau comparatif Markdown ou un bloc de code gcloud prêt à l'emploi.

  • Exploitez l'ancrage contextuel automatique : vous n'avez pas besoin d'inclure votre région ou zone par défaut, les quotas disponibles, les remises sur engagement d'utilisation ni les contraintes d'emplacement des ressources dans votre requête. Gemini peut accéder à ces informations dans votre projet Google Cloud .

  • Affinez vos conceptions de manière itérative : vous pouvez modifier ou développer la réponse générée par Gemini en envoyant de nouveaux prompts. Par exemple, vous pouvez demander à l'assistant d'ajouter des recommandations de mise en réseau à votre plan de déploiement ou de modifier les exigences de stockage sans démarrer une nouvelle conversation.

Exemples de prompts

Voici quelques exemples de requêtes que vous pouvez utiliser pour concevoir et optimiser votre cluster :

  • Topologie et stratégie de placement du cluster : pour déterminer le modèle de déploiement et la stratégie de placement optimaux pour une charge de travail d'IA hautes performances, utilisez une requête comme celle-ci :

    Act as an AI researcher. I need to design a cluster topology in
    Cluster Director for training a large language model that balances high
    accelerator performance with guaranteed capacity.
    
    Please provide the following:
    1. A side-by-side comparison of deploying A3 Mega VMs across different
       regions.
    2. An explanation of how topology-aware scheduling minimizes network
       latency.
    3. The optimal reservation configuration for this training workload.
    
    Format the comparison as a Markdown table, and provide the deployment steps
    as a ready-to-use gcloud code block.
    
  • Modèle de provisionnement et optimisation des coûts : pour évaluer les modèles de provisionnement et réduire les coûts de traitement par lot, utilisez une requête comme celle-ci :

    Act as an IT administrator. I need to find the cheapest way to run large,
    interruptible batch jobs on our clusters in Cluster Director
    without risking data loss.
    
    Please provide the following:
    1. A cost and reliability comparison of standard discounted VMs against
       Spot VMs.
    2. An explanation of how to provision all our compute power at the exact
       same time.
    3. A deployment script that gives our jobs a two-minute warning before a
       Spot VM gets reclaimed.
    
    Format the comparison as a Markdown table, and provide the steps to take in
    the Google Cloud console.
    

Étapes suivantes