Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter des plates-formes de traitement distribué Open Source telles qu'Apache Hadoop, Apache Spark, Apache Flink et Trino. Vous pouvez utiliser les outils et les fichiers présentés dans les sections suivantes pour examiner, dépanner et surveiller vos clusters et tâches Dataproc.
Investigations basées sur l'IA avec Gemini Cloud Assist (Preview)
Présentation
La fonctionnalité Preview Investigations de Gemini Cloud Assist utilise les fonctionnalités avancées de Gemini pour vous aider à créer et à exécuter des clusters Dataproc et des tâches. Cette fonctionnalité analyse les clusters et les tâches ayant échoué ou s'exécutant lentement afin d'identifier les causes premières et de recommander des corrections. Elle crée une analyse persistante que vous pouvez examiner, enregistrer et partager avec Google Cloud l'assistance pour faciliter la collaboration et accélérer la résolution des problèmes.
Fonctionnalités
Utilisez cette fonctionnalité pour créer des investigations à partir de la Google Cloud console :
- Ajoutez une description du contexte en langage naturel à un problème avant de créer une investigation.
- Analysez les clusters ayant échoué et les tâches lentes ou ayant échoué.
- Obtenez des insights sur les causes premières des problèmes avec des corrections recommandées.
- Créez des demandes d'assistance auxquelles est joint le contexte complet de l'investigation. Google Cloud
Avant de commencer
Pour commencer à utiliser la fonctionnalité Investigation, dans votre Google Cloud projet, activez l'API Gemini Cloud Assist.
Créer une investigation
Pour créer une investigation, procédez comme suit :
Dans la Google Cloud console, accédez à la page Cloud Assist Investigations.
Cliquez sur Créer.
Décrivez le problème : fournissez une description du problème lié au cluster ou à la tâche.
Sélectionnez une période : indiquez une période pendant laquelle le problème s'est produit (par défaut : 30 minutes).
Sélectionnez des ressources :
- Cliquez sur Ajouter une ressource.
- Dans le champ Filtres rapides, saisissez "dataproc", puis sélectionnez un ou plusieurs des filtres
dataproc.Batch,dataproc.Joboudataproc.Cluster. - Sélectionnez le lot, la tâche ou le cluster à examiner dans la liste.
- Dans le champ Filtres rapides, saisissez "dataproc", puis sélectionnez un ou plusieurs des filtres
- Cliquez sur Ajouter une ressource.
Cliquez sur Créer.
Interpréter les résultats de l'investigation
Une fois l'investigation terminée, la page Détails de l'investigation s'ouvre. Cette page contient l'analyse complète de Gemini, organisée dans les sections suivantes :
- Problème : section réduite contenant les détails de la tâche examinée, renseignés automatiquement.
- Observations pertinentes : section réduite qui répertorie les points de données clés et les anomalies détectés par Gemini lors de son analyse des journaux et des métriques.
- Hypothèses : section principale, développée par défaut.
Elle présente une liste des causes premières potentielles du problème observé. Chaque hypothèse
comprend les éléments suivants :
- Présentation : description de la cause possible, par exemple « Temps d'écriture Shuffle élevé et asymétrie potentielle des tâches ».
- Corrections recommandées : liste des étapes à suivre pour résoudre le problème potentiel.
Intervenir
Après avoir examiné les hypothèses et les recommandations :
Appliquez une ou plusieurs des corrections suggérées à la configuration ou au code de la tâche, puis réexécutez-la.
Indiquez si l'investigation vous a été utile en cliquant sur les icônes "J'aime" ou "Je n'aime pas" en haut du panneau.
Examiner et escalader les investigations
Pour examiner les résultats d'une investigation précédemment exécutée, cliquez sur le nom de l'investigation sur la page Cloud Assist Investigations afin d'ouvrir la page Détails de l'investigation.
Si vous avez besoin d'aide supplémentaire, vous pouvez ouvrir une demande d'assistance Google Cloud . Ce processus fournit à l'ingénieur d'assistance le contexte complet de l'investigation précédemment effectuée, y compris les observations et les hypothèses générées par Gemini. Ce partage de contexte réduit considérablement les échanges avec l'équipe d'assistance et accélère la résolution des demandes.
Pour créer une demande d'assistance à partir d'une investigation :
Sur la page Détails de l'investigation, cliquez sur Demander de l'aide.
État de la preview et tarifs
Les investigations Gemini Cloud Assist ne sont pas facturées pendant la preview publique. Des frais s'appliqueront à la fonctionnalité lorsqu'elle sera disponible pour tous les utilisateurs (GA).
Pour en savoir plus sur les tarifs après la disponibilité générale, consultez Tarifs de Gemini Cloud Assist.
Interfaces Web Open Source
De nombreux composants Open Source de cluster Dataproc, tels qu'Apache Hadoop et Apache Spark, fournissent des interfaces Web. Ces interfaces peuvent être utilisées pour surveiller les ressources du cluster et les performances des tâches. Par exemple, vous pouvez utiliser l'interface utilisateur de YARN Resource Manager pour afficher l'allocation des ressources d'application YARN sur un cluster Dataproc.
Serveur d'historique persistant
Les interfaces Web Open Source exécutées sur un cluster sont disponibles lorsque le cluster est en cours d'exécution, mais elles s'arrêtent lorsque vous le supprimez. Pour afficher les données du cluster et des tâches après la suppression d'un cluster, vous pouvez créer un serveur d'historique persistant (PHS).
Exemple : Vous rencontrez une erreur ou un ralentissement de tâche que vous souhaitez analyser. Vous arrêtez ou supprimez le cluster de tâches, puis vous affichez et analysez les données de l'historique des tâches à l'aide de votre PHS.
Après avoir créé un PHS, vous l'activez sur un cluster Dataproc ou Google Cloud une charge de travail par lot Serverless pour Apache Spark lorsque vous créez le cluster ou envoyez la charge de travail par lot. Un PHS peut accéder aux données d'historique des tâches exécutées sur plusieurs clusters, ce qui vous permet de surveiller les tâches dans un projet au lieu de surveiller des interfaces utilisateur distinctes exécutées sur différents clusters.
Journaux Dataproc
Dataproc collecte les journaux générés par Apache Hadoop, Spark, Hive, Zookeeper et d'autres systèmes Open Source exécutés sur vos clusters, et les envoie à Logging. Ces journaux sont regroupés en fonction de leur source, ce qui vous permet de sélectionner et d'afficher ceux qui vous intéressent. Par exemple, les journaux YARN NodeManager et Spark Executor générés sur un cluster sont étiquetés séparément. Pour en savoir plus sur le contenu et les options des journaux Dataproc, consultez Journaux Dataproc.
Cloud Logging
Logging est un système de gestion des journaux en temps réel entièrement géré. Il fournit un espace de stockage pour les journaux ingérés à partir de Google Cloud services et d'outils afin de rechercher, de filtrer, et d'analyser les journaux à grande échelle. Les clusters Dataproc génèrent plusieurs journaux, y compris les journaux de l'agent de service Dataproc, les journaux de démarrage du cluster et les journaux des composants OSS, tels que les journaux YARN NodeManager.
Logging est activé par défaut sur les clusters Dataproc et les charges de travail par lot Serverless pour Apache Spark. Les journaux sont exportés régulièrement vers Logging, où ils sont conservés après la suppression du cluster ou la fin de la charge de travail.
Métriques Dataproc
Les métriques de cluster et de tâche Dataproc,
préfixées par dataproc.googleapis.com/, sont constituées de
données de séries temporelles qui fournissent des insights sur les performances
d'un cluster, telles que l'utilisation du processeur ou l'état des tâches. Les métriques personnalisées Dataproc
,
préfixées par custom.googleapis.com/,
incluent les métriques émises par les systèmes Open Source exécutés sur le cluster,
telles que la métrique running applications de YARN. Obtenir des insights sur les métriques Dataproc
peut vous aider à configurer vos clusters de manière efficace. La configuration d'alertes basées sur des métriques peut vous aider à
identifier les problèmes et à y répondre rapidement.
Les métriques de cluster et de tâche Dataproc sont collectées par défaut sans frais. La collecte de métriques personnalisées est facturée aux clients. Vous pouvez activer la collecte de métriques personnalisées lorsque vous créez un cluster. La collecte de métriques Spark Serverless pour Apache Spark Spark est activée par défaut sur les charges de travail par lot Spark.
Cloud Monitoring
Monitoring utilise les métadonnées et les métriques du cluster, y compris les métriques HDFS, YARN, de tâche et d'opération, pour fournir une visibilité sur l' état, les performances et la disponibilité des clusters et des tâches Dataproc. Vous pouvez utiliser Monitoring pour explorer les métriques, ajouter des graphiques, créer des tableaux de bord et créer des alertes.
Explorateur de métriques
Vous pouvez utiliser l'explorateur de métriques
pour afficher les métriques Dataproc.
Les métriques de cluster, de tâche et de lot Serverless pour Apache Spark
Dataproc sont répertoriées sous les ressources Cloud Dataproc Cluster,
Cloud Dataproc Job, et Cloud Dataproc Batch. Les métriques personnalisées Dataproc sont répertoriées sous la ressource VM Instances,
Custom catégorie.
Graphiques
Vous pouvez utiliser l'explorateur de métriques pour créer des graphiques qui visualisent les métriques Dataproc.
Exemple : Vous créez un graphique pour afficher le nombre d'applications Yarn actives exécutées sur vos clusters, puis vous ajoutez un filtre pour sélectionner les métriques visualisées par nom de cluster ou par région.
Tableaux de bord
Vous pouvez créer des tableaux de bord pour surveiller les clusters et les tâches Dataproc à l'aide de métriques provenant de plusieurs projets et de différents Google Cloud produits. Vous pouvez créer des tableaux de bord dans la Google Cloud console à partir de la page Aperçu des tableaux de bord en cliquant sur un graphique de la page Explorateur de métriques, en le créant, puis en l'enregistrant.
Alertes
Vous pouvez créer des alertes de métriques Dataproc pour être informé en temps voulu des problèmes liés aux clusters ou aux tâches.
Étape suivante
- Découvrez comment résoudre les problèmes liés aux messages d'erreur Dataproc.
- Découvrez comment afficher les données de diagnostic des clusters Dataproc.
- Consultez la FAQ Dataproc.