Passer au contenu principal
Google Cloud Documentation
Domaines technologiques
  • IA et ML
  • Développement d'applications
  • Hébergement d'applications
  • Calcul
  • Analyses de données et pipelines
  • Bases de données
  • Solutions distribuées, hybrides et multicloud
  • IA générative
  • Solutions par secteur d'activité
  • Mise en réseau
  • Observabilité et surveillance
  • Sécurité
  • Storage
Outils de produits croisés
  • Gestion des accès et des ressources
  • Gestion des coûts et de l'utilisation
  • Infrastructure as Code
  • Migration
  • SDK, langages, frameworks et outils
/
Console
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
Connexion
  • Dataproc
Commencer l'essai gratuit
Aperçu Guides Référence Exemples Ressources
Google Cloud Documentation
  • Domaines technologiques
    • Plus
    • Aperçu
    • Guides
    • Référence
    • Exemples
    • Ressources
  • Outils de produits croisés
    • Plus
  • Console
  • Découvrir
  • Vue d'ensemble du produit
  • Comparaison avec Serverless pour Apache Spark
  • Concepts clés
  • Composants
    • Aperçu
    • Delta Lake
    • Docker
    • Flink
    • HBase
    • Hive WebHCat
    • Hudi
    • Iceberg
    • Jupyter
    • Pig
    • Presto
    • Ranger
      • Installer Ranger
      • Utiliser Ranger
      • Utiliser Ranger avec Kerberos
      • Utiliser Ranger avec la mise en cache et la réduction du champ d'application
      • Sauvegarder et restaurer un schéma Ranger
    • Solr
    • Trino
    • Zeppelin
    • ZooKeeper
  • Services
  • Options de calcul
    • Types de machines
    • GPU
    • Configuration minimale de la plate-forme du CPU
    • Nœuds de calcul secondaires
    • Disques durs SSD locaux
    • Disques de démarrage
  • Gestion des versions
    • Aperçu
    • Versions 3.0.x
    • Versions 2.3.x
    • Versions 2.2.x
    • Versions 2.1.x
    • Versions 2.0.x
    • Listes des versions d'image de cluster
  • Questions fréquentes
  • Premiers pas
  • Exécuter Spark sur Dataproc
    • Utiliser la console
    • Utiliser la ligne de commande
    • Utiliser l'explorateur d'API REST
      • Créer un cluster
      • Exécuter un job Spark
      • Mettre à jour un cluster
      • Supprimer un cluster
    • Utiliser des bibliothèques clientes
    • Exécuter Spark à l'aide de Kubernetes
  • Créer
  • Configurer un projet
  • Utiliser les modèles Dataproc
  • Créer des clusters Dataproc
    • Créer un cluster
    • Créer un cluster à haute disponibilité
    • Créer un cluster de groupes de nœuds
    • Créer un cluster partiel
    • Créer un cluster à nœud unique
    • Créer un cluster à locataire unique
    • Recréer un cluster
    • Créer une image personnalisée
  • Créer des clusters Kubernetes
    • Aperçu
    • Versions
    • Recréer un cluster
    • Créer des pools de nœuds
    • Créer une image personnalisée
  • Créer une table Apache Iceberg avec des métadonnées dans BigLake Metastore
  • Développer
  • Apache Hadoop
  • Apache HBase
  • Apache Hive et Kafka
  • Apache Spark
    • Configurer
      • Gérer les dépendances Spark
      • Personnaliser l'environnement Spark
      • Activer les écritures simultanées
      • Améliorer les performances de Spark
      • Tune Spark
    • Liez contact
      • Utiliser le connecteur Spark BigQuery
      • Utiliser le connecteur Cloud Storage
      • Utiliser le connecteur Spark Spanner
    • Exécuter
      • Utiliser HBase
      • Utiliser la simulation Monte-Carlo
      • Utiliser Spark ML
      • Utiliser Spark Scala
  • Utiliser des notebooks
    • Aperçu
    • Exécuter un notebook Jupyter sur un cluster Dataproc
    • Exécuter une analyse génomique dans un notebook
    • Utiliser l'extension JupyterLab pour développer des charges de travail Spark sans serveur
  • Python
    • Configurer l'environnement
    • Utilisez les bibliothèques clientes Cloud
  • Trino
  • Déployer
  • Exécuter des tâches
    • Cycle de vie d'une tâche
    • Envoyer une tâche
    • Redémarrer des tâches
    • Afficher l'historique des missions
  • Utiliser des modèles de workflow
    • Aperçu
    • Paramétrage
    • Utiliser des fichiers YAML
    • Utiliser des sélecteurs de cluster
    • Utiliser les workflows intégrés
  • Orchestrer des workflows
    • Solutions de planification des workflows
    • Utiliser les modèles de workflow Dataproc
    • Utiliser Cloud Composer
    • Utiliser Cloud Functions
    • Utiliser Cloud Scheduler
  • Régler les performances
    • Optimiser les performances de Spark
    • Métriques Dataproc
    • Créer des alertes de métrique
    • Profiler l'utilisation des ressources
  • Gérer
  • Gestion des clusters
    • Démarrer et arrêter des clusters
      • Démarrer et arrêter un cluster manuellement
      • Planifier l'arrêt d'un cluster
    • Mettre à jour et supprimer un cluster
    • Faire pivoter des clusters
    • Configurer les clusters
      • Définir les propriétés du cluster
      • Sélectionner une région
      • Sélection automatique de la zone
      • Définir des actions d'initialisation
      • Prioriser les types de VM
      • Planifier la suppression d'un cluster
    • Scaling des clusters
      • Scaling des clusters
      • Effectuer l'autoscaling des clusters
    • Gérer les données
      • Stockage de données Hadoop
      • Sélectionnez le type de stockage
      • Mettre en cache les données de cluster
      • Décharger les données de lecture aléatoire
    • Gérer les réseaux
      • Configurer un réseau
      • Mise en réseau des clusters Dataproc avec Private Service Connect
  • Gérer des clusters Kubernetes
    • Scaling des clusters
    • Supprimer un cluster
  • Accéder aux clusters
    • Utiliser SSH
    • Se connecter à des interfaces Web
    • Utiliser la passerelle des composants
    • Définir l'accès aux employés
  • Gérer les métadonnées et les libellés
    • Activer la traçabilité des données Spark
    • Activer la traçabilité des données Hive
    • setMetadata
    • Définir des libellés pour le filtrage
    • Utiliser des tags sécurisés
  • Se connecter à Dataproc
    • Migrer Hadoop
    • Se connecter à BigQuery
      • Connecteur BigQuery
      • Connecteur Hive-BigQuery
      • Exemples de code
    • Se connecter à Bigtable
    • Se connecter à Cloud Storage
    • Se connecter à Pub/Sub Lite
  • Bonnes pratiques en production
  • Sécurité et conformité
  • Bonnes pratiques concernant la sécurité
  • Authentifier les utilisateurs
    • S'authentifier auprès de Dataproc
    • Authentifier les clusters personnels
  • Attribuer des rôles et des autorisations
    • Rôles et autorisations Dataproc
    • Principaux Dataproc
    • IAM granulaire
    • Attribuer des rôles pour Kubernetes
  • Créer des comptes de service
  • Clusters sécurisés
    • Architecture mutualisée sécurisée à l'aide de Kerberos
    • Sécuriser l'architecture mutualisée à l'aide de comptes de service
    • Chiffrer la mémoire
    • Gérer les clés de chiffrement des données
    • Activer le service d'autorisation Ranger
    • Utiliser le fournisseur d'identifiants Secret Manager
    • Créer et sécuriser un cluster Hive Metastore
  • Créer des contraintes personnalisées
  • Assured Workloads
  • Conformité FedRAMP
  • Vérifier la facturation
  • Dépannage
  • Aperçu
  • Analyser des journaux
    • Journaux Dataproc
    • Journaux de sortie des jobs
    • Journaux d'audit
  • Résoudre les problèmes liés aux clusters
    • Afficher les données de diagnostic du cluster
    • Résoudre les problèmes de création de clusters
    • Diagnostiquer les clusters Kubernetes
    • Activer la journalisation Kubernetes
  • Résoudre les problèmes liés aux jobs
    • Résoudre les problèmes liés aux jobs
    • Résoudre les erreurs de mémoire
    • Résoudre les problèmes de retard des tâches
    • Afficher l'historique des missions
    • Résoudre les problèmes liés aux modèles de workflow
  • IA et ML
  • Développement d'applications
  • Hébergement d'applications
  • Calcul
  • Analyses de données et pipelines
  • Bases de données
  • Solutions distribuées, hybrides et multicloud
  • IA générative
  • Solutions par secteur d'activité
  • Mise en réseau
  • Observabilité et surveillance
  • Sécurité
  • Storage
  • Gestion des accès et des ressources
  • Gestion des coûts et de l'utilisation
  • Infrastructure as Code
  • Migration
  • SDK, langages, frameworks et outils
  • Home
  • Documentation
  • Data analytics
  • Dataproc
  • Guides

Migrer Hadoop Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Pour migrer des workflows et des données Apache Hadoop vers Google Cloud et Dataproc, consultez les documents suivants :

  • Migrer l'infrastructure Hadoop sur site vers Google Cloud
  • Migrer des données HDFS sur site vers Google Cloud

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2026/01/24 (UTC).

  • Produits et tarification

    • Voir tous les produits
    • Tarifs de Google Cloud
    • Google Cloud Marketplace
    • Contacter le service commercial
  • Support

    • Forums de la communauté
    • Support
    • Notes de version
    • État du système
  • Resources

    • GitHub
    • Premiers pas avec Google Cloud
    • Exemples de code
    • Centre d'architecture cloud
    • Formations et certifications
  • Échanger

    • Blog
    • Événements
    • X (Twitter)
    • Google Cloud sur YouTube
    • Google Cloud Tech sur YouTube
  • À propos de Google
  • Règles de confidentialité
  • Conditions d'utilisation du site
  • Conditions d'utilisation de Google Cloud
  • Manage cookies
  • Troisième décennie d'action pour le climat : rejoignez-nous
  • S'inscrire à la newsletter Google Cloud S’abonner
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어