Modèle analytique hybride et multicloud

Ce document explique que l'objectif du modèle analytique hybride et multicloud est de tirer parti de la séparation entre les charges de travail transactionnelles et analytiques.

Dans les systèmes d'entreprise, la plupart des charges de travail appartiennent aux catégories suivantes :

  • Les charges de travail transactionnelles incluent des applications interactives telles que des applications de vente, de traitement financier, de planification des ressources d'entreprise ou de communication.
  • Les charges de travail analytiques incluent des applications qui transforment, analysent, affinent ou visualisent des données pour faciliter les processus de prise de décision.

Les systèmes analytiques obtiennent leurs données à partir de systèmes transactionnels en interrogeant des API ou en accédant à des bases de données. Dans la plupart des entreprises, les systèmes analytiques et transactionnels ont tendance à être séparés et faiblement couplés. L'objectif du modèle analytique hybride et multicloud est de tirer parti de cette division préexistante en exécutant les charges de travail transactionnelles et analytiques dans deux environnements informatiques différents. Les données brutes sont d'abord extraites des charges de travail exécutées dans l'environnement informatique privé, puis chargées dansGoogle Cloud, où elles sont utilisées à des fins de traitement analytique. Certains résultats peuvent ensuite être renvoyés aux systèmes transactionnels.

Le schéma suivant illustre les architectures possibles en montrant les pipelines de données potentiels. Chaque chemin/flèche représente une option de pipeline de transformation et de transfert de données possible pouvant être basée sur l'ETL ou l'ELT, en fonction de la qualité des données disponible et du cas d'utilisation ciblé.

Pour transférer vos données vers Google Cloud et en exploiter tout le potentiel, utilisez les services de transfert de données, une suite complète de services d'ingestion, d'intégration et de réplication de données.

Données provenant d'un environnement sur site ou d'un autre environnement cloud et transitant vers Google Cloudpar le biais de l'ingestion, des pipelines, du stockage et de l'analyse, jusqu'à la couche d'application et de présentation.

Comme indiqué dans le diagramme précédent, la connexion de Google Cloud avec des environnements sur site et d'autres environnements cloud peut permettre divers cas d'utilisation d'analyse de données, tels que le streaming de données et les sauvegardes de bases de données. Pour alimenter le transport de base d'un modèle d'analyse hybride et multicloud qui nécessite un volume élevé de transfert de données, Cloud Interconnect et Cross-Cloud Interconnect fournissent une connectivité dédiée aux fournisseurs sur site et à d'autres fournisseurs de services cloud.

Avantages

L'exécution de charges de travail analytiques dans le cloud présente plusieurs avantages essentiels :

  • Le trafic entrant (transfert de données de votre environnement informatique privé ou d'autres clouds versGoogle Cloud) peut être gratuit.
  • Les charges de travail analytiques doivent souvent traiter des quantités importantes de données et peuvent être exécutées en rafale. Elles sont donc particulièrement bien adaptées au déploiement dans un environnement de cloud public. En procédant au scaling des ressources de calcul de manière dynamique, vous pouvez traiter rapidement des ensembles de données volumineux tout en évitant les investissements initiaux et tout surprovisionnement de matériel informatique.
  • Google Cloud fournit un ensemble complet de services permettant de gérer les données tout au long de leur cycle de vie, de l'acquisition initiale à la visualisation finale, en passant par le traitement et l'analyse.
    • Les services de déplacement de données sur Google Cloud proposent une suite complète de produits permettant de déplacer, d'intégrer et de transformer des données de différentes manières, de manière fluide.
    • Cloud Storage est parfaitement adapté à la construction d'un lac de données.
  • Google Cloud vous aide à moderniser et à optimiser votre plate-forme de données pour décloisonner vos données. L'utilisation d'un data lakehouse permet de standardiser les différents formats de stockage. Elle peut également offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité. Pour en savoir plus, consultez BigLake.

  • BigQuery Omni fournit une puissance de calcul qui s'exécute localement sur le stockage AWS ou Azure. Il vous aide également à interroger vos propres données stockées dans Amazon Simple Storage Service (Amazon S3) ou Azure Blob Storage. Cette fonctionnalité d'analyse multicloud permet aux équipes de données de décloisonner les données. Pour en savoir plus sur l'interrogation des données stockées en dehors de BigQuery, consultez Présentation des sources de données externes.

Bonnes pratiques

Pour mettre en œuvre le modèle d'architecture d'analyse hybride et multicloud, tenez compte des bonnes pratiques générales suivantes :

  • Utilisez le schéma de mise en réseau de transfert pour permettre l'ingestion de données. Si les résultats analytiques doivent être renvoyés aux systèmes transactionnels, vous pouvez combiner les modèles de transfert et de sortie contrôlée.
  • Servez-vous des files d'attente Pub/Sub ou des buckets Cloud Storage pour transférer des données à Google Cloud à partir de systèmes transactionnels exécutés dans votre environnement informatique privé. Ces files d'attente ou buckets peuvent ensuite servir de sources pour les pipelines de traitement de données et les charges de travail.
  • Pour déployer des pipelines de données ETL et ELT, envisagez d'utiliser Cloud Data Fusion ou Dataflow, selon les exigences spécifiques de votre cas d'utilisation. Ces deux services de traitement de données cloud sont entièrement gérés et permettent de créer et de gérer des pipelines de données.
  • Pour découvrir, classer et protéger vos éléments de données importants, envisagez d'utiliser les fonctionnalités de protection des données sensibles de Google Cloud, telles que les techniques d'anonymisation. Ces techniques vous permettent de masquer, de chiffrer et de remplacer les données sensibles (comme les informations permettant d'identifier personnellement l'utilisateur) à l'aide d'une clé générée de manière aléatoire ou prédéterminée, lorsque cela est applicable et conforme.
  • Lorsque vous effectuez un premier transfert de données de votre environnement informatique privé vers Google Cloud, choisissez la méthode de transfert la mieux adaptée à la taille de votre ensemble de données et à la bande passante disponible. Pour en savoir plus, consultez la page Migration vers Google Cloud : transférer vos ensembles de données volumineux.

  • Si le transfert ou l'échange de données entre Google Cloud et d'autres clouds est nécessaire à long terme avec un volume de trafic élevé, vous devez envisager d'utiliser Google Cloud Cross-Cloud Interconnect pour établir une connectivité dédiée à bande passante élevée entreGoogle Cloud et d'autres fournisseurs de services cloud (disponible dans certaines zones géographiques).

  • Si le chiffrement est requis au niveau de la connectivité, différentes options sont disponibles en fonction de la solution de connectivité hybride sélectionnée. Ces options incluent les tunnels VPN, le VPN haute disponibilité sur Cloud Interconnect et MACsec pour Cross-Cloud Interconnect.

  • Utilisez des outils et des processus cohérents dans tous les environnements. Dans un scénario d'analyse hybride, cette pratique peut contribuer à accroître l'efficacité opérationnelle, bien qu'elle ne constitue pas une condition préalable.