Datastream est un service de capture des données modifiées (CDC) et de réplication facile à utiliser et sans serveur. Il vous permet de synchroniser les données de manière fiable et avec une latence minimale.
Datastream permet de répliquer facilement les données de bases de données opérationnelles dans BigQuery. De plus, Datastream prend en charge l'écriture de flux d'événements de modification dans Cloud Storage. Il offre aussi une intégration simplifiée avec les modèles Dataflow, ce qui permet de créer des workflows personnalisés pour charger des données dans un large éventail de destinations, telles que Cloud SQL et Spanner. Vous pouvez aussi utiliser Datastream pour exploiter le flux d'événements directement depuis Cloud Storage afin de réaliser des architectures basées sur des événements. Datastream est compatible avec les sources Oracle, MySQL, SQL Server, PostgreSQL (y compris AlloyDB pour PostgreSQL), MongoDB, Salesforce, Salesforce Marketing Cloud (Preview), ServiceNow (Preview) et Spanner.
Avantages de Datastream :
- Configuration aisée des pipelines ELT (Extract, Load, Transform) pour la réplication de données à faible latence afin de permettre des insights en temps quasi réel dans BigQuery.
- Cette solution étant sans serveur, il n'y a aucune ressource à provisionner ni à gérer, et le service effectue automatiquement un scaling à la hausse ou à la baisse en fonction des besoins, avec un temps d'arrêt minimal.
- Expérience d'installation et de surveillance facile à mettre en œuvre et offrant un retour sur investissement très rapide.
- Intégration au meilleur portefeuille de services de données pour l'intégration de données dans Datastream, Dataflow, Pub/Sub, BigQuery, Knowledge Catalog, et bien d'autres encore. Google Cloud
- Gestion centralisée des métadonnées et de la traçabilité avec Knowledge Catalog, ce qui vous permet d'afficher les ressources Datastream dans le contexte de toutes vos sources de données Google Cloud.
- Synchronisation et unification des flux de données entre des bases de données et des applications hétérogènes.
- Sécurité, avec des options de connectivité privée et la sécurité que vous attendez de Google Cloud.
- Une solution fiable et précise, avec des rapports d'état transparents et une flexibilité de traitement robuste vis-à-vis des modifications des données et des schémas.
- Compatibilité avec plusieurs cas d'utilisation, y compris l'analyse, la réplication de base de données et la synchronisation pour les migrations et les configurations cloud hybrides, ainsi que pour la création d'architectures basées sur les événements.
Cas d'utilisation
Les fonctionnalités de diffusion de données de Datastream permettent divers cas d'utilisation :
Réplication et synchronisation des données dans votre organisation avec une latence minimale
Vous pouvez synchroniser les données entre des bases de données et des applications hétérogènes de manière fiable, avec une faible latence et un impact minimal sur les performances de votre source. Exploitez la puissance des flux de données pour l'analyse, la réplication de base de données, la migration vers le cloud et les architectures basées sur les événements dans des environnements hybrides.
Effectuer facilement un scaling à la hausse ou à la baisse avec une architecture sans serveur
Soyez opérationnel rapidement grâce à un service facile d'utilisation et sans serveur, qui effectue un scaling de manière fluide en fonction de l'évolution des volumes de données. Concentrez-vous sur l'obtention d'insights à jour à partir de vos données et sur la résolution des problèmes prioritaires, au lieu de gérer l'infrastructure, d'optimiser les performances ou de provisionner des ressources.
Intégration à la Google Cloud suite d'intégration de données
Connectez les données de toute votre organisation avec la Google Cloud suite de produits d'intégration des données. Intégrez Datastream aux modèles de tâches Dataflow pour lire les données d'un bucket Cloud Storage et les charger dans diverses destinations, telles que BigQuery, Spanner et Cloud SQL.
Éléments de l'expérience
Datastream comprend trois éléments principaux :
- Les configurations de connectivité privée permettent à Datastream de communiquer avec une source de données sur un réseau privé (en interne dans Google Cloud, ou avec des sources externes connectées via VPN ou interconnexion). Cette communication se fait via une connexion d'appairage de cloud privé virtuel (VPC).
- Les profils de connexion représentent les informations de connectivité d'une source et d'une destination. Ces informations seront utilisées par un flux.
- Les flux utilisent les informations des profils de connexion pour transférer des données CDC et remplir des données de la source vers la destination.
Étape suivante
- Commencez à répliquer vos données d'une base de données source vers des ensembles de données BigQuery.
- En savoir plus sur les concepts et fonctionnalités clés de Datastream.
- Découvrez comment créer des configurations de connectivité privée, profils de connexion et des flux.