Panoramica di Datastream

Datastream è un servizio CDC (Change Data Capture) e di replica serverless e di facile utilizzo che consente di sincronizzare i dati in modo affidabile e con latenza minima.

Datastream fornisce la replica perfetta dei dati da database operativi in BigQuery. Inoltre, Datastream supporta la scrittura del flusso di eventi di modifica in Cloud Storage e offre un'integrazione semplificata con i modelli Dataflow per creare flussi di lavoro personalizzati per il caricamento dei dati in un'ampia gamma di destinazioni, come Cloud SQL e Spanner. Puoi anche utilizzare Datastream per sfruttare il flusso di eventi direttamente da Cloud Storage, così da creare architetture basate su eventi. Datastream supporta origini database come MySQL, Oracle, PostgreSQL (incluso AlloyDB per PostgreSQL), SQL Server, MongoDB e Spanner. Supporta anche origini applicazioni come Salesforce, Salesforce Marketing Cloud (anteprima), Microsoft Dataverse (anteprima) e ServiceNow (anteprima).

I vantaggi di Datastream includono:

  • Configurazione immediata delle pipeline ELT (Extract, Load, Transform) per la replica dei dati a bassa latenza per consentire insight quasi in tempo reale in BigQuery.
  • Essendo serverless, non sono presenti risorse di cui eseguire il provisioning o da gestire e il servizio esegue automaticamente lo scale up e lo scale down, in base alle esigenze, con tempi di inattività minimi.
  • Esperienze di configurazione e monitoraggio facili da usare che consentono di ottenere un time-to-value molto rapido.
  • Integrazione nel portafoglio di servizi di dati migliori per l'integrazione dei dati in Datastream, Dataflow, Pub/Sub, BigQuery, Knowledge Catalog e altro ancora. Google Cloud
  • Gestione centralizzata dei metadati e della derivazione con Knowledge Catalog, che consente di visualizzare le risorse Datastream nel contesto di tutte le origini dati Google Cloud.
  • Sincronizzazione e unificazione dei flussi di dati in database e applicazioni eterogenei.
  • Sicurezza, con opzioni di connettività privata e la sicurezza che ti aspetti da Google Cloud.
  • Precisione e affidabilità, con report sullo stato trasparenti e ampia flessibilità di elaborazione di fronte ai cambiamenti di dati e schemi.
  • Supporto di più casi d'uso, tra cui analisi, replica e sincronizzazione dei database per migrazioni e configurazioni cloud ibrido e per la creazione di architetture basate su eventi.

Casi d'uso

Le funzionalità di streaming di Datastream consentono una varietà di casi d'uso:

  • Replica e sincronizzazione dei dati in tutta l'organizzazione con latenza minima

    Puoi sincronizzare i dati in database e applicazioni eterogenei in modo affidabile, con bassa latenza e con un impatto minimo sulle prestazioni dell'origine. Sfrutta la potenza dei flussi di dati per l'analisi, la replica dei database, la migrazione al cloud e le architetture basate su eventi in ambienti ibridi.

  • Esegui lo scale up o lo scale down con un'architettura serverless senza interruzioni

    Raggiungi la piena operatività in modo rapido con un servizio serverless e facile da utilizzare che consente di fare lo scale up o lo scale down senza interruzioni in base alle variazioni dei volumi di dati. Concentrati sull'ottenimento di insight aggiornati dai tuoi dati e sulla risposta ai problemi di alta priorità, anziché sulla gestione dell'infrastruttura, sull'ottimizzazione delle prestazioni o sul provisioning delle risorse.

  • Esegui l'integrazione con la Google Cloud suite di integrazione dei dati

    Connetti i dati di tutta la tua organizzazione con la Google Cloud suite di prodotti di integrazione dei dati. Integra Datastream con i modelli di job Dataflow per leggere i dati da un bucket Cloud Storage e caricarli in una varietà di destinazioni, come BigQuery, Spanner e Cloud SQL.

Elementi dell'esperienza

In Datastream sono presenti tre elementi principali:

  • Le configurazioni di connettività privata consentono a Datastream di comunicare con un'origine dati su una rete privata (internamente a Google Cloud, o con origini esterne connesse tramite VPN o Interconnect). Questa comunicazione avviene tramite una connessione in peering Virtual Private Cloud (VPC).
  • I profili di connessione rappresentano le informazioni di connettività sia per un'origine sia per una destinazione. Queste informazioni verranno utilizzate da un flusso.
  • I flussi utilizzano le informazioni nei profili di connessione per trasferire i dati CDC e di backfill dall'origine alla destinazione.

Passaggi successivi