Modello di analisi ibrida e multi-cloud

Questo documento spiega che l'obiettivo del pattern ibrido e multicloud di Analytics è sfruttare la divisione tra carichi di lavoro transazionali e analitici.

Nei sistemi aziendali, la maggior parte dei carichi di lavoro rientra in queste categorie:

  • I workload transazionali includono applicazioni interattive come vendite, elaborazione finanziaria, pianificazione delle risorse aziendali o comunicazione.
  • I carichi di lavoro di analisi includono applicazioni che trasformano, analizzano, perfezionano o visualizzano i dati per facilitare i processi decisionali.

I sistemi di analisi ottengono i dati dai sistemi transazionali eseguendo query sulle API o accedendo ai database. Nella maggior parte delle aziende, i sistemi di analisi e transazionali tendono a essere separati ea basso accoppiamentoo. L'obiettivo del pattern ibrido e multi-cloud di Analytics è sfruttare questa divisione preesistente eseguendo i workload transazionali e di analisi in due ambienti di computing diversi. I dati non elaborati vengono prima estratti dai carichi di lavoro in esecuzione nell'ambiente di computing privato e poi caricati in Google Cloud, dove vengono utilizzati per l'elaborazione analitica. Alcuni risultati potrebbero poi essere ritrasmessi ai sistemi transazionali.

Il seguente diagramma illustra le architetture concettualmente possibili mostrando potenziali pipeline di dati. Ogni percorso/freccia rappresenta una possibile opzione di pipeline di trasformazione e spostamento dei dati che può essere basata su ETL o ELT, a seconda della qualità dei dati disponibile e del caso d'uso mirato.

Per trasferire i tuoi dati in Google Cloud e sbloccarne il valore, utilizza i servizi di spostamento dei dati, una suite completa di servizi di importazione, integrazione e replica dei dati.

I dati che fluiscono da un ambiente on-premise o da un altro cloud in Google Cloud, tramite importazione, pipeline, archiviazione, analisi, fino al livello di applicazione e presentazione.

Come mostrato nel diagramma precedente, la connessione Google Cloud con ambienti on-premise e altri ambienti cloud può consentire vari casi d'uso di analisi dei dati, come lo streaming di dati e i backup dei database. Per alimentare il trasporto fondamentale di un pattern di analisi ibrido e multi-cloud che richiede un volume elevato di trasferimento di dati, Cloud Interconnect e Cross-Cloud Interconnect forniscono una connettività dedicata a on-premise e ad altri provider di servizi cloud.

Vantaggi

L'esecuzione dei carichi di lavoro di analisi nel cloud offre diversi vantaggi chiave:

  • Il traffico in entrata, ovvero lo spostamento di dati dal tuo ambiente di computing privato o da altri cloud aGoogle Cloud, potrebbe essere gratuito.
  • I carichi di lavoro di analisi spesso devono elaborare grandi quantità di dati e possono essere burst, quindi sono particolarmente adatti per essere implementati in un ambiente cloud pubblico. Scalando dinamicamente le risorse di calcolo, puoi elaborare rapidamente set di dati di grandi dimensioni evitando investimenti iniziali o di dover eseguire il provisioning eccessivo delle apparecchiature di computing.
  • Google Cloud fornisce un ricco insieme di servizi per gestire i dati durante l'intero ciclo di vita, dall'acquisizione iniziale all'elaborazione e all'analisi fino alla visualizzazione finale.
    • I servizi di spostamento dei dati su Google Cloud offrono una suite completa di prodotti per spostare, integrare e trasformare i dati in modo semplice e in diversi modi.
    • Cloud Storage è adatto per creare un data lake.
  • Google Cloud ti aiuta a modernizzare e ottimizzare la tua piattaforma di dati per abbattere i silos di dati. L'utilizzo di una data lakehouse consente di standardizzare i diversi formati di archiviazione. Può anche fornire la flessibilità, la scalabilità e l'agilità necessarie per garantire che i tuoi dati generino valore per la tua attività, piuttosto che inefficienze. Per maggiori informazioni, consulta BigLake.

  • BigQuery Omni fornisce potenza di calcolo che viene eseguita localmente sullo spazio di archiviazione su AWS o Azure. Ti aiuta anche a eseguire query sui tuoi dati archiviati in Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Questa funzionalità di analisi multi-cloud consente ai team di dati di abbattere le barriere tra i dati. Per saperne di più sull'esecuzione di query sui dati archiviati al di fuori di BigQuery, consulta Introduzione alle origini dati esterne.

Best practice

Per implementare il pattern di architettura ibrida e multicloud di Analytics, considera le seguenti best practice generali:

  • Utilizza il pattern di networking di trasferimento per attivare l'importazione dei dati. Se i risultati analitici devono essere ritrasmessi ai sistemi transazionali, puoi combinare sia il trasferimento che il pattern di uscita controllata.
  • Utilizza le code Pub/Sub o i bucket Cloud Storage per trasferire i dati da sistemi transazionali in esecuzione nel tuo ambiente di computing privato a Google Cloud . Queste code o bucket possono quindi fungere da origini per pipeline e workload di elaborazione dei dati.
  • Per eseguire il deployment delle pipeline di dati ETL ed ELT, valuta la possibilità di utilizzare Cloud Data Fusion o Dataflow a seconda dei requisiti specifici del caso d'uso. Entrambi sono servizi di elaborazione dei dati cloud-first completamente gestiti per creare e gestire pipeline di dati.
  • Per scoprire, classificare e proteggere i tuoi preziosi asset di dati, valuta la possibilità di utilizzare le funzionalità di Google Cloud Sensitive Data Protection, come le tecniche di anonimizzazione. Queste tecniche consentono di mascherare, criptare e sostituire i dati sensibili, come le informazioni che consentono l'identificazione personale (PII), utilizzando una chiave generata in modo casuale o predeterminata, ove applicabile e conforme.
  • Quando esegui un trasferimento iniziale dei dati dal tuo ambiente di computing privato a Google Cloud, scegli l'approccio di trasferimento più adatto alle dimensioni del tuo set di dati e alla larghezza di banda disponibile. Per ulteriori informazioni, vedi Migrazione verso Google Cloud: trasferimento dei tuoi set di dati di grandi dimensioni.

  • Se è necessario il trasferimento o lo scambio di dati tra Google Cloud e altri cloud a lungo termine con un volume di traffico elevato, valuta l'utilizzo di Google Cloud Cross-Cloud Interconnect per stabilire una connettività dedicata a elevata larghezza di banda tra Google Cloud e altri provider di servizi cloud (disponibile in alcune località).

  • Se è necessaria la crittografia a livello di connettività, sono disponibili varie opzioni in base alla soluzione di connettività ibrida selezionata. Queste opzioni includono tunnel VPN, VPN ad alta disponibilità su Cloud Interconnect e MACsec per Cross-Cloud Interconnect.

  • Utilizza strumenti e processi coerenti in tutti gli ambienti. In uno scenario ibrido di analisi, questa pratica può contribuire ad aumentare l'efficienza operativa, anche se non è un prerequisito.