Passaggio 3: determina il meccanismo di integrazione

Questa pagina descrive il terzo passaggio per eseguire il deployment di Cortex Framework Data Foundation, il componente principale di Cortex Framework. In questo passaggio, configuri l'integrazione con l'origine dati che hai scelto. Se utilizzi dati di esempio, salta questo passaggio.

Panoramica sull'integrazione

Cortex Framework ti aiuta a centralizzare i dati provenienti da varie origini, insieme ad altre piattaforme. In questo modo, crei un'unica fonte attendibile per i tuoi dati. Cortex Data Foundation si integra con ogni origine dati in modi diversi, ma la maggior parte segue una procedura simile:

Origine al livello Raw: importa i dati dall'origine dati al set di dati Raw utilizzando le API. Questa operazione viene eseguita utilizzando le pipeline di Dataflow attivate tramite i DAG di Managed Airflow.
Livello Raw al livello CDC: applica l'elaborazione CDC al set di dati Raw e archivia l'output nel set di dati CDC. Questa operazione viene eseguita dai DAG di Managed Airflow che eseguono SQL di BigQuery.
Livello CDC al livello Reporting: crea le tabelle di reporting finali dalle tabelle CDC nel set di dati Reporting. Questa operazione viene eseguita creando viste di runtime sopra le tabelle CDC o eseguendo i DAG di Managed Airflow per i dati materializzati nelle tabelle BigQuery, a seconda della configurazione. Per ulteriori informazioni sulla configurazione, vedi Personalizzare il file delle impostazioni di reporting.

Il file config.json configura le impostazioni necessarie per connettersi alle origini dati per il trasferimento dei dati da vari workload. Consulta le opzioni di integrazione per ogni origine dati nelle seguenti risorse.

Per ulteriori informazioni sui diagrammi entità-relazione supportati da ogni origine dati, consulta la cartella docs nel repository di Cortex Framework Data Foundation.

Deployment di K9

Il deployer K9 semplifica l'integrazione di diverse origini dati. Il deployer K9 è un set di dati predefinito nell'ambiente BigQuery responsabile dell'importazione, dell'elaborazione e della modellazione dei componenti riutilizzabili in diverse origini dati.

Ad esempio, la dimensione time è riutilizzabile in tutte le origini dati in cui le tabelle potrebbero dover utilizzare i risultati analitici in base a un calendario gregoriano. Il deployer K9 combina dati esterni come meteo o Google Trends con altre origini dati (ad esempio SAP, Salesforce, Marketing). Questo set di dati arricchito consente di ottenere approfondimenti più approfonditi e analisi più complete.

Il seguente diagramma mostra il flusso di dati da diverse origini non elaborate a vari livelli di reporting:

Set di dati K9

Figura 1. Set di dati K9.

Nel diagramma, il progetto di origine contiene i dati non elaborati delle origini dati scelte (SAP, Salesforce, e Marketing). Il progetto di destinazione contiene i dati elaborati, derivati dal processo Change Data Capture (CDC).

Il passaggio di pre-elaborazione K9 viene eseguito prima dell'inizio del deployment di tutti i workload, in modo che i modelli riutilizzabili siano disponibili durante il deployment. Questo passaggio trasforma i dati provenienti da varie origini per creare un set di dati coerente e riutilizzabile.

I passaggi di post-elaborazione K9 vengono eseguiti dopo che tutti i workload hanno eseguito il deployment dei modelli di reporting per abilitare il reporting tra workload o aumentare i modelli per trovare le dipendenze necessarie all'interno di ogni singolo set di dati di reporting.

Configurare il deployment di K9

Configura i grafi aciclici orientati (DAG) e i modelli da generare nel file manifest K9.

Il passaggio di pre-elaborazione K9 è importante perché garantisce che tutti i workload all'interno della pipeline di dati abbiano accesso a dati preparati in modo coerente. In questo modo si riduce la ridondanza e si garantisce la coerenza dei dati.

Per ulteriori informazioni su come configurare i set di dati esterni per K9, vedi Configurare i set di dati esterni per K9.

Passaggi successivi

Dopo aver completato questo passaggio, procedi con i seguenti passaggi di deployment:

Stabilisci i workload.
Clona il repository.
Determina il meccanismo di integrazione (questa pagina).
Configura i componenti.
Configura il deployment.
Esegui il deployment.