Esempi di configurazione del deployment
Il file config/config.yaml, in genere inizializzato dal modello
config/config.yaml.example, funge da configurazione principale
per il deployment di Cortex Framework. Definisce i parametri critici, tra cui il progetto di esecuzione di destinazione, i set di dati BigQuery di origine e di destinazione e le specifiche Dataform, come i nomi del repository e dello spazio di lavoro. Google Cloud
Le sezioni seguenti forniscono una suddivisione dettagliata della struttura di config/config.yaml.
Ambiente di build
Il progetto dell'ambiente di build è il progetto a cui vengono addebitate le azioni di build,
come i job BigQuery (lettura di DD03L).
buildEnvironment:
buildProjectId: YOUR_BUILD_PROJECT_ID
La tabella seguente descrive i parametri dell'ambiente di build.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
buildEnvironment.buildProjectId |
ID progetto build | YOUR_BUILD_PROJECT_ID |
Google Cloud ID progetto in cui vengono eseguite le operazioni di build. |
Dati
La sezione data: del file di configurazione definisce le origini dati,
i target e i moduli specifici per la base di dati e i prodotti di dati.
La sua struttura generale è la seguente:
data:
# Geographic location for BigQuery datasets (for example: US, EU, us-central1)
# For full list see: https://docs.cloud.google.com/cortex/docs/supported-locations
bigQueryLocation: US
# List of namespaces for data foundation and product modules.
namespaces:
- name: cortex
path: cortex
# List of source datasets.
sources:
- ...
# List of target datasets.
targets:
- ...
# Configuration for data foundation and product modules.
modules:
# List of foundation modules.
foundation:
- ...
# List of data product modules.
product:
- ...
Dati: posizione BigQuery
Definisce la posizione dei set di dati di origine e di destinazione BigQuery.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
data.bigQueryLocation |
Località BigQuery | US |
Posizione del set di dati BigQuery (ad esempio US, us-central1 o europe-west1).
|
Dati: spazio dei nomi Cortex
Definisce lo spazio dei nomi di Cortex Framework.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
data.namespaces.name |
Nome dello spazio dei nomi | - | Nome dello spazio dei nomi di Cortex Framework. Ad esempio, cortex. |
data.namespaces.path |
Percorso dello spazio dei nomi | - | Percorso dello spazio dei nomi di Cortex Framework per le sottodirectory utilizzate all'interno delle cartelle src e config. Ad esempio, cortex. |
Dati: origini BigQuery e set di dati di destinazione
L'elenco delle origini definisce i set di dati BigQuery in cui sono stati replicati o trasmessi i dati non elaborati dal sistema di origine.
Le destinazioni definiscono un elenco di set di dati BigQuery in cui verranno archiviati i set di dati elaborati da Dataform.
Ogni origine e ogni target vengono referenziati dai moduli utilizzando il proprio ID univoco.
# Data source and target mapping
sources:
- id: sap_raw
projectId: YOUR_SOURCE_PROJECT_ID
datasetId: cortex_sap_raw
targets:
- id: sap_foundation
projectId: YOUR_TARGET_PROJECT_ID
datasetId: cortex7_sap_data_foundation
La seguente tabella descrive i parametri di mappatura dell'origine dati e della destinazione.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
data.sources.id |
ID origine | - |
Definisce l''id' del set di dati di origine da cui estrarre i dati. Ad esempio, sap_raw. |
data.sources.projectId |
ID progetto di origine | YOUR_SOURCE_PROJECT_ID |
Fa riferimento all'ID progetto Google Cloud con i dati di origine. |
data.sources.datasetId |
ID set di dati BigQuery di origine | - |
Fa riferimento all'ID set di dati BigQuery con i dati di origine. Ad esempio, cortex_sap_raw. |
data.targets.id |
ID target | - | Definisce l'ID del set di dati di destinazione. Ad esempio, cortex_data_foundation. |
data.targets.projectId |
ID progetto di destinazione | YOUR_TARGET_PROJECT_ID |
Fa riferimento all'ID progetto Google Cloud per i dati di destinazione. |
data.targets.datasetId |
ID set di dati BigQuery di destinazione | - |
Fa riferimento all'ID set di dati BigQuery per i dati di destinazione. Ad esempio, cortex_sap_data_foundation. |
Dati: moduli
I moduli definiscono la struttura e i componenti delle pipeline di dati Dataform.
Dati: Moduli: Nozioni di base
Questa sezione configura i moduli del livello di base dei dati che elaborano i dati dal livello non elaborato (stream CDC) in una rappresentazione standardizzata dei record più recenti dei dati di origine. Se l'origine fornisce direttamente una visualizzazione degli ultimi record o se queste trasformazioni vengono eseguite dal connettore del sistema di origine, il modulo può essere configurato come origine esterna della base dati.
modules:
# List of foundation modules.
foundation:
# Unique identifier for the module instance.
- moduleId: erp
# Type of the module (namespaced, for example, cortex.sap).
type: cortex.sap
# Reference to the source dataset ID.
dataSourceId: sap_raw
# Reference to the target dataset ID.
dataTargetId: sap_foundation
# Module-specific configuration settings.
moduleSettings:
# SAP version (for example, ecc, s4).
sapVersion: ecc
# SAP client number.
mandt: "100"
# Whether the module is enabled.
# enabled: true
# Whether the foundation is external (does not create target dataset).
# external: false
# Path to the table settings configuration file.
# tableSettings: "config/data_foundation/sap/table_settings.yaml"
La tabella seguente descrive i parametri dei moduli della base dati per la configurazione di modules.foundation.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
moduleId |
Identificatore modulo | erp |
Identificatore univoco di un'istanza specifica del modulo di trasformazione della base di dati. |
type |
Tipo di logica del modulo | cortex.sap |
Definisce la logica di business o il modello applicato (ad esempio, clienti, sales_documents). |
dataSourceId |
Link origine | sap_raw |
Fa riferimento a "id" nell'elenco data.sources per estrarre i dati. |
dataTargetId |
Link di destinazione | sap_foundation |
Fa riferimento all'"id" dell'elenco delle destinazioni a cui inviare i dati. |
moduleSettings.sapVersion |
Versione del sistema SAP | ecc |
Valido solo per le origini dati SAP. Determina la logica specifica dell'origine per i sistemi ecc (ECC) o s4 (S/4HANA). |
moduleSettings.mandt |
Client SAP (Mandant) | 100 |
Valido solo per le origini dati SAP. L'identificatore client SAP di tre cifre utilizzato per filtrare le righe di dati. |
enabled |
Attivazione del modulo | true |
Specifica se il modulo è abilitato. |
external |
Fondazione esterna | false |
Specifica se la base è esterna (non crea il set di dati di destinazione). |
tableSettings |
Impostazioni della tabella | config/cortex/data_foundation/{source_system}/table_settings.yaml |
Percorso del file di configurazione delle impostazioni della tabella. |
Dati: Moduli: Prodotti di dati
I moduli dei prodotti di dati definiscono le aggregazioni, i calcoli e le unioni necessari per trasformare i dati non elaborati in approfondimenti che soddisfano casi d'uso aziendali specifici.
La configurazione dei prodotti di dati consente di impostare l'ID univoco, la definizione delle dipendenze, nonché il riferimento al modulo della base di dati e al set di dati di destinazione in cui verranno archiviati i risultati.
La configurazione dettagliata dei prodotti dati specifici è definita all'interno dei file a cui fa riferimento la chiave: tableSettings.
modules:
# List of data product modules.
product:
# Unique identifier for the data product instance.
- moduleId: sap_purchasing_organizations
# Type of the data product (namespaced).
type: cortex.purchasing_organizations
# Map of module dependencies.
dependsOn:
sapModule: erp
# Reference to the target dataset ID.
dataTargetId: product_target
# Whether the module is enabled.
# enabled: true
# Path to the table settings configuration file.
# tableSettings: "config/cortex/data_product/purchasing_organizations/table_settings.yaml"
La seguente tabella descrive i parametri dei moduli del prodotto dati per la configurazione di modules.product.
| Parametro | Significato | Valore predefinito | Descrizione |
|---|---|---|---|
moduleId |
Identificatore modulo | - | Identificatore univoco di un'istanza specifica del modulo di trasformazione. |
type |
Tipo di logica del modulo | - | Definisce la logica di business o il modello applicato, definito nella cartella src/data_modules/{namespace}/data_product. |
dataTargetId |
Link di destinazione | sap_foundation |
Fa riferimento all'"id" dell'elenco delle destinazioni a cui inviare i dati. |
dependsOn |
Dipendenza upstream | sapModule: erp |
Specifica quale modulo di base deve esistere prima che possa essere creato il modulo del prodotto. |
enabled |
Attivazione del modulo | true |
Specifica se il modulo è abilitato. |
tableSettings |
Impostazioni della tabella | "config/{namespace}/data_product/data_product_name/table_settings.yaml" |
Percorso del file di configurazione delle impostazioni della tabella. |
Ambiente di deployment
Cortex Framework utilizza Dataform per orchestrare le trasformazioni SQL in BigQuery. Il blocco deployment:
definisce la configurazione di Dataform, responsabile dell'esecuzione
delle pipeline di dati, inclusi il progetto del repository, la posizione, il nome del repository e il nome dello spazio di lavoro Dataform.
deployment:
targets:
- type: dataform
enabled: true
targetSettings:
repositoryProjectId: YOUR_REPO_PROJECT_ID
repositoryRegion: us-central1
repositoryName: cortex-repository
workspaceName: dev
La seguente tabella descrive i parametri di località delle destinazioni di deployment
(deployment.targets:).
| Parametro | Significato | Valore predefinito | Descrizione | Google Cloud
|---|---|---|---|
type |
Tipo di deployment | dataform |
Il tipo di destinazioni di deployment. |
enabled |
Attivato/ Disattivato | true |
Specifica se la destinazione di distribuzione specificata è abilitata o disabilitata. |
targetSettings.repositoryProjectId |
ID progetto repository | YOUR_REPO_PROJECT_ID |
L'ID progetto Google Cloud in cui viene gestito il repository Dataform. |
targetSettings.repositoryRegion |
Regione del repository | us-central1 |
La regione Google Cloud per il repository Dataform (ad esempio us-central1 o europe-west1). |
targetSettings.repositoryName |
Nome repository | cortex-repository |
Il nome specifico del repository Dataform. |
targetSettings.workspaceName |
Nome workspace | dev |
L'area di lavoro Dataform specifica utilizzata per il ciclo di deployment. |