Esempi di configurazione del deployment

Il file config/config.yaml, in genere inizializzato dal modello config/config.yaml.example, funge da configurazione principale per il deployment di Cortex Framework. Definisce i parametri critici, tra cui il progetto di esecuzione di destinazione, i set di dati BigQuery di origine e di destinazione e le specifiche Dataform, come i nomi del repository e dello spazio di lavoro. Google Cloud

Le sezioni seguenti forniscono una suddivisione dettagliata della struttura di config/config.yaml.

Ambiente di build

Il progetto dell'ambiente di build è il progetto a cui vengono addebitate le azioni di build, come i job BigQuery (lettura di DD03L).

buildEnvironment:
  buildProjectId: YOUR_BUILD_PROJECT_ID

La tabella seguente descrive i parametri dell'ambiente di build.

Parametro Significato Valore predefinito Descrizione
buildEnvironment.buildProjectId ID progetto build YOUR_BUILD_PROJECT_ID Google Cloud ID progetto in cui vengono eseguite le operazioni di build.

Dati

La sezione data: del file di configurazione definisce le origini dati, i target e i moduli specifici per la base di dati e i prodotti di dati. La sua struttura generale è la seguente:

data:
   # Geographic location for BigQuery datasets (for example: US, EU, us-central1)
   # For full list see: https://docs.cloud.google.com/cortex/docs/supported-locations
  bigQueryLocation: US
  # List of namespaces for data foundation and product modules.
  namespaces:
    - name: cortex
      path: cortex
  # List of source datasets.
  sources:
    - ...
  # List of target datasets.
  targets:
    - ...

  # Configuration for data foundation and product modules.
  modules:
    # List of foundation modules.
    foundation:
    - ... 
    # List of data product modules.
    product:
    - ...

Dati: posizione BigQuery

Definisce la posizione dei set di dati di origine e di destinazione BigQuery.

Parametro Significato Valore predefinito Descrizione
data.bigQueryLocation Località BigQuery US Posizione del set di dati BigQuery (ad esempio US, us-central1 o europe-west1).

Dati: spazio dei nomi Cortex

Definisce lo spazio dei nomi di Cortex Framework.

Parametro Significato Valore predefinito Descrizione
data.namespaces.name Nome dello spazio dei nomi - Nome dello spazio dei nomi di Cortex Framework. Ad esempio, cortex.
data.namespaces.path Percorso dello spazio dei nomi - Percorso dello spazio dei nomi di Cortex Framework per le sottodirectory utilizzate all'interno delle cartelle src e config. Ad esempio, cortex.

Dati: origini BigQuery e set di dati di destinazione

L'elenco delle origini definisce i set di dati BigQuery in cui sono stati replicati o trasmessi i dati non elaborati dal sistema di origine.

Le destinazioni definiscono un elenco di set di dati BigQuery in cui verranno archiviati i set di dati elaborati da Dataform.

Ogni origine e ogni target vengono referenziati dai moduli utilizzando il proprio ID univoco.

# Data source and target mapping
sources:
  - id: sap_raw
    projectId: YOUR_SOURCE_PROJECT_ID
    datasetId: cortex_sap_raw

targets:
  - id: sap_foundation
    projectId: YOUR_TARGET_PROJECT_ID
    datasetId: cortex7_sap_data_foundation

La seguente tabella descrive i parametri di mappatura dell'origine dati e della destinazione.

Parametro Significato Valore predefinito Descrizione
data.sources.id ID origine - Definisce l''id' del set di dati di origine da cui estrarre i dati. Ad esempio, sap_raw.
data.sources.projectId ID progetto di origine YOUR_SOURCE_PROJECT_ID Fa riferimento all'ID progetto Google Cloud con i dati di origine.
data.sources.datasetId ID set di dati BigQuery di origine - Fa riferimento all'ID set di dati BigQuery con i dati di origine. Ad esempio, cortex_sap_raw.
data.targets.id ID target - Definisce l'ID del set di dati di destinazione. Ad esempio, cortex_data_foundation.
data.targets.projectId ID progetto di destinazione YOUR_TARGET_PROJECT_ID Fa riferimento all'ID progetto Google Cloud per i dati di destinazione.
data.targets.datasetId ID set di dati BigQuery di destinazione - Fa riferimento all'ID set di dati BigQuery per i dati di destinazione. Ad esempio, cortex_sap_data_foundation.

Dati: moduli

I moduli definiscono la struttura e i componenti delle pipeline di dati Dataform.

Dati: Moduli: Nozioni di base

Questa sezione configura i moduli del livello di base dei dati che elaborano i dati dal livello non elaborato (stream CDC) in una rappresentazione standardizzata dei record più recenti dei dati di origine. Se l'origine fornisce direttamente una visualizzazione degli ultimi record o se queste trasformazioni vengono eseguite dal connettore del sistema di origine, il modulo può essere configurato come origine esterna della base dati.

modules:
  # List of foundation modules.
  foundation:
    # Unique identifier for the module instance.
    - moduleId: erp
      # Type of the module (namespaced, for example, cortex.sap).
      type: cortex.sap
      # Reference to the source dataset ID.
      dataSourceId: sap_raw
      # Reference to the target dataset ID.
      dataTargetId: sap_foundation
      # Module-specific configuration settings.
      moduleSettings:
        # SAP version (for example, ecc, s4).
        sapVersion: ecc
        # SAP client number.
        mandt: "100"
      # Whether the module is enabled.
      # enabled: true
      # Whether the foundation is external (does not create target dataset).
      # external: false
      # Path to the table settings configuration file.
      # tableSettings: "config/data_foundation/sap/table_settings.yaml"

La tabella seguente descrive i parametri dei moduli della base dati per la configurazione di modules.foundation.

Parametro Significato Valore predefinito Descrizione
moduleId Identificatore modulo erp Identificatore univoco di un'istanza specifica del modulo di trasformazione della base di dati.
type Tipo di logica del modulo cortex.sap Definisce la logica di business o il modello applicato (ad esempio, clienti, sales_documents).
dataSourceId Link origine sap_raw Fa riferimento a "id" nell'elenco data.sources per estrarre i dati.
dataTargetId Link di destinazione sap_foundation Fa riferimento all'"id" dell'elenco delle destinazioni a cui inviare i dati.
moduleSettings.sapVersion Versione del sistema SAP ecc Valido solo per le origini dati SAP. Determina la logica specifica dell'origine per i sistemi ecc (ECC) o s4 (S/4HANA).
moduleSettings.mandt Client SAP (Mandant) 100 Valido solo per le origini dati SAP. L'identificatore client SAP di tre cifre utilizzato per filtrare le righe di dati.
enabled Attivazione del modulo true Specifica se il modulo è abilitato.
external Fondazione esterna false Specifica se la base è esterna (non crea il set di dati di destinazione).
tableSettings Impostazioni della tabella config/cortex/data_foundation/{source_system}/table_settings.yaml Percorso del file di configurazione delle impostazioni della tabella.

Dati: Moduli: Prodotti di dati

I moduli dei prodotti di dati definiscono le aggregazioni, i calcoli e le unioni necessari per trasformare i dati non elaborati in approfondimenti che soddisfano casi d'uso aziendali specifici.

La configurazione dei prodotti di dati consente di impostare l'ID univoco, la definizione delle dipendenze, nonché il riferimento al modulo della base di dati e al set di dati di destinazione in cui verranno archiviati i risultati.

La configurazione dettagliata dei prodotti dati specifici è definita all'interno dei file a cui fa riferimento la chiave: tableSettings.

modules:
  # List of data product modules.
  product:
    # Unique identifier for the data product instance.
    - moduleId: sap_purchasing_organizations
      # Type of the data product (namespaced).
      type: cortex.purchasing_organizations
      # Map of module dependencies.
      dependsOn:
        sapModule: erp
      # Reference to the target dataset ID.
      dataTargetId: product_target
      # Whether the module is enabled.
      # enabled: true
      # Path to the table settings configuration file.
      # tableSettings:   "config/cortex/data_product/purchasing_organizations/table_settings.yaml"

La seguente tabella descrive i parametri dei moduli del prodotto dati per la configurazione di modules.product.

Parametro Significato Valore predefinito Descrizione
moduleId Identificatore modulo - Identificatore univoco di un'istanza specifica del modulo di trasformazione.
type Tipo di logica del modulo - Definisce la logica di business o il modello applicato, definito nella cartella src/data_modules/{namespace}/data_product.
dataTargetId Link di destinazione sap_foundation Fa riferimento all'"id" dell'elenco delle destinazioni a cui inviare i dati.
dependsOn Dipendenza upstream sapModule: erp Specifica quale modulo di base deve esistere prima che possa essere creato il modulo del prodotto.
enabled Attivazione del modulo true Specifica se il modulo è abilitato.
tableSettings Impostazioni della tabella "config/{namespace}/data_product/data_product_name/table_settings.yaml" Percorso del file di configurazione delle impostazioni della tabella.

Ambiente di deployment

Cortex Framework utilizza Dataform per orchestrare le trasformazioni SQL in BigQuery. Il blocco deployment: definisce la configurazione di Dataform, responsabile dell'esecuzione delle pipeline di dati, inclusi il progetto del repository, la posizione, il nome del repository e il nome dello spazio di lavoro Dataform.

deployment:
  targets:
    - type: dataform
      enabled: true
      targetSettings:
        repositoryProjectId: YOUR_REPO_PROJECT_ID
        repositoryRegion: us-central1
        repositoryName: cortex-repository
        workspaceName: dev

La seguente tabella descrive i parametri di località delle destinazioni di deployment (deployment.targets:).

Google Cloud
Parametro Significato Valore predefinito Descrizione
type Tipo di deployment dataform Il tipo di destinazioni di deployment.
enabled Attivato/ Disattivato true Specifica se la destinazione di distribuzione specificata è abilitata o disabilitata.
targetSettings.repositoryProjectId ID progetto repository YOUR_REPO_PROJECT_ID L'ID progetto Google Cloud in cui viene gestito il repository Dataform.
targetSettings.repositoryRegion Regione del repository us-central1 La regione Google Cloud per il repository Dataform (ad esempio us-central1 o europe-west1).
targetSettings.repositoryName Nome repository cortex-repository Il nome specifico del repository Dataform.
targetSettings.workspaceName Nome workspace dev L'area di lavoro Dataform specifica utilizzata per il ciclo di deployment.