Contoh konfigurasi deployment

File config/config.yaml — biasanya diinisialisasi dari template config/config.yaml.example — berfungsi sebagai konfigurasi utama untuk deployment Cortex Framework. File ini menentukan parameter penting, termasuk project eksekusi target Google Cloud , set data BigQuery sumber dan tujuan, serta spesifikasi Dataform seperti nama repositori dan ruang kerja.

Bagian berikut memberikan perincian mendetail tentang struktur config/config.yaml.

Lingkungan build

Project lingkungan build adalah project yang ditagih untuk tindakan build, seperti tugas BigQuery (membaca DD03L).

buildEnvironment:
  buildProjectId: YOUR_BUILD_PROJECT_ID

Tabel berikut menjelaskan parameter lingkungan build.

Parameter Arti Nilai default Deskripsi
buildEnvironment.buildProjectId Buat project ID YOUR_BUILD_PROJECT_ID Google Cloud Project ID tempat operasi build dijalankan.

Data

Bagian data: dari file konfigurasi menentukan sumber data, target, dan modul spesifik untuk fondasi data dan produk data. Struktur umumnya adalah sebagai berikut:

data:
   # Geographic location for BigQuery datasets (for example: US, EU, us-central1)
   # For full list see: https://docs.cloud.google.com/cortex/docs/supported-locations
  bigQueryLocation: US
  # List of namespaces for data foundation and product modules.
  namespaces:
    - name: cortex
      path: cortex
  # List of source datasets.
  sources:
    - ...
  # List of target datasets.
  targets:
    - ...

  # Configuration for data foundation and product modules.
  modules:
    # List of foundation modules.
    foundation:
    - ... 
    # List of data product modules.
    product:
    - ...

Data: Lokasi BigQuery

Menentukan lokasi set data sumber dan target BigQuery.

Parameter Arti Nilai default Deskripsi
data.bigQueryLocation Lokasi BigQuery US Lokasi set data BigQuery (misalnya, US, us-central1, atau europe-west1).

Data: Namespace Cortex

Menentukan namespace Cortex Framework.

Parameter Arti Nilai default Deskripsi
data.namespaces.name Nama namespace - Nama namespace Cortex Framework. Misalnya, cortex.
data.namespaces.path Jalur namespace - Jalur namespace Cortex Framework untuk subdirektori yang digunakan dalam folder src dan config. Misalnya, cortex.

Data: Sumber BigQuery dan set data target

Daftar sumber menentukan set data BigQuery tempat data mentah dari sistem sumber telah direplikasi atau di-streaming ke dalamnya.

Target menentukan daftar set data BigQuery tempat set data yang diproses Dataform akan disimpan.

Setiap sumber dan target dirujuk dari modul menggunakan ID uniknya.

# Data source and target mapping
sources:
  - id: sap_raw
    projectId: YOUR_SOURCE_PROJECT_ID
    datasetId: cortex_sap_raw

targets:
  - id: sap_foundation
    projectId: YOUR_TARGET_PROJECT_ID
    datasetId: cortex7_sap_data_foundation

Tabel berikut menjelaskan parameter pemetaan target dan sumber data.

Parameter Arti Nilai default Deskripsi
data.sources.id Source ID (ID Sumber) - Menentukan 'id' untuk set data sumber yang akan diambil datanya. Misalnya, sap_raw.
data.sources.projectId ID Project Sumber YOUR_SOURCE_PROJECT_ID Merujuk ke Google Cloud Project ID dengan data sumber.
data.sources.datasetId ID Set Data BigQuery Sumber - Mereferensikan ID Set Data BigQuery dengan data sumber. Misalnya, cortex_sap_raw.
data.targets.id ID Target - Menentukan 'id' untuk set data target. Misalnya, cortex_data_foundation.
data.targets.projectId ID Project Target YOUR_TARGET_PROJECT_ID Merujuk pada Google Cloud Project ID untuk data target.
data.targets.datasetId ID Set Data BigQuery Target - Mereferensikan ID Set Data BigQuery untuk data target. Misalnya, cortex_sap_data_foundation.

Data: Modul

Modul menentukan struktur dan komponen pipeline data Dataform.

Data: Modul: Dasar

Bagian ini mengonfigurasi modul lapisan fondasi data yang memproses data dari lapisan mentah (aliran CDC) ke dalam representasi data sumber yang distandardisasi dan terbaru. Jika sumber menyediakan tampilan langsung pada data terbaru, atau transformasi tersebut dilakukan oleh konektor sistem sumber, modul dapat dikonfigurasi sebagai sumber fondasi data eksternal.

modules:
  # List of foundation modules.
  foundation:
    # Unique identifier for the module instance.
    - moduleId: erp
      # Type of the module (namespaced, for example, cortex.sap).
      type: cortex.sap
      # Reference to the source dataset ID.
      dataSourceId: sap_raw
      # Reference to the target dataset ID.
      dataTargetId: sap_foundation
      # Module-specific configuration settings.
      moduleSettings:
        # SAP version (for example, ecc, s4).
        sapVersion: ecc
        # SAP client number.
        mandt: "100"
      # Whether the module is enabled.
      # enabled: true
      # Whether the foundation is external (does not create target dataset).
      # external: false
      # Path to the table settings configuration file.
      # tableSettings: "config/data_foundation/sap/table_settings.yaml"

Tabel berikut menjelaskan parameter modul fondasi data untuk konfigurasi modules.foundation.

Parameter Arti Nilai default Deskripsi
moduleId ID Modul erp ID unik untuk instance modul transformasi fondasi data tertentu.
type Jenis Logika Modul cortex.sap Menentukan logika bisnis atau template yang diterapkan (misalnya, pelanggan, sales_documents).
dataSourceId Link Sumber sap_raw Mereferensikan 'id' dari daftar data.sources untuk menarik data dari.
dataTargetId Link Target sap_foundation Mereferensikan 'id' dari daftar target untuk mengirim data ke.
moduleSettings.sapVersion Versi Sistem SAP ecc Hanya berlaku untuk sumber data SAP. Menentukan logika khusus sumber untuk sistem ecc (ECC) atau s4 (S/4HANA).
moduleSettings.mandt Klien SAP (Mandant) 100 Hanya berlaku untuk sumber data SAP. ID klien SAP 3 digit yang digunakan untuk memfilter baris data.
enabled Pengaktifan modul true Menentukan apakah modul diaktifkan.
external Yayasan eksternal false Menentukan apakah fondasinya eksternal (tidak membuat set data target).
tableSettings Setelan tabel config/cortex/data_foundation/{source_system}/table_settings.yaml Jalur ke file konfigurasi setelan tabel.

Data: Modul: Produk data

Modul produk data menentukan agregasi, penghitungan, dan gabungan yang diperlukan untuk mengubah data mentah menjadi insight yang memenuhi kasus penggunaan bisnis tertentu.

Konfigurasi produk data memungkinkan penetapan ID unik, definisi dependensi, serta referensi modul fondasi data dan set data target tempat hasil akan disimpan.

Konfigurasi mendetail dari produk data tertentu ditentukan dalam file yang dirujuk oleh kunci: tableSettings.

modules:
  # List of data product modules.
  product:
    # Unique identifier for the data product instance.
    - moduleId: sap_purchasing_organizations
      # Type of the data product (namespaced).
      type: cortex.purchasing_organizations
      # Map of module dependencies.
      dependsOn:
        sapModule: erp
      # Reference to the target dataset ID.
      dataTargetId: product_target
      # Whether the module is enabled.
      # enabled: true
      # Path to the table settings configuration file.
      # tableSettings:   "config/cortex/data_product/purchasing_organizations/table_settings.yaml"

Tabel berikut menjelaskan parameter modul produk data untuk konfigurasi modules.product.

Parameter Arti Nilai default Deskripsi
moduleId ID Modul - ID unik untuk instance modul transformasi tertentu.
type Jenis Logika Modul - Menentukan logika bisnis atau template yang diterapkan, yang ditentukan di folder src/data_modules/{namespace}/data_product.
dataTargetId Link Target sap_foundation Mereferensikan 'id' dari daftar target untuk mengirim data ke.
dependsOn Dependensi Upstream sapModule: erp Menentukan modul dasar mana yang harus ada sebelum modul produk dapat dibuat.
enabled Pengaktifan modul true Menentukan apakah modul diaktifkan.
tableSettings Setelan tabel "config/{namespace}/data_product/data_product_name/table_settings.yaml" Jalur ke file konfigurasi setelan tabel.

Lingkungan deployment

Cortex Framework menggunakan Dataform untuk mengatur transformasi SQL dalam BigQuery. Blok deployment: menentukan konfigurasi Dataform, yang bertanggung jawab atas eksekusi pipeline data, termasuk project repositori, lokasi, nama repositori, dan nama ruang kerja Dataform.

deployment:
  targets:
    - type: dataform
      enabled: true
      targetSettings:
        repositoryProjectId: YOUR_REPO_PROJECT_ID
        repositoryRegion: us-central1
        repositoryName: cortex-repository
        workspaceName: dev

Tabel berikut menjelaskan parameter lokasi target deployment (deployment.targets:).

Google Cloud
Parameter Arti Nilai Default Deskripsi
type Jenis deployment dataform Jenis target deployment.
enabled Diaktifkan/ Dinonaktifkan true Menentukan apakah target deployment tertentu diaktifkan atau dinonaktifkan.
targetSettings.repositoryProjectId Project ID repositori YOUR_REPO_PROJECT_ID ID Project Google Cloud tempat repositori Dataform dikelola.
targetSettings.repositoryRegion Region repositori us-central1 Region Google Cloud untuk repositori Dataform (misalnya, us-central1 atau europe-west1).
targetSettings.repositoryName Nama repositori cortex-repository Nama spesifik repositori Dataform.
targetSettings.workspaceName Nama Workspace dev Ruang kerja Dataform tertentu yang digunakan untuk siklus deployment.