Contoh konfigurasi deployment
File config/config.yaml — biasanya diinisialisasi dari template
config/config.yaml.example — berfungsi sebagai konfigurasi utama
untuk deployment Cortex Framework. File ini menentukan parameter penting, termasuk project eksekusi target Google Cloud , set data BigQuery sumber dan tujuan, serta spesifikasi Dataform seperti nama repositori dan ruang kerja.
Bagian berikut memberikan perincian mendetail tentang struktur
config/config.yaml.
Lingkungan build
Project lingkungan build adalah project yang ditagih untuk tindakan build,
seperti tugas BigQuery (membaca DD03L).
buildEnvironment:
buildProjectId: YOUR_BUILD_PROJECT_ID
Tabel berikut menjelaskan parameter lingkungan build.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
buildEnvironment.buildProjectId |
Buat project ID | YOUR_BUILD_PROJECT_ID |
Google Cloud Project ID tempat operasi build dijalankan. |
Data
Bagian data: dari file konfigurasi menentukan sumber data, target, dan modul spesifik untuk fondasi data dan produk data.
Struktur umumnya adalah sebagai berikut:
data:
# Geographic location for BigQuery datasets (for example: US, EU, us-central1)
# For full list see: https://docs.cloud.google.com/cortex/docs/supported-locations
bigQueryLocation: US
# List of namespaces for data foundation and product modules.
namespaces:
- name: cortex
path: cortex
# List of source datasets.
sources:
- ...
# List of target datasets.
targets:
- ...
# Configuration for data foundation and product modules.
modules:
# List of foundation modules.
foundation:
- ...
# List of data product modules.
product:
- ...
Data: Lokasi BigQuery
Menentukan lokasi set data sumber dan target BigQuery.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
data.bigQueryLocation |
Lokasi BigQuery | US |
Lokasi set data BigQuery (misalnya, US, us-central1, atau europe-west1).
|
Data: Namespace Cortex
Menentukan namespace Cortex Framework.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
data.namespaces.name |
Nama namespace | - | Nama namespace Cortex Framework. Misalnya, cortex. |
data.namespaces.path |
Jalur namespace | - | Jalur namespace Cortex Framework untuk subdirektori yang digunakan dalam folder src dan config. Misalnya, cortex. |
Data: Sumber BigQuery dan set data target
Daftar sumber menentukan set data BigQuery tempat data mentah dari sistem sumber telah direplikasi atau di-streaming ke dalamnya.
Target menentukan daftar set data BigQuery tempat set data yang diproses Dataform akan disimpan.
Setiap sumber dan target dirujuk dari modul menggunakan ID uniknya.
# Data source and target mapping
sources:
- id: sap_raw
projectId: YOUR_SOURCE_PROJECT_ID
datasetId: cortex_sap_raw
targets:
- id: sap_foundation
projectId: YOUR_TARGET_PROJECT_ID
datasetId: cortex7_sap_data_foundation
Tabel berikut menjelaskan parameter pemetaan target dan sumber data.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
data.sources.id |
Source ID (ID Sumber) | - |
Menentukan 'id' untuk set data sumber yang akan diambil datanya. Misalnya, sap_raw. |
data.sources.projectId |
ID Project Sumber | YOUR_SOURCE_PROJECT_ID |
Merujuk ke Google Cloud Project ID dengan data sumber. |
data.sources.datasetId |
ID Set Data BigQuery Sumber | - |
Mereferensikan ID Set Data BigQuery dengan data sumber. Misalnya, cortex_sap_raw. |
data.targets.id |
ID Target | - | Menentukan 'id' untuk set data target. Misalnya, cortex_data_foundation. |
data.targets.projectId |
ID Project Target | YOUR_TARGET_PROJECT_ID |
Merujuk pada Google Cloud Project ID untuk data target. |
data.targets.datasetId |
ID Set Data BigQuery Target | - |
Mereferensikan ID Set Data BigQuery untuk data target. Misalnya, cortex_sap_data_foundation. |
Data: Modul
Modul menentukan struktur dan komponen pipeline data Dataform.
Data: Modul: Dasar
Bagian ini mengonfigurasi modul lapisan fondasi data yang memproses data dari lapisan mentah (aliran CDC) ke dalam representasi data sumber yang distandardisasi dan terbaru. Jika sumber menyediakan tampilan langsung pada data terbaru, atau transformasi tersebut dilakukan oleh konektor sistem sumber, modul dapat dikonfigurasi sebagai sumber fondasi data eksternal.
modules:
# List of foundation modules.
foundation:
# Unique identifier for the module instance.
- moduleId: erp
# Type of the module (namespaced, for example, cortex.sap).
type: cortex.sap
# Reference to the source dataset ID.
dataSourceId: sap_raw
# Reference to the target dataset ID.
dataTargetId: sap_foundation
# Module-specific configuration settings.
moduleSettings:
# SAP version (for example, ecc, s4).
sapVersion: ecc
# SAP client number.
mandt: "100"
# Whether the module is enabled.
# enabled: true
# Whether the foundation is external (does not create target dataset).
# external: false
# Path to the table settings configuration file.
# tableSettings: "config/data_foundation/sap/table_settings.yaml"
Tabel berikut menjelaskan parameter modul fondasi data untuk konfigurasi modules.foundation.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
moduleId |
ID Modul | erp |
ID unik untuk instance modul transformasi fondasi data tertentu. |
type |
Jenis Logika Modul | cortex.sap |
Menentukan logika bisnis atau template yang diterapkan (misalnya, pelanggan, sales_documents). |
dataSourceId |
Link Sumber | sap_raw |
Mereferensikan 'id' dari daftar data.sources untuk menarik data dari. |
dataTargetId |
Link Target | sap_foundation |
Mereferensikan 'id' dari daftar target untuk mengirim data ke. |
moduleSettings.sapVersion |
Versi Sistem SAP | ecc |
Hanya berlaku untuk sumber data SAP. Menentukan logika khusus sumber untuk sistem ecc (ECC) atau s4 (S/4HANA). |
moduleSettings.mandt |
Klien SAP (Mandant) | 100 |
Hanya berlaku untuk sumber data SAP. ID klien SAP 3 digit yang digunakan untuk memfilter baris data. |
enabled |
Pengaktifan modul | true |
Menentukan apakah modul diaktifkan. |
external |
Yayasan eksternal | false |
Menentukan apakah fondasinya eksternal (tidak membuat set data target). |
tableSettings |
Setelan tabel | config/cortex/data_foundation/{source_system}/table_settings.yaml |
Jalur ke file konfigurasi setelan tabel. |
Data: Modul: Produk data
Modul produk data menentukan agregasi, penghitungan, dan gabungan yang diperlukan untuk mengubah data mentah menjadi insight yang memenuhi kasus penggunaan bisnis tertentu.
Konfigurasi produk data memungkinkan penetapan ID unik, definisi dependensi, serta referensi modul fondasi data dan set data target tempat hasil akan disimpan.
Konfigurasi mendetail dari produk data tertentu ditentukan dalam file yang dirujuk
oleh kunci: tableSettings.
modules:
# List of data product modules.
product:
# Unique identifier for the data product instance.
- moduleId: sap_purchasing_organizations
# Type of the data product (namespaced).
type: cortex.purchasing_organizations
# Map of module dependencies.
dependsOn:
sapModule: erp
# Reference to the target dataset ID.
dataTargetId: product_target
# Whether the module is enabled.
# enabled: true
# Path to the table settings configuration file.
# tableSettings: "config/cortex/data_product/purchasing_organizations/table_settings.yaml"
Tabel berikut menjelaskan parameter modul produk data untuk konfigurasi
modules.product.
| Parameter | Arti | Nilai default | Deskripsi |
|---|---|---|---|
moduleId |
ID Modul | - | ID unik untuk instance modul transformasi tertentu. |
type |
Jenis Logika Modul | - | Menentukan logika bisnis atau template yang diterapkan, yang ditentukan di folder src/data_modules/{namespace}/data_product. |
dataTargetId |
Link Target | sap_foundation |
Mereferensikan 'id' dari daftar target untuk mengirim data ke. |
dependsOn |
Dependensi Upstream | sapModule: erp |
Menentukan modul dasar mana yang harus ada sebelum modul produk dapat dibuat. |
enabled |
Pengaktifan modul | true |
Menentukan apakah modul diaktifkan. |
tableSettings |
Setelan tabel | "config/{namespace}/data_product/data_product_name/table_settings.yaml" |
Jalur ke file konfigurasi setelan tabel. |
Lingkungan deployment
Cortex Framework menggunakan Dataform untuk mengatur transformasi SQL dalam BigQuery. Blok deployment:
menentukan konfigurasi Dataform, yang bertanggung jawab atas eksekusi
pipeline data, termasuk project repositori, lokasi, nama repositori, dan nama ruang kerja Dataform.
deployment:
targets:
- type: dataform
enabled: true
targetSettings:
repositoryProjectId: YOUR_REPO_PROJECT_ID
repositoryRegion: us-central1
repositoryName: cortex-repository
workspaceName: dev
Tabel berikut menjelaskan parameter lokasi target deployment
(deployment.targets:).
| Parameter | Arti | Nilai Default | Deskripsi | Google Cloud
|---|---|---|---|
type |
Jenis deployment | dataform |
Jenis target deployment. |
enabled |
Diaktifkan/ Dinonaktifkan | true |
Menentukan apakah target deployment tertentu diaktifkan atau dinonaktifkan. |
targetSettings.repositoryProjectId |
Project ID repositori | YOUR_REPO_PROJECT_ID |
ID Project Google Cloud tempat repositori Dataform dikelola. |
targetSettings.repositoryRegion |
Region repositori | us-central1 |
Region Google Cloud untuk repositori Dataform (misalnya, us-central1 atau europe-west1). |
targetSettings.repositoryName |
Nama repositori | cortex-repository |
Nama spesifik repositori Dataform. |
targetSettings.workspaceName |
Nama Workspace | dev |
Ruang kerja Dataform tertentu yang digunakan untuk siklus deployment. |