Passaggio 5: configura il deployment
Questa pagina descrive il quinto passaggio per il deployment di Cortex Framework Data Foundation, il componente principale di Cortex Framework. In questo passaggio, modifichi il file di configurazione nel repository Data Foundation di Cortex Framework in base ai tuoi requisiti.
File di configurazione
Il comportamento del deployment è controllato dal file di configurazione config.json
nella base dati di Cortex Framework. Questo file contiene la configurazione globale e quella specifica per ogni workload.
Modifica il file config.json in base alle tue esigenze seguendo questi passaggi:
- Apri il file
config.jsonda Cloud Shell. Modifica il file
config.jsonin base ai seguenti parametri:Parametro Significato Valore predefinito Descrizione testDataEsegui il deployment dei dati di test trueProgetto in cui si trova il set di dati di origine e in cui vengono eseguite le build. Nota: il deployment dei dati di test verrà eseguito solo se il set di dati non elaborato è vuoto e non contiene tabelle. deploySAPEsegui il deployment di SAP trueEsegui il deployment per il workload SAP (ECC o S/4 HANA). deploySFDCEsegui il deployment di Salesforce trueEsegui il deployment per il carico di lavoro Salesforce. deployMarketingDeploy Marketing trueEsegui il deployment per le origini di marketing (Google Ads, CM360 e TikTok). deployOracleEBSEsegui il deployment di Oracle EBS trueEsegui il deployment per il workload Oracle EBS. deployDataMeshEsegui il deployment di Data Mesh trueEsegui il deployment per Data Mesh. Per ulteriori informazioni, consulta la Guida dell'utente di Data Mesh. enableTaskDependenciesDAG dipendenti dalle attività falseAttiva i DAG dipendenti dalle attività in modo che le tabelle SQL supportate vengano eseguite in base all'ordine di dipendenza all'interno di singoli DAG. Per maggiori informazioni, vedi DAG dipendenti dalle attività. turboModeEsegui il deployment in modalità Turbo. trueEsegui tutte le build delle visualizzazioni come passaggio nello stesso processo Cloud Build, in parallelo per un deployment più rapido. Se impostato su false, ogni visualizzazione dei report viene generata in un passaggio di build sequenziale separato. Ti consigliamo di impostarlo sutruesolo quando utilizzi dati di test o dopo aver risolto eventuali discrepanze tra le colonne dei report e i dati di origine.projectIdSourceID progetto di origine - Progetto in cui si trova il set di dati di origine e in cui vengono eseguite le build. projectIdTargetID progetto di destinazione - Progetto di destinazione per i set di dati rivolti agli utenti. targetBucketBucket di destinazione in cui archiviare gli script DAG generati - Bucket creato in precedenza in cui vengono generati i DAG (e i file temporanei di Dataflow). Evita di utilizzare il bucket Airflow effettivo. locationLocalità o regione "US"Posizione in cui si trovano il set di dati BigQuery e i bucket Cloud Storage. Consulta le limitazioni elencate in Località dei set di dati BigQuery.
testDataProjectOrigine per test harness kittycorn-publicOrigine dei dati di test per le implementazioni demo. Si applica quando testDataètrue.Non modificare questo valore, a meno che tu non disponga di un harness di test personalizzato.
k9.datasets.processingSet di dati K9 - Elaborazione "K9_PROCESSING"Esegui modelli cross-workload (ad esempio, la dimensione data) come definito nel file di configurazione K9. Questi modelli sono normalmente richiesti dai workload downstream. k9.datasets.reportingSet di dati K9 - Report "K9_REPORTING"Esegui modelli cross-workload e origini dati esterne (ad esempio: meteo) come definito nel file di configurazione K9. Commentato per impostazione predefinita. DataMesh.deployDescriptionsData Mesh - Asset descriptions trueEsegui il deployment delle descrizioni dello schema degli asset BigQuery. DataMesh.deployLakesData mesh - Data lake e zone falseIl deployment di lake e zone di Dataplex Universal Catalog che organizzano le tabelle per livello di elaborazione richiede la configurazione prima dell'attivazione. DataMesh.deployCatalogData Mesh - Catalog Tags and Templates falseIl deployment dei tag Data Catalog che consentono metadati personalizzati su asset o campi BigQuery richiede la configurazione prima dell'attivazione. DataMesh.deployACLsData Mesh - Controllo dell'accesso falseEsegui il deployment controllo dell'accesso a livello di asset, riga o colonna sugli asset BigQuery. Richiede la configurazione prima dell'attivazione. Configura i workload richiesti in base alle esigenze. Non è necessario configurarli se il parametro di deployment (ad esempio
deploySAPodeployMarketing) per il workload è impostato suFalse. Per saperne di più, vedi Passaggio 3: determina il meccanismo di integrazione.
Per una migliore personalizzazione del deployment, consulta i seguenti passaggi facoltativi:
- Disattivazione della telemetria.
- Configurazione dei set di dati esterni per K9.
- Controlla la presenza di tag
CORTEX-CUSTOMER.
Ottimizzazione del rendimento per le visualizzazioni dei report
Gli artefatti di reporting possono essere creati come viste o come tabelle aggiornate regolarmente tramite i DAG. Da un lato, le viste calcolano i dati a ogni esecuzione di una query, il che mantiene i risultati sempre aggiornati. D'altra parte, la tabella esegue i calcoli una sola volta e i risultati possono essere interrogati più volte senza incorrere in costi di calcolo più elevati e ottenendo un runtime più rapido. Ogni cliente crea la propria configurazione in base alle proprie esigenze.
I risultati materializzati vengono aggiornati in una tabella. Queste tabelle possono essere ottimizzate ulteriormente aggiungendo partizionamento e clustering.
I file di configurazione per ogni workload si trovano nei seguenti percorsi all'interno del repository Cortex Framework Data Foundation:
| Origine dati | File di impostazioni |
| Operativo - SAP | src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
|
| Operativo - Salesforce Sales Cloud | src/SFDC/config/reporting_settings.yaml
|
| Operativo - Oracle EBS | src/oracleEBS/config/reporting_settings.yaml
|
| Marketing - Google Ads | src/marketing/src/GoogleAds/config/reporting_settings.yaml
|
| Marketing - CM360 | src/marketing/src/CM360/config/reporting_settings.yaml
|
| Marketing - Meta | src/marketing/src/Meta/config/reporting_settings.yaml
|
| Marketing - Salesforce Marketing Cloud | src/marketing/src/SFMC/config/reporting_settings.yaml
|
| Marketing - TikTok | src/marketing/src/TikTok/config/reporting_settings.yaml
|
| Marketing - YouTube (con DV360) | src/marketing/src/DV360/config/reporting_settings.yaml
|
| Marketing - Google Analytics 4 | src/marketing/src/GA4/config/reporting_settings.yaml
|
| Marketing - Approfondimenti cross-media e sui prodotti connessi | src/marketing/src/CrossMedia/config/reporting_settings.yaml
|
Personalizzare il file delle impostazioni dei report
I file reporting_settings determinano la modalità di creazione degli oggetti BigQuery
(tabelle o viste) per i set di dati dei report. Personalizza il file con
le seguenti descrizioni dei parametri. Tieni presente che questo file contiene due sezioni:
bq_independent_objects: Tutti gli oggetti BigQuery che possono essere creati in modo indipendente, senza altre dipendenze. QuandoTurbo modeè abilitato, questi oggetti BigQuery vengono creati in parallelo durante il tempo di deployment, velocizzando il processo di deployment.bq_dependent_objects: tutti gli oggetti BigQuery che devono essere creati in un ordine specifico a causa delle dipendenze da altri oggetti BigQuery.Turbo modenon si applica a questa sezione.
Il programma di deployment crea prima tutti gli oggetti BigQuery elencati
in bq_independent_objects e poi tutti gli oggetti elencati in
bq_dependent_objects. Definisci le seguenti proprietà per ogni oggetto:
sql_file: il nome del file SQL che crea un determinato oggetto.type: tipo di oggetto BigQuery. Valori possibili:view: se vuoi che l'oggetto sia una vista BigQuery.table: se vuoi che l'oggetto sia una tabella BigQuery.script: serve per creare altri tipi di oggetti (ad esempio, funzioni BigQuery e procedure archiviate).
- Se
typeè impostato sutable, è possibile definire le seguenti proprietà facoltative:load_frequency: frequenza con cui viene eseguito un DAG Composer per aggiornare questa tabella. Per informazioni dettagliate sui valori possibili, consulta la documentazione di Airflow.partition_details: come deve essere partizionata la tabella. Questo valore è facoltativo. Per ulteriori informazioni, consulta la sezione Partizione della tabella.cluster_details: Come deve essere raggruppata la tabella. Questo valore è facoltativo. Per saperne di più, consulta la sezione Impostazioni cluster.
Partizione della tabella
Alcuni file di impostazioni consentono di configurare tabelle materializzate con opzioni di clustering e partizionamento personalizzate. Ciò può migliorare significativamente le prestazioni delle query per set di dati di grandi dimensioni. Questa opzione si applica solo ai file SAP cdc_settings.yaml
e a tutti i file reporting_settings.yaml.
Il partizionamento delle tabelle può essere attivato specificando quanto seguepartition_details:
- base_table: vbap
load_frequency: "@daily"
partition_details: {
column: "erdat", partition_type: "time", time_grain: "day" }
Utilizza i seguenti parametri per controllare i dettagli del partizionamento per una determinata tabella:
| Proprietà | Descrizione | Valore |
column
|
Colonna in base alla quale è partizionata la tabella CDC. | Nome della colonna. |
partition_type
|
Tipo di partizione. | "time" per la partizione basata sul tempo. Per ulteriori informazioni, vedi Tabelle partizionate in base al timestamp.
"integer_range" per la partizione basata su numeri interi. Per saperne di più, consulta la documentazione sull'intervallo di numeri interi.
|
time_grain
|
Parte dell'ora da partizionare
Obbligatorio quando partition_type = "time".
|
"hour", "day", "month" o "year".
|
integer_range_bucket
|
Intervallo del bucket
Obbligatorio quando partition_type = "integer_range"
|
"start" = Valore iniziale,
"end" = Valore finale e "interval" = Intervallo dell'intervallo.
|
Per ulteriori informazioni sulle opzioni e sulle limitazioni correlate, consulta Partizione della tabella BigQuery.
Impostazioni cluster
Il clustering delle tabelle può essere abilitato specificando cluster_details:
- base_table: vbak
load_frequency: "@daily"
cluster_details: {columns: ["vkorg"]}
Utilizza i seguenti parametri per controllare i dettagli del cluster per una determinata tabella:
| Proprietà | Descrizione | Valore |
columns
|
Colonne in base alle quali è raggruppata una tabella. | Elenco dei nomi delle colonne. Ad esempio,
"mjahr" e "matnr".
|
Per saperne di più sulle opzioni e sulle limitazioni correlate, consulta la documentazione sui cluster di tabelle.
Passaggi successivi
Dopo aver completato questo passaggio, vai al passaggio di deployment successivo:
- Stabilire i carichi di lavoro.
- Clona il repository.
- Determinare il meccanismo di integrazione.
- Configura i componenti.
- Configura il deployment (questa pagina).
- Esegui il deployment.