Passaggio 1: stabilisci i carichi di lavoro

Questa pagina ti guida nel passaggio iniziale della configurazione della base dati, il cuore di Cortex Framework. Basata sullo spazio di archiviazione di BigQuery, la base dati organizza i dati in entrata da varie origini. Questi dati organizzati semplificano l'analisi e la loro applicazione nello sviluppo dell'AI.

Configura l'integrazione dei dati

Per iniziare, definisci alcuni parametri chiave che fungano da progetto per organizzare e utilizzare i dati in modo efficiente all'interno di Cortex Framework. Tieni presente che questi parametri possono variare a seconda del carico di lavoro specifico, del flusso di dati scelto e del meccanismo di integrazione. Il seguente diagramma fornisce una panoramica dell'integrazione dei dati all'interno di Cortex Framework Data Foundation:

Struttura per i parametri

Figura 1. Cortex Framework Data Foundation: panoramica dell'integrazione dei dati.

Definisci i seguenti parametri prima del deployment per un utilizzo efficiente ed efficace dei dati all'interno di Cortex Framework.

Progetti

Progetto di origine: progetto in cui si trovano i dati non elaborati. Hai bisogno di al meno un Google Cloud progetto per archiviare i dati ed eseguire il processo di deployment.
Progetto di destinazione (facoltativo): progetto in cui Cortex Framework Data Foundation archivia i modelli di dati elaborati. Può essere lo stesso del progetto di origine o uno diverso, a seconda delle tue esigenze.

Per scoprire di più su come creare un progetto e assicurarti di disporre dei ruoli richiesti per questi progetti, consulta la sezione dei prerequisiti .

Modello dei dati

Esegui il deployment dei modelli: scegli se devi eseguire il deployment dei modelli per tutti i carichi di lavoro o solo per un set di modelli (ad esempio SAP, Salesforce e Meta). Per saperne di più, consulta Origini dati e carichi di lavoro disponibili.

Set di dati di BigQuery

Set di dati di origine (non elaborati): set di dati BigQuery in cui vengono replicati i dati di origine o in cui vengono creati i dati di test. Il suggerimento è di avere set di dati separati, uno per ogni origine dati. Ad esempio, un set di dati non elaborati per SAP e un set di dati non elaborati per Google Ads. Questo set di dati appartiene al progetto di origine.
Set di dati CDC: set di dati BigQuery in cui vengono inseriti i dati elaborati da CDC, ovvero gli ultimi record disponibili. Alcuni carichi di lavoro consentono la mappatura dei nomi dei campi. Ti consigliamo di avere un set di dati CDC separato per ogni origine. Ad esempio, un set di dati CDC per SAP e un set di dati CDC per Salesforce. Questo set di dati appartiene al progetto di origine.
Set di dati di reporting di destinazione: set di dati BigQuery in cui vengono sottoposti a deployment i modelli di dati predefiniti di Data Foundation. Ti consigliamo di avere un set di dati di reporting separato per ogni origine. Ad esempio, un set di dati di reporting per SAP e un set di dati di reporting per Salesforce. Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di destinazione.
Set di dati K9 di pre-elaborazione: set di dati BigQuery in cui è possibile eseguire il deployment di componenti DAG riutilizzabili e tra carichi di lavoro, come le dimensioni time. I carichi di lavoro hanno una dipendenza da questo set di dati, a meno che non vengano modificati. Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di origine.
Set di dati K9 di post-elaborazione: set di dati BigQuery in cui è possibile eseguire il deployment di report tra carichi di lavoro e di DAG di origini esterne aggiuntive (ad esempio, l'importazione di Google Trends). Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di destinazione.

(Facoltativo) Genera dati di esempio

Cortex Framework può generare dati e tabelle di esempio se non hai accesso ai tuoi dati o agli strumenti di replica per configurare i dati, o anche se vuoi solo vedere come funziona Cortex Framework. Tuttavia, devi comunque creare e identificare in anticipo i set di dati CDC e non elaborati.

Crea set di dati BigQuery per i dati non elaborati e CDC per ogni origine dati, seguendo le istruzioni riportate di seguito.

Console

Apri la pagina BigQuery nella Google Cloud console.

Vai alla pagina BigQuery
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Espandi l'opzione Azioni e fai clic su Crea set di dati:
Nella pagina Crea set di dati:
- In ID set di dati, inserisci un nome univoco per il set di dati nome.
- In Tipo di località, scegli una località geografica per il set di dati. Dopo la creazione di un set di dati, la località non può essere modificata.
  
  Nota: se scegli EU o una regione con sede nell'UE per la località del set di dati, i dati dei clienti di Core Cortex Framework risiedono nell'UE. I dati dei clienti di Core Cortex Framework sono definiti nei Termini specifici del servizio.
- (Facoltativo). Per maggiori dettagli sulla personalizzazione del set di dati, consulta Crea set di dati: console.
Fai clic su Crea set di dati.

BigQuery

Crea un nuovo set di dati per i dati non elaborati copiando il seguente comando:
```
   bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
```
Sostituisci quanto segue:
- LOCATION con la località del set di dati.
- SOURCE_PROJECT con l'ID progetto di origine.
- DATASET_RAW con il nome del set di dati per i dati non elaborati. Ad esempio, CORTEX_SFDC_RAW.
Crea un nuovo set di dati per i dati CDC copiando il seguente comando:
```
  bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
```
Sostituisci quanto segue:
- LOCATION con la località del set di dati.
- SOURCE_PROJECT con l'ID progetto di origine.
- DATASET_CDC con il nome del set di dati per i dati CDC. Ad esempio, CORTEX_SFDC_CDC.
Verifica che i set di dati siano stati creati con il seguente comando:
```
    bq ls
```
(Facoltativo). Per saperne di più sulla creazione di set di dati, consulta Crea set di dati.

Passaggi successivi

Dopo aver completato questo passaggio, procedi con i seguenti passaggi di deployment:

Stabilisci i carichi di lavoro (questa pagina).
Clona il repository.
Determina il meccanismo di integrazione.
Configura i componenti.
Configura il deployment.
Esegui il deployment.