Passaggio 1: stabilisci i carichi di lavoro
Questa pagina ti guida nel passaggio iniziale della configurazione della base dati, il cuore di Cortex Framework. Basata sullo spazio di archiviazione di BigQuery, la base dati organizza i dati in entrata da varie origini. Questi dati organizzati semplificano l'analisi e la loro applicazione nello sviluppo dell'AI.
Configura l'integrazione dei dati
Per iniziare, definisci alcuni parametri chiave che fungano da progetto per organizzare e utilizzare i dati in modo efficiente all'interno di Cortex Framework. Tieni presente che questi parametri possono variare a seconda del carico di lavoro specifico, del flusso di dati scelto e del meccanismo di integrazione. Il seguente diagramma fornisce una panoramica dell'integrazione dei dati all'interno di Cortex Framework Data Foundation:

Definisci i seguenti parametri prima del deployment per un utilizzo efficiente ed efficace dei dati all'interno di Cortex Framework.
Progetti
- Progetto di origine: progetto in cui si trovano i dati non elaborati. Hai bisogno di al meno un Google Cloud progetto per archiviare i dati ed eseguire il processo di deployment.
- Progetto di destinazione (facoltativo): progetto in cui Cortex Framework Data Foundation archivia i modelli di dati elaborati. Può essere lo stesso del progetto di origine o uno diverso, a seconda delle tue esigenze.
Per scoprire di più su come creare un progetto e assicurarti di disporre dei ruoli richiesti per questi progetti, consulta la sezione dei prerequisiti .
Modello dei dati
- Esegui il deployment dei modelli: scegli se devi eseguire il deployment dei modelli per tutti i carichi di lavoro o solo per un set di modelli (ad esempio SAP, Salesforce e Meta). Per saperne di più, consulta Origini dati e carichi di lavoro disponibili.
Set di dati di BigQuery
- Set di dati di origine (non elaborati): set di dati BigQuery in cui vengono replicati i dati di origine o in cui vengono creati i dati di test. Il suggerimento è di avere set di dati separati, uno per ogni origine dati. Ad esempio, un set di dati non elaborati per SAP e un set di dati non elaborati per Google Ads. Questo set di dati appartiene al progetto di origine.
- Set di dati CDC: set di dati BigQuery in cui vengono inseriti i dati elaborati da CDC, ovvero gli ultimi record disponibili. Alcuni carichi di lavoro consentono la mappatura dei nomi dei campi. Ti consigliamo di avere un set di dati CDC separato per ogni origine. Ad esempio, un set di dati CDC per SAP e un set di dati CDC per Salesforce. Questo set di dati appartiene al progetto di origine.
- Set di dati di reporting di destinazione: set di dati BigQuery in cui vengono sottoposti a deployment i modelli di dati predefiniti di Data Foundation. Ti consigliamo di avere un set di dati di reporting separato per ogni origine. Ad esempio, un set di dati di reporting per SAP e un set di dati di reporting per Salesforce. Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di destinazione.
- Set di dati K9 di pre-elaborazione: set di dati BigQuery in cui è possibile eseguire il deployment di componenti DAG riutilizzabili e tra carichi di lavoro, come le dimensioni
time. I carichi di lavoro hanno una dipendenza da questo set di dati, a meno che non vengano modificati. Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di origine. - Set di dati K9 di post-elaborazione: set di dati BigQuery in cui è possibile eseguire il deployment di report tra carichi di lavoro e di DAG di origini esterne aggiuntive (ad esempio, l'importazione di Google Trends). Questo set di dati viene creato automaticamente durante il deployment, se non esiste. Questo set di dati appartiene al progetto di destinazione.
(Facoltativo) Genera dati di esempio
Cortex Framework può generare dati e tabelle di esempio se non hai accesso ai tuoi dati o agli strumenti di replica per configurare i dati, o anche se vuoi solo vedere come funziona Cortex Framework. Tuttavia, devi comunque creare e identificare in anticipo i set di dati CDC e non elaborati.
Crea set di dati BigQuery per i dati non elaborati e CDC per ogni origine dati, seguendo le istruzioni riportate di seguito.
Console
Apri la pagina BigQuery nella Google Cloud console.
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Espandi l'opzione Azioni e fai clic su Crea set di dati:
Nella pagina Crea set di dati:
- In ID set di dati, inserisci un nome univoco per il set di dati nome.
In Tipo di località, scegli una località geografica per il set di dati. Dopo la creazione di un set di dati, la località non può essere modificata.
(Facoltativo). Per maggiori dettagli sulla personalizzazione del set di dati, consulta Crea set di dati: console.
Fai clic su Crea set di dati.
BigQuery
Crea un nuovo set di dati per i dati non elaborati copiando il seguente comando:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAWSostituisci quanto segue:
LOCATIONcon la località del set di dati.SOURCE_PROJECTcon l'ID progetto di origine.DATASET_RAWcon il nome del set di dati per i dati non elaborati. Ad esempio,CORTEX_SFDC_RAW.
Crea un nuovo set di dati per i dati CDC copiando il seguente comando:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDCSostituisci quanto segue:
LOCATIONcon la località del set di dati.SOURCE_PROJECTcon l'ID progetto di origine.DATASET_CDCcon il nome del set di dati per i dati CDC. Ad esempio,CORTEX_SFDC_CDC.
Verifica che i set di dati siano stati creati con il seguente comando:
bq ls(Facoltativo). Per saperne di più sulla creazione di set di dati, consulta Crea set di dati.
Passaggi successivi
Dopo aver completato questo passaggio, procedi con i seguenti passaggi di deployment:
- Stabilisci i carichi di lavoro (questa pagina).
- Clona il repository.
- Determina il meccanismo di integrazione.
- Configura i componenti.
- Configura il deployment.
- Esegui il deployment.