Paso 1: Establece las cargas de trabajo

En esta página, se te guiará por el paso inicial para configurar tu base de datos, que es el núcleo de Cortex Framework. La base de datos, que se basa en el almacenamiento de BigQuery, organiza los datos entrantes de varias fuentes. Estos datos organizados simplifican el análisis y su aplicación en el desarrollo de IA.

Configura la integración de datos

Para comenzar, define algunos parámetros clave que actúen como un plan para organizar y usar tus datos de manera eficiente en Cortex Framework. Recuerda que estos parámetros pueden variar según la carga de trabajo específica, el flujo de datos elegido y el mecanismo de integración. En el siguiente diagrama, se proporciona una descripción general de la integración de datos en Cortex Framework Data Foundation:

Estructura de los parámetros

Figura 1. Cortex Framework Data Foundation: Descripción general de la integración de datos

Define los siguientes parámetros antes de la implementación para un uso eficiente y eficaz de los datos en Cortex Framework.

Proyectos

Proyecto de origen: Es el proyecto en el que residen tus datos sin procesar. Necesitas al menos un Google Cloud proyecto para almacenar datos y ejecutar el proceso de implementación.
Proyecto de destino (opcional): Es el proyecto en el que Cortex Framework Data Foundation almacena sus modelos de datos procesados. Puede ser el mismo que el proyecto de origen o uno diferente según tus necesidades.

Para obtener más información sobre cómo crear un proyecto y asegurarte de tener los roles necesarios en esos proyectos, consulta la sección de requisitos previos.

Modelo de datos

Implementar modelos: Elige si necesitas implementar modelos para todas las cargas de trabajo o solo un conjunto de modelos (por ejemplo, SAP, Salesforce y Meta). Para obtener más información, consulta las fuentes de datos y las cargas de trabajo disponibles.

Conjuntos de datos de BigQuery

Conjunto de datos de origen (sin procesar): Es el conjunto de datos de BigQuery en el que se replican los datos de origen o en el que se crean los datos de prueba. Se recomienda tener conjuntos de datos independientes, uno para cada fuente de datos. Por ejemplo, un conjunto de datos sin procesar para SAP y otro para Google Ads. Este conjunto de datos pertenece al proyecto de origen.
Conjunto de datos de CDC: Es el conjunto de datos de BigQuery en el que los datos procesados de CDC contienen los registros disponibles más recientes. Algunas cargas de trabajo permiten la asignación de nombres de campos. Se recomienda tener un conjunto de datos de CDC independiente para cada fuente. Por ejemplo, un conjunto de datos de CDC para SAP y otro para Salesforce. Este conjunto de datos pertenece al proyecto de origen.
Conjunto de datos de informes de destino: Es el conjunto de datos de BigQuery en el que se implementan los modelos de datos predefinidos de Data Foundation. Recomendamos tener un conjunto de datos de informes independiente para cada fuente. Por ejemplo, un conjunto de datos de informes para SAP y otro para Salesforce. Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto de destino.
Conjunto de datos K9 de preprocesamiento: Es el conjunto de datos de BigQuery en el que se pueden implementar componentes DAG reutilizables y de cargas de trabajo cruzadas, como las dimensiones time. Las cargas de trabajo tienen una dependencia de este conjunto de datos, a menos que se modifiquen. Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto de origen.
Conjunto de datos K9 de posprocesamiento: Es el conjunto de datos de BigQuery en el que se pueden implementar informes de cargas de trabajo cruzadas y DAG de fuentes externas adicionales (por ejemplo, la transferencia de datos de Google Trends). Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto de destino.

Opcional: Genera datos de muestra

Cortex Framework puede generar datos y tablas de muestra por ti si no tienes acceso a tus propios datos, herramientas de replicación para configurar datos o incluso si solo quieres ver cómo funciona Cortex Framework. Sin embargo, debes crear e identificar los conjuntos de datos de CDC y sin procesar con anticipación.

Crea conjuntos de datos de BigQuery para datos sin procesar y CDC por fuente de datos con las siguientes instrucciones.

Console

Abre la página de BigQuery en la Google Cloud console.

Ir a la página de BigQuery
En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
Expande la opción Acciones y haz clic en Crear conjunto de datos:
En la página Crear conjunto de datos:
- En ID de conjunto de datos, ingresa un nombre único para el conjunto de datos nombre.
- En Tipo de ubicación, elige una ubicación geográfica para el conjunto de datos. Después de crear un conjunto de datos, la ubicación no se puede cambiar.
  
  Nota: Si eliges EU o una región dentro de la UE para la ubicación del conjunto de datos, tus datos principales del cliente de Cortex Framework residirán en esa región. Los datos principales del cliente de Cortex Framework se definen en las Condiciones específicas del servicio.
- Opcional. Para obtener más detalles de personalización de tu conjunto de datos, consulta Crea conjuntos de datos: Console.
Haz clic en Crear conjunto de datos.

BigQuery

Para crear un conjunto de datos nuevo para datos sin procesar, copia el siguiente comando:
```
   bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
```
Reemplaza lo siguiente:
- LOCATION con la ubicación del conjunto de datos.
- SOURCE_PROJECT por el ID del proyecto de origen
- DATASET_RAW por el nombre del conjunto de datos para datos sin procesar Por ejemplo, CORTEX_SFDC_RAW
Para crear un conjunto de datos nuevo para datos de CDC, copia el siguiente comando:
```
  bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
```
Reemplaza lo siguiente:
- LOCATION con la ubicación del conjunto de datos.
- SOURCE_PROJECT por el ID del proyecto de origen
- DATASET_CDC por el nombre del conjunto de datos para datos de CDC Por ejemplo, CORTEX_SFDC_CDC
Confirma que se hayan creado los conjuntos de datos con el siguiente comando:
```
    bq ls
```
Opcional. Para obtener más información sobre la creación de conjuntos de datos, consulta Crea conjuntos de datos.

Próximos pasos

Después de completar este paso, continúa con los siguientes pasos de implementación:

Establece las cargas de trabajo (esta página).
Clona el repositorio.
Determina el mecanismo de integración.
Configura los componentes.
Configura la implementación.
Ejecuta la implementación.