Puedes crear almacenes de datos a partir de tablas de BigQuery de dos maneras:
Transferencia única: Importas datos de una tabla de BigQuery a un almacén de datos. Los datos del almacén de datos no cambian, a menos que actualices los datos de forma manual.
Ingesta periódica: Importas datos de una o más tablas de BigQuery y estableces una frecuencia de sincronización que determina con qué frecuencia se actualizan los almacenes de datos con los datos más recientes del conjunto de datos de BigQuery.
En la siguiente tabla, se comparan las dos formas en que puedes importar datos de BigQuery a los almacenes de datos de Gemini Enterprise.
Transferencia única | Transferencia periódica |
---|---|
Disponible de forma general (DG). | Versión preliminar pública. |
Los datos se deben actualizar manualmente. | Los datos se actualizan automáticamente cada 1, 3 o 5 días. Los datos no se pueden actualizar manualmente. |
Gemini Enterprise crea un solo almacén de datos a partir de una tabla en BigQuery. | Gemini Enterprise crea un conector de datos para un conjunto de datos de BigQuery y un almacén de datos (llamado almacén de datos de entidades) para cada tabla especificada. Para cada conector de datos, las tablas deben tener el mismo tipo de datos (por ejemplo, estructurados) y estar en el mismo conjunto de datos de BigQuery. |
Los datos de varias tablas se pueden combinar en un almacén de datos. Para ello, primero se deben transferir los datos de una tabla y, luego, más datos de otra fuente o tabla de BigQuery. | Dado que no se admite la importación manual de datos, los datos de un almacén de datos de entidades solo pueden provenir de una tabla de BigQuery. |
Se admite el control de acceso a la fuente de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos no se respetarán. |
Puedes crear un almacén de datos con la consola deGoogle Cloud o la API. | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades. |
Cumple con los requisitos de la CMEK. | Cumple con los requisitos de la CMEK. |
Importa una vez desde BigQuery
Para transferir datos desde una tabla de BigQuery, sigue estos pasos para crear un almacén de datos y transferir datos con la consola de Google Cloud o la API.
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
Console
Para usar la Google Cloud consola y transferir datos desde BigQuery, sigue estos pasos:
En la consola de Google Cloud , ve a la página Gemini Enterprise.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Selecciona una fuente de datos, selecciona BigQuery.
Selecciona el tipo de datos que importarás.
Haz clic en Una vez.
En el campo Ruta de acceso de BigQuery, haz clic en Explorar, selecciona una tabla que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery.
Haz clic en Continuar.
Si vas a importar datos estructurados por única vez, haz lo siguiente:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.
Para obtener más información, consulta Acerca de la detección y edición automáticas.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Ingresa un nombre para tu almacén de datos.
Haz clic en Crear.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
REST
Para usar la línea de comandos para crear un almacén de datos y, luego, importar datos de BigQuery, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"] }'
Reemplaza lo siguiente:
PROJECT_ID
: el ID de tu proyecto.DATA_STORE_ID
: Es el ID del almacén de datos que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: Es el nombre visible del almacén de datos que deseas crear.
Opcional: Si subes datos no estructurados y deseas configurar el análisis de documentos o activar la división en fragmentos de documentos para la RAG, especifica el objeto
documentProcessingConfig
y agrégalo a tu solicitud de creación del almacén de datos. Se recomienda configurar un analizador de OCR para los PDFs si ingieres PDFs escaneados. Para obtener información sobre cómo configurar las opciones de análisis o fragmentación, consulta Analiza y fragmenta documentos.Importa datos de BigQuery.
Si definiste un esquema, asegúrate de que los datos se ajusten a él.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Reemplaza lo siguiente:
PROJECT_ID
: el ID de tu proyecto.DATA_STORE_ID
: Es el ID del almacén de datos.DATASET_ID
: Es el ID del conjunto de datos de BigQuery.TABLE_ID
: Es el ID de la tabla de BigQuery.- Si la tabla de BigQuery no está en
PROJECT_ID
, debes otorgar a la cuenta de servicioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
permiso de "Visualizador de datos de BigQuery" para la tabla de BigQuery. Por ejemplo, si importas una tabla de BigQuery del proyecto fuente "123" al proyecto de destino "456", otorga permisos deservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
para la tabla de BigQuery en el proyecto "123".
- Si la tabla de BigQuery no está en
DATA_SCHEMA
: es opcional. Los valores sondocument
ycustom
. El valor predeterminado esdocument
.document
: La tabla de BigQuery que uses debe cumplir con el esquema predeterminado de BigQuery que se proporciona en Cómo preparar los datos para la transferencia. Puedes definir el ID de cada documento tú mismo y, al mismo tiempo, encapsular todos los datos en la cadena jsonData.custom
: Se acepta cualquier esquema de tabla de BigQuery, y Gemini Enterprise genera automáticamente los IDs de cada documento que se importa.
ERROR_DIRECTORY
: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo,gs://<your-gcs-bucket>/directory/import_errors
. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.RECONCILIATION_MODE
: es opcional. Los valores sonFULL
yINCREMENTAL
. El valor predeterminado esINCREMENTAL
. Si especificasINCREMENTAL
, se produce una actualización incremental de los datos de BigQuery en tu almacén de datos. Esta acción realiza una operación de upsert, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. Si especificasFULL
, se realizará una nueva base completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan de él los documentos que no están en BigQuery. El modoFULL
es útil si quieres borrar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS
: es opcional. Especifica si se deben generar automáticamente IDs de documentos. Si se configura comotrue
, los IDs de documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documentos generados no sigan siendo coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda establecerreconciliationMode
enFULL
para mantener IDs de documentos coherentes.Especifica
autoGenerateIds
solo cuandobigquerySource.dataSchema
se establece encustom
. De lo contrario, se muestra un errorINVALID_ARGUMENT
. Si no especificasautoGenerateIds
o lo configuras comofalse
, debes especificaridField
. De lo contrario, no se podrán importar los documentos.ID_FIELD
: es opcional. Especifica qué campos son los IDs de documento. En el caso de los archivos fuente de BigQuery,idField
indica el nombre de la columna en la tabla de BigQuery que contiene los IDs de documentos.Especifica
idField
solo cuando (1)bigquerySource.dataSchema
se establece encustom
y (2)auto_generate_ids
se establece enfalse
o no se especifica. De lo contrario, se muestra un errorINVALID_ARGUMENT
.El valor del nombre de la columna de BigQuery debe ser de tipo cadena, tener entre 1 y 63 caracteres, y cumplir con RFC-1034. De lo contrario, no se podrán importar los documentos.
Conéctate a BigQuery con la sincronización periódica
Antes de importar tus datos, consulta Prepara los datos para la transferencia.
En el siguiente procedimiento, se describe cómo crear un almacén de datos de BigQuery que sincronice periódicamente los datos de un conjunto de datos de BigQuery. Si tu conjunto de datos tiene varias tablas, puedes agregarlas al almacén de datos de BigQuery que estás creando. Cada tabla que agregas se conoce como entidad. Gemini Enterprise crea un almacén de datos independiente para cada entidad. Por lo tanto, cuando creas el almacén de datos con la consola de Google Cloud , obtienes una colección de almacenes de datos que representan estas entidades de datos transferidas.
Los datos del conjunto de datos se sincronizan periódicamente con los almacenes de datos de la entidad. Puedes especificar la sincronización diaria, cada tres días o cada cinco días.
Console
Para crear un almacén de datos que sincronice periódicamente los datos de un conjunto de datos de BigQuery en Gemini Enterprise, sigue estos pasos:
En la consola de Google Cloud , ve a la página Gemini Enterprise.
En el menú de navegación, haz clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona el tipo de datos que importarás.
Haz clic en Periódico.
Selecciona la Frecuencia de sincronización, es decir, la frecuencia con la que deseas que el conector de Gemini Enterprise se sincronice con el conjunto de datos de BigQuery. Puedes cambiar la frecuencia más adelante.
En el campo Ruta de acceso al conjunto de datos de BigQuery, haz clic en Explorar, selecciona el conjunto de datos que contiene las tablas que preparaste para la transferencia. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery. El formato de la ruta es
projectname.datasetname
.En el campo Tablas para sincronizar, haz clic en Explorar y, luego, selecciona una tabla que contenga los datos que deseas para tu almacén de datos.
Si hay tablas adicionales en el conjunto de datos que deseas usar para los almacenes de datos, haz clic en Agregar tabla y especifica también esas tablas.
Haz clic en Continuar.
Elige una región para tu almacén de datos, ingresa un nombre para tu conector de datos y haz clic en Crear.
Ahora creaste un conector de datos que sincronizará periódicamente los datos con el conjunto de datos de BigQuery. Además, creaste uno o más almacenes de datos de entidades. Los almacenes de datos tienen los mismos nombres que las tablas de BigQuery.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector de datos para ver los detalles en la página Datos > pestaña Actividad de transferencia de datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Completado, se habrá completado la primera transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Después de configurar tu fuente de datos y de importar datos por primera vez, el almacén de datos sincroniza los datos de esa fuente con la frecuencia que selecciones durante la configuración. La primera sincronización se produce aproximadamente una hora después de que se crea el conector de datos. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.
Próximos pasos
Para adjuntar tu almacén de datos a una app, crea una app y selecciona tu almacén de datos con los pasos que se indican en Crea una app de búsqueda.
Para obtener una vista previa de cómo aparecerán los resultados de la búsqueda después de configurar tu app y tu almacén de datos, consulta Obtén una vista previa de los resultados de la búsqueda.