Puedes crear almacenes de datos a partir de tablas de Cloud Storage de dos maneras:
Transferencia única: Importas datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian a menos que los actualices de forma manual.
Transferencia periódica: Importas datos de una carpeta o un archivo de Cloud Storage y estableces una frecuencia de sincronización que determina con qué frecuencia se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.
En la siguiente tabla, se comparan las dos formas en que puedes importar datos de Cloud Storage a los almacenes de datos de Gemini Enterprise.
| Transferencia única | Transferencia periódica |
|---|---|
| Disponible para el público general (DG). | Versión preliminar pública. |
| Los datos se deben actualizar de forma manual. | Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar de forma manual. |
| Gemini Enterprise crea un solo almacén de datos a partir de una carpeta o un archivo en Cloud Storage. | Gemini Enterprise crea un conector de datos y le asocia un almacén de datos (llamado almacén de datos de entidad) para el archivo o la carpeta que se especifica. Cada conector de datos de Cloud Storage puede tener un solo almacén de datos de entidad. |
| Los datos de varios archivos, carpetas y buckets se pueden combinar en un almacén de datos. Para ello, primero se transfieren datos de una ubicación de Cloud Storage y, luego, más datos de otra ubicación. | Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo se pueden obtener de un archivo o una carpeta de Cloud Storage. |
| Se admite el control de acceso a la fuente de datos. Para obtener más información, consulta Control de acceso a la fuente de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán. |
| Puedes crear un almacén de datos con la Google Cloud consola o la API. | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidad. |
| Compatible con CMEK. | Compatible con CMEK. |
Antes de comenzar
Para importar datos de un proyecto de origen que sea diferente del proyecto con el almacén de datos de Gemini Enterprise, otorga los siguientes roles de Identity and Access Management (IAM) a la cuenta de servicio en el proyecto que contiene el almacén de datos de Gemini Enterprise: Google Cloud Google Cloud service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
- Administrador de objetos de almacenamiento (
roles/storage.objectAdmin) - Visualizador de objetos de Storage (
roles/storage.objectViewer)
Importa una vez desde Cloud Storage
Para transferir datos desde Cloud Storage, sigue estos pasos para crear un almacén de datos y transferir datos con la Google Cloud consola o la API.
Antes de importar tus datos, revisa Prepara los datos para la transferencia.
Console
Para usar la consola y transferir datos desde un bucket de Cloud Storage, sigue estos pasos:
En la Google Cloud consola de, ve a la página Gemini Enterprise.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Selecciona una fuente de datos, elige Cloud Storage.
En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.
Haz clic en Explorar , elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo
gs://.Selecciona el tipo de datos que importarás.
Haz clic en Continuar.
Si realizas una importación única de datos estructurados, haz lo siguiente:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.
Para obtener más información, consulta Acerca de la detección automática y la edición.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Ingresa un nombre para tu almacén de datos.
Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analiza documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costos adicionales. Consulta Precios de las funciones de Document AI.
Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones de analizador que deseas usar.
Haz clic en Crear.
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
REST
Para usar la línea de comandos para crear un almacén de datos y transferir datos desde Cloud Storage, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_SEARCH"], "contentConfig": "CONTENT_REQUIRED", }'Reemplaza lo siguiente:
PROJECT_ID: el ID de tu proyecto.DATA_STORE_ID: el ID del almacén de datos que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos que deseas crear.
Opcional: Para configurar el análisis de documentos o activar la fragmentación de documentos para RAG, especifica el
documentProcessingConfigobjeto y lo incluye en tu solicitud de creación del almacén de datos. Se recomienda configurar un analizador de OCR para archivos PDF si transfieres archivos PDF escaneados. Para obtener información sobre cómo configurar opciones de análisis o fragmentación, consulta Analiza y fragmenta documentos.Importa datos desde Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Reemplaza lo siguiente:
PROJECT_ID: el ID de tu proyecto.DATA_STORE_ID: el ID del almacén de datos.INPUT_FILE_PATTERN: un patrón de archivo en Cloud Storage que contiene tus documentos.Para datos estructurados o datos no estructurados con metadatos, un ejemplo del patrón de archivo de entrada es
gs://<your-gcs-bucket>/directory/object.jsony un ejemplo de coincidencia de patrones con uno o más archivos esgs://<your-gcs-bucket>/directory/*.json.Para documentos no estructurados, un ejemplo es
gs://<your-gcs-bucket>/directory/*.pdf. Cada archivo que coincide con el patrón se convierte en un documento.Si
<your-gcs-bucket>no está enPROJECT_ID, debes otorgar a la cuenta de servicioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.compermisos de "Visualizador de objetos de Storage" para el bucket de Cloud Storage. Por ejemplo, si importas un bucket de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", otorgaservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.compermisos en el bucket de Cloud Storage en el proyecto "123".DATA_SCHEMA: es opcional. Los valores sondocument,custom,csvycontent. El valor predeterminado esdocument.document: Sube datos no estructurados con metadatos para documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom: Sube JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema; de lo contrario, se detecta automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea, y Gemini Enterprise genera automáticamente los IDs de cada documento importado.content: Sube documentos no estructurados (PDF, HTML, DOC, TXT, PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivo de entrada, siempre que los archivos coincidentes no superen el límite de 100,000 archivos.csv: Incluye una fila de encabezado en tu archivo CSV, con cada encabezado asignado a un campo de documento. Especifica la ruta de acceso a el archivo CSV con elinputUriscampo.
ERROR_DIRECTORY: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo,gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.RECONCILIATION_MODE: es opcional. Los valores sonFULLyINCREMENTAL. El valor predeterminado esINCREMENTAL. Si especificasINCREMENTAL, se produce una actualización incremental de los datos de Cloud Storage a tu almacén de datos. Esto realiza una operación de actualización o inserción, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. Si especificasFULL, se produce una nueva base completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en Cloud Storage. El modoFULLes útil si deseas borrar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS: es opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se configura comotrue, los IDs de los documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de los documentos generados no sigan siendo coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda configurarreconciliationModecomoFULLpara mantener IDs de documentos coherentes.Especifica
autoGenerateIdssolo cuandogcsSource.dataSchemase establece encustomocsv. De lo contrario, se muestra un errorINVALID_ARGUMENT. Si no especificasautoGenerateIdso lo configuras comofalse, debes especificaridField. De lo contrario, los documentos no se importarán.ID_FIELD: es opcional. Especifica qué campos son los IDs de los documentos. Para los documentos de origen de Cloud Storage,idFieldespecifica el nombre en los campos JSON que son IDs de documentos. Por ejemplo, si{"my_id":"some_uuid"}es el campo de ID de documento en uno de tus documentos, especifica"idField":"my_id". Esto identifica todos los campos JSON con el nombre"my_id"como IDs de documentos.Especifica este campo solo cuando se cumplan las siguientes condiciones: (1)
gcsSource.dataSchemase establece encustomocsv, y (2)auto_generate_idsse establece enfalseo no se especifica. De lo contrario, se muestra un errorINVALID_ARGUMENT.Ten en cuenta que el nombre del campo JSON especificado por
id_fielddebe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con RFC-1034. De lo contrario, los documentos no se importarán.
Conéctate a Cloud Storage con sincronización periódica
Antes de importar tus datos, revisa Prepara los datos para la transferencia.
En el siguiente procedimiento, se describe cómo crear un conector de datos que asocia una ubicación de Cloud Storage con un conector de datos de Gemini Enterprise y cómo especificar una carpeta o un archivo en esa ubicación para el almacén de datos que deseas crear. Los almacenes de datos que son elementos secundarios de los conectores de datos se denominan almacenes de datos de entidad.
Los datos se sincronizan periódicamente con el almacén de datos de entidad. Puedes especificar la sincronización diaria, cada tres días o cada cinco días.
Console
En la consola de Google Cloud , ve a la página Gemini Enterprise.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona el tipo de datos que importarás.
Haz clic en Periódico.
Selecciona la Frecuencia de sincronización, la frecuencia con la que deseas que el conector de Gemini Enterprise se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.
En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.
Haz clic en Explorar , elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo
gs://.Haz clic en Continuar.
Selecciona una región para tu conector de datos.
Ingresa un nombre para tu conector de datos.
Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analiza documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costos adicionales.
Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones de analizador que deseas usar.
Haz clic en Crear.
Ahora creaste un conector de datos, que sincronizará periódicamente los datos con la ubicación de Cloud Storage. También creaste un almacén de datos de entidad, que se llama
gcs_store.Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector de datos para ver los detalles en la página Datos.
Pestaña Actividad de transferencia de datos. Cuando la columna de estado de la pestaña Actividad de transferencia de datos cambie de En curso a Completado, se habrá completado la primera transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Después de configurar tu fuente de datos y de importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que selecciones durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.
Próximos pasos
Para adjuntar tu almacén de datos a una app, crea una app y selecciona tu almacén de datos con los pasos que se indican en Crea una app de búsqueda.
Para obtener una vista previa de cómo aparecerán los resultados de la búsqueda después de configurar tu app y tu almacén de datos, consulta Obtén una vista previa de los resultados de la búsqueda.