Sincroniza desde Cloud Storage

Puedes crear almacenes de datos a partir de tablas de Cloud Storage de dos maneras:

  • Transferencia única: Importas datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian a menos que actualices los datos de forma manual.

  • Ingesta periódica: Importas datos desde una carpeta o un archivo de Cloud Storage, y estableces una frecuencia de sincronización que determina con qué frecuencia se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.

En la siguiente tabla, se comparan las dos formas en que puedes importar datos de Cloud Storage a los almacenes de datos de Gemini Enterprise.

Transferencia única Transferencia periódica
Disponible de forma general (DG). Versión preliminar pública.
Los datos se deben actualizar manualmente. Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar manualmente.
Gemini Enterprise crea un solo almacén de datos a partir de una carpeta o un archivo en Cloud Storage. Gemini Enterprise crea un conector de datos y asocia un almacén de datos (llamado almacén de datos de entidades) con él para el archivo o la carpeta especificados. Cada conector de datos de Cloud Storage puede tener un solo almacén de datos de entidades.
Los datos de varios archivos, carpetas y buckets se pueden combinar en un solo almacén de datos. Para ello, primero se transfieren los datos de una ubicación de Cloud Storage y, luego, se transfieren más datos de otra ubicación. Dado que no se admite la importación manual de datos, los datos de un almacén de datos de entidades solo pueden provenir de un archivo o una carpeta de Cloud Storage.
Se admite el control de acceso a la fuente de datos. Para obtener más información, consulta Control de acceso a la fuente de datos. No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos no se respetarán.
Puedes crear un almacén de datos con la consola deGoogle Cloud o la API. Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades.
Cumple con los requisitos de la CMEK. Cumple con los requisitos de la CMEK.

Importar una vez desde Cloud Storage

Para transferir datos desde Cloud Storage, sigue estos pasos para crear un almacén de datos y transferir datos con la consola de Google Cloud o la API.

Antes de importar tus datos, consulta Prepara los datos para la transferencia.

Console

Para usar la consola y transferir datos desde un bucket de Cloud Storage, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página Gemini Enterprise.

    Gemini Enterprise

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Selecciona una fuente de datos, elige Cloud Storage.

  5. En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.

  6. Haz clic en Explorar, elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. También puedes ingresar la ubicación directamente en el campo gs://.

  7. Selecciona el tipo de datos que importarás.

  8. Haz clic en Continuar.

  9. Si vas a importar datos estructurados por única vez, haz lo siguiente:

    1. Asigna campos a propiedades clave.

    2. Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.

      Para obtener más información, consulta Acerca de la detección y edición automáticas.

    3. Haz clic en Continuar.

  10. Elige una región para tu almacén de datos.

  11. Ingresa un nombre para tu almacén de datos.

  12. Opcional: Si seleccionaste documentos no estructurados, puedes elegir opciones de análisis y fragmentación para tus documentos. Para comparar los analizadores, consulta Cómo analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.

    El analizador de OCR y el analizador de diseño pueden generar costos adicionales.

    Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones del analizador que deseas usar.

  13. Haz clic en Crear.

  14. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos y transferir datos desde Cloud Storage, sigue estos pasos.

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: Es el ID del almacén de datos que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: Es el nombre visible del almacén de datos que deseas crear.

    Opcional: Para configurar el análisis de documentos o activar la división de documentos para la RAG, especifica el objeto documentProcessingConfig y agrégalo a tu solicitud de creación del almacén de datos. Se recomienda configurar un analizador de OCR para los PDFs si ingieres PDFs escaneados. Para obtener información sobre cómo configurar las opciones de análisis o fragmentación, consulta Analiza y fragmenta documentos.

  2. Importar datos desde Cloud Storage.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: Es el ID del almacén de datos.
    • INPUT_FILE_PATTERN: Es un patrón de archivo en Cloud Storage que contiene tus documentos.

      En el caso de los datos estructurados o los datos no estructurados con metadatos, un ejemplo del patrón de archivo de entrada es gs://<your-gcs-bucket>/directory/object.json, y un ejemplo de la coincidencia de patrones con uno o más archivos es gs://<your-gcs-bucket>/directory/*.json.

      En el caso de los documentos no estructurados, un ejemplo es gs://<your-gcs-bucket>/directory/*.pdf. Cada archivo que coincide con el patrón se convierte en un documento.

      Si <your-gcs-bucket> no está en PROJECT_ID, debes otorgarle a la cuenta de servicio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com permisos de "Visualizador de objetos de almacenamiento" para el bucket de Cloud Storage. Por ejemplo, si importas un bucket de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", otorga permisos de service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com en el bucket de Cloud Storage del proyecto "123".

    • DATA_SCHEMA: es opcional. Los valores son document, custom, csv y content. El valor predeterminado es document.

      • document: Sube datos no estructurados con metadatos para documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: Sube JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema o, de lo contrario, se detectará automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea, y Gemini Enterprise generará automáticamente los IDs para cada documento importado.

      • content: Sube documentos no estructurados (PDF, HTML, DOC, TXT, PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivos de entrada, siempre y cuando los archivos coincidentes no superen el límite de 100,000 archivos.

      • csv: Incluye una fila de encabezado en tu archivo CSV, con cada encabezado asignado a un campo del documento. Especifica la ruta de acceso al archivo CSV con el campo inputUris.

    • ERROR_DIRECTORY: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo, gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.

    • RECONCILIATION_MODE: es opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL, se produce una actualización incremental de los datos de Cloud Storage en tu almacén de datos. Esto realiza una operación de upsert, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. Si especificas FULL, se realizará una nueva base completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan de él los documentos que no están en Cloud Storage. El modo FULL es útil si quieres borrar automáticamente los documentos que ya no necesitas.

    • AUTO_GENERATE_IDS: es opcional. Especifica si se deben generar automáticamente IDs de documentos. Si se establece en true, los IDs de documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documentos generados no sigan siendo coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda establecer reconciliationMode en FULL para mantener IDs de documentos coherentes.

      Especifica autoGenerateIds solo cuando gcsSource.dataSchema se establece en custom o csv. De lo contrario, se muestra un error INVALID_ARGUMENT. Si no especificas autoGenerateIds o lo configuras como false, debes especificar idField. De lo contrario, no se podrán importar los documentos.

    • ID_FIELD: es opcional. Especifica qué campos son los IDs de documento. Para los documentos fuente de Cloud Storage, idField especifica el nombre en los campos JSON que son IDs de documentos. Por ejemplo, si {"my_id":"some_uuid"} es el campo de ID del documento en uno de tus documentos, especifica "idField":"my_id". Esto identifica todos los campos JSON con el nombre "my_id" como IDs de documentos.

      Especifica este campo solo cuando (1) gcsSource.dataSchema esté configurado como custom o csv, y (2) auto_generate_ids esté configurado como false o no se especifique. De lo contrario, se muestra un error INVALID_ARGUMENT.

      Ten en cuenta que el nombre del campo JSON especificado por id_field debe ser de tipo cadena, tener entre 1 y 63 caracteres, y cumplir con RFC-1034. De lo contrario, no se podrán importar los documentos.

Conéctate a Cloud Storage con sincronización periódica

Antes de importar tus datos, consulta Prepara los datos para la transferencia.

En el siguiente procedimiento, se describe cómo crear un conector de datos que asocie una ubicación de Cloud Storage con un conector de datos de Gemini Enterprise y cómo especificar una carpeta o un archivo en esa ubicación para el almacén de datos que deseas crear. Los almacenes de datos que son secundarios de los conectores de datos se denominan almacenes de datos de entidades.

Los datos se sincronizan periódicamente con el almacén de datos de la entidad. Puedes especificar la sincronización diaria, cada tres días o cada cinco días.

Console

  1. En la consola de Google Cloud , ve a la página Gemini Enterprise.

    Gemini Enterprise

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona Cloud Storage.

  5. Selecciona el tipo de datos que importarás.

  6. Haz clic en Periódico.

  7. Selecciona la frecuencia de sincronización, es decir, la frecuencia con la que deseas que el conector de Gemini Enterprise se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.

  8. En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.

  9. Haz clic en Explorar, elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. También puedes ingresar la ubicación directamente en el campo gs://.

  10. Haz clic en Continuar.

  11. Elige una región para tu conector de datos.

  12. Ingresa un nombre para tu conector de datos.

  13. Opcional: Si seleccionaste documentos no estructurados, puedes elegir opciones de análisis y fragmentación para tus documentos. Para comparar los analizadores, consulta Cómo analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.

    El analizador de OCR y el analizador de diseño pueden generar costos adicionales.

    Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones del analizador que deseas usar.

  14. Haz clic en Crear.

    Ahora creaste un conector de datos que sincronizará periódicamente los datos con la ubicación de Cloud Storage. También creaste un almacén de datos de entidades, llamado gcs_store.

  15. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector de datos para ver los detalles en la página Datos.

    Pestaña Actividad de transferencia de datos Cuando la columna de estado de la pestaña Actividad de transferencia de datos cambie de En curso a Completado, se habrá completado la primera transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

Después de configurar tu fuente de datos y de importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que selecciones durante la configuración. La primera sincronización se produce aproximadamente una hora después de que se crea el conector de datos. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.

Próximos pasos