Importar desde Cloud Storage

Puedes crear almacenes de datos a partir de tablas de Cloud Storage de dos maneras:

  • Transferencia única: Importas datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian a menos que los actualices de forma manual.

  • Transferencia periódica: Importas datos de una carpeta o un archivo de Cloud Storage y estableces una frecuencia de sincronización que determina con qué frecuencia se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.

En la siguiente tabla, se comparan las dos formas en que puedes importar datos de Cloud Storage a los almacenes de datos de Gemini Enterprise.

Transferencia única Transferencia periódica
Disponible para el público general (DG). Versión preliminar pública.
Los datos se deben actualizar de forma manual. Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar de forma manual.
Gemini Enterprise crea un solo almacén de datos a partir de una carpeta o un archivo en Cloud Storage. Gemini Enterprise crea un conector de datos y le asocia un almacén de datos (llamado almacén de datos de entidad) para el archivo o la carpeta que se especifica. Cada conector de datos de Cloud Storage puede tener un solo almacén de datos de entidad.
Los datos de varios archivos, carpetas y buckets se pueden combinar en un almacén de datos. Para ello, primero se transfieren datos de una ubicación de Cloud Storage y, luego, más datos de otra ubicación. Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo se pueden obtener de un archivo o una carpeta de Cloud Storage.
Se admite el control de acceso a la fuente de datos. Para obtener más información, consulta Control de acceso a la fuente de datos. No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán.
Puedes crear un almacén de datos con la Google Cloud consola o la API. Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidad.
Compatible con CMEK. Compatible con CMEK.

Antes de comenzar

Para importar datos de un proyecto de origen que sea diferente del proyecto con el almacén de datos de Gemini Enterprise, otorga los siguientes roles de Identity and Access Management (IAM) a la cuenta de servicio en el proyecto que contiene el almacén de datos de Gemini Enterprise: Google Cloud Google Cloud service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com

Importa una vez desde Cloud Storage

Para transferir datos desde Cloud Storage, sigue estos pasos para crear un almacén de datos y transferir datos con la Google Cloud consola o la API.

Antes de importar tus datos, revisa Prepara los datos para la transferencia.

Console

Para usar la consola y transferir datos desde un bucket de Cloud Storage, sigue estos pasos:

  1. En la Google Cloud consola de, ve a la página Gemini Enterprise.

    Gemini Enterprise

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Selecciona una fuente de datos, elige Cloud Storage.

  5. En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.

  6. Haz clic en Explorar , elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo gs://.

  7. Selecciona el tipo de datos que importarás.

  8. Haz clic en Continuar.

  9. Si realizas una importación única de datos estructurados, haz lo siguiente:

    1. Asigna campos a propiedades clave.

    2. Si faltan campos importantes en el esquema, usa Agregar campo nuevo para agregarlos.

      Para obtener más información, consulta Acerca de la detección automática y la edición.

    3. Haz clic en Continuar.

  10. Elige una región para tu almacén de datos.

  11. Ingresa un nombre para tu almacén de datos.

  12. Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analiza documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.

    El analizador de OCR y el analizador de diseño pueden generar costos adicionales. Consulta Precios de las funciones de Document AI.

    Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones de analizador que deseas usar.

  13. Haz clic en Crear.

  14. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector para ver los detalles en la página Datos. Cuando la columna de estado de la pestaña Actividad cambie de En curso a Se completó la importación, se habrá completado la transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos y transferir datos desde Cloud Storage, sigue estos pasos.

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
      "contentConfig": "CONTENT_REQUIRED",
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: el ID del almacén de datos que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos que deseas crear.

    Opcional: Para configurar el análisis de documentos o activar la fragmentación de documentos para RAG, especifica el documentProcessingConfig objeto y lo incluye en tu solicitud de creación del almacén de datos. Se recomienda configurar un analizador de OCR para archivos PDF si transfieres archivos PDF escaneados. Para obtener información sobre cómo configurar opciones de análisis o fragmentación, consulta Analiza y fragmenta documentos.

  2. Importa datos desde Cloud Storage.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "gcsSource": {
          "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
          "dataSchema": "DATA_SCHEMA",
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
        "errorConfig": {
          "gcsPrefix": "ERROR_DIRECTORY"
        }
      }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: el ID del almacén de datos.
    • INPUT_FILE_PATTERN: un patrón de archivo en Cloud Storage que contiene tus documentos.

      Para datos estructurados o datos no estructurados con metadatos, un ejemplo del patrón de archivo de entrada es gs://<your-gcs-bucket>/directory/object.jsony un ejemplo de coincidencia de patrones con uno o más archivos es gs://<your-gcs-bucket>/directory/*.json.

      Para documentos no estructurados, un ejemplo es gs://<your-gcs-bucket>/directory/*.pdf. Cada archivo que coincide con el patrón se convierte en un documento.

      Si <your-gcs-bucket> no está en PROJECT_ID, debes otorgar a la cuenta de servicio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com permisos de "Visualizador de objetos de Storage" para el bucket de Cloud Storage. Por ejemplo, si importas un bucket de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", otorga service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com permisos en el bucket de Cloud Storage en el proyecto "123".

    • DATA_SCHEMA: es opcional. Los valores son document, custom, csv y content. El valor predeterminado es document.

      • document: Sube datos no estructurados con metadatos para documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:

        • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
        • { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
      • custom: Sube JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema; de lo contrario, se detecta automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea, y Gemini Enterprise genera automáticamente los IDs de cada documento importado.

      • content: Sube documentos no estructurados (PDF, HTML, DOC, TXT, PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivo de entrada, siempre que los archivos coincidentes no superen el límite de 100,000 archivos.

      • csv: Incluye una fila de encabezado en tu archivo CSV, con cada encabezado asignado a un campo de documento. Especifica la ruta de acceso a el archivo CSV con el inputUris campo.

    • ERROR_DIRECTORY: es opcional. Un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo, gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.

    • RECONCILIATION_MODE: es opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se produce una actualización incremental de los datos de Cloud Storage a tu almacén de datos. Esto realiza una operación de actualización o inserción, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. Si especificas FULL, se produce una nueva base completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en Cloud Storage. El modo FULL es útil si deseas borrar automáticamente los documentos que ya no necesitas.

    • AUTO_GENERATE_IDS: es opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se configura como true, los IDs de los documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de los documentos generados no sigan siendo coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda configurar reconciliationMode como FULL para mantener IDs de documentos coherentes.

      Especifica autoGenerateIds solo cuando gcsSource.dataSchema se establece en custom o csv. De lo contrario, se muestra un error INVALID_ARGUMENT. Si no especificas autoGenerateIds o lo configuras como false, debes especificar idField. De lo contrario, los documentos no se importarán.

    • ID_FIELD: es opcional. Especifica qué campos son los IDs de los documentos. Para los documentos de origen de Cloud Storage, idField especifica el nombre en los campos JSON que son IDs de documentos. Por ejemplo, si {"my_id":"some_uuid"} es el campo de ID de documento en uno de tus documentos, especifica "idField":"my_id". Esto identifica todos los campos JSON con el nombre "my_id" como IDs de documentos.

      Especifica este campo solo cuando se cumplan las siguientes condiciones: (1) gcsSource.dataSchema se establece en custom o csv, y (2) auto_generate_ids se establece en false o no se especifica. De lo contrario, se muestra un error INVALID_ARGUMENT.

      Ten en cuenta que el nombre del campo JSON especificado por id_field debe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con RFC-1034. De lo contrario, los documentos no se importarán.

Conéctate a Cloud Storage con sincronización periódica

Antes de importar tus datos, revisa Prepara los datos para la transferencia.

En el siguiente procedimiento, se describe cómo crear un conector de datos que asocia una ubicación de Cloud Storage con un conector de datos de Gemini Enterprise y cómo especificar una carpeta o un archivo en esa ubicación para el almacén de datos que deseas crear. Los almacenes de datos que son elementos secundarios de los conectores de datos se denominan almacenes de datos de entidad.

Los datos se sincronizan periódicamente con el almacén de datos de entidad. Puedes especificar la sincronización diaria, cada tres días o cada cinco días.

Console

  1. En la consola de Google Cloud , ve a la página Gemini Enterprise.

    Gemini Enterprise

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona Cloud Storage.

  5. Selecciona el tipo de datos que importarás.

  6. Haz clic en Periódico.

  7. Selecciona la Frecuencia de sincronización, la frecuencia con la que deseas que el conector de Gemini Enterprise se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.

  8. En la sección Selecciona una carpeta o un archivo que desees importar, elige Carpeta o Archivo.

  9. Haz clic en Explorar , elige los datos que preparaste para la transferencia y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo gs://.

  10. Haz clic en Continuar.

  11. Selecciona una región para tu conector de datos.

  12. Ingresa un nombre para tu conector de datos.

  13. Opcional: Si seleccionaste documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analiza documentos. Para obtener información sobre la fragmentación, consulta Fragmenta documentos para RAG.

    El analizador de OCR y el analizador de diseño pueden generar costos adicionales.

    Para seleccionar un analizador, expande Opciones de procesamiento de documentos y especifica las opciones de analizador que deseas usar.

  14. Haz clic en Crear.

    Ahora creaste un conector de datos, que sincronizará periódicamente los datos con la ubicación de Cloud Storage. También creaste un almacén de datos de entidad, que se llama gcs_store.

  15. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre del conector de datos para ver los detalles en la página Datos.

    Pestaña Actividad de transferencia de datos. Cuando la columna de estado de la pestaña Actividad de transferencia de datos cambie de En curso a Completado, se habrá completado la primera transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

Después de configurar tu fuente de datos y de importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que selecciones durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se produce alrededor de 24, 72 o 120 horas después.

Próximos pasos