Preparar datos para fuentes de datos personalizadas

Las empresas suelen tener aplicaciones personalizadas creadas internamente. Si quieres que Gemini Enterprise se conecte a las fuentes de datos de estas aplicaciones personalizadas, primero debes preparar los datos. La forma de preparar los datos depende del tipo de datos que importe de su fuente de datos personalizada y de la forma en que decida importarlos. Empieza por indicar qué tipo de datos quieres importar:

Para obtener información sobre las limitaciones de la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola aplicación, consulta el artículo Acerca de la conexión de varios almacenes de datos.

Datos sin estructurar

Gemini Enterprise admite búsquedas en documentos que estén en formato TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

En la siguiente tabla se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulte Analizar y dividir documentos en fragmentos). Puedes importar hasta 100.000 archivos a la vez.

Tipo de archivo Importación predeterminada
Archivos de texto, como HTML, TXT, JSON, XHTML y XML < 200 MB
PPTX, DOCX, XLSX y XLSM < 200 MB
PDF < 200 MB

Si tienes previsto incluir inserciones en tus datos no estructurados, consulta el artículo Usar inserciones personalizadas de la documentación de Vertex AI Search.

Si tiene PDFs en los que no se puede buscar (PDFs escaneados o PDFs con texto en imágenes, como infografías), le recomendamos que active el analizador de diseño durante la creación del almacén de datos. De esta forma, Gemini Enterprise puede extraer elementos como bloques de texto y tablas. Si tiene PDFs en los que se pueden hacer búsquedas, que se componen principalmente de texto legible por máquina y que contienen muchas tablas, puede activar el procesamiento OCR con la opción de texto legible por máquina habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Si quieres usar Gemini Enterprise para la generación aumentada de recuperación (RAG), activa la fragmentación de documentos al crear tu almacén de datos. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Puede importar datos no estructurados de las siguientes fuentes:

Cloud Storage

Puedes importar datos de Cloud Storage con o sin metadatos mediante la Google Cloud consola, el método ImportDocuments o la ingestión en streaming a través de métodos CRUD. Para obtener información de referencia sobre la API, consulta DocumentService y documents.

La importación de datos es recursiva. Es decir, si hay carpetas en el contenedor o en la carpeta que especifiques, se importarán los archivos de esas carpetas.

Si tienes previsto importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un segmento de Cloud Storage. El ID de documento es un ejemplo de metadatos.

Para hacer pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si tienes previsto importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un segmento de Cloud Storage cuya ubicación proporciones durante la importación.

Los documentos no estructurados pueden estar en el mismo segmento de Cloud Storage que los metadatos o en otro.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID de documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

  • Usar jsonData:

    { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    
  • Usar structData:

    { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    

Usa el campo uri de cada fila para indicar la ubicación del documento en Cloud Storage.

A continuación se muestra un ejemplo de un archivo de metadatos NDJSON de un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData y las dos segundas, structData. Con structData no es necesario incluir caracteres de escape para las comillas que aparecen dentro de otras comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear su almacén de datos, consulte el artículo Conectar una fuente de datos de Google.

BigQuery

Si tienes previsto importar metadatos de BigQuery, sigue estos pasos:

  1. Crea una tabla de BigQuery que contenga metadatos. El ID de documento es un ejemplo de metadatos.

  2. Coloca tus documentos no estructurados en un segmento de Cloud Storage.

    Puedes importar datos mediante la consola deGoogle Cloud , el método ImportDocuments o la ingestión por streaming a través de métodos CRUD. Para obtener información de referencia sobre la API, consulta DocumentService y documents.

Usa el siguiente esquema de BigQuery. Usa el campo uri de cada registro para indicar la ubicación del documento en Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta el artículo Crear y usar tablas de la documentación de BigQuery.

Para crear su almacén de datos, consulte el artículo Conectar una fuente de datos de Google.

Google Drive

Se admite la sincronización de datos de Google Drive para la búsqueda.

Si tienes previsto importar datos de Google Drive, debes configurar Google Identity como proveedor de identidades en Gemini Enterprise. Para obtener información sobre cómo configurar el control de acceso, consulta Identidad y permisos.

Para crear su almacén de datos, consulte el artículo Conectar una fuente de datos de Google.

Datos estructurados

Prepare sus datos según el método de importación que vaya a usar.

Puede importar datos estructurados de las siguientes fuentes:

Cuando importa datos estructurados de BigQuery o de Cloud Storage, tiene la opción de importar los datos con metadatos. Los datos estructurados con metadatos también se denominan datos estructurados mejorados.

BigQuery

Puedes importar datos estructurados de conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de la importación, Google recomienda que edite el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si importas datos mediante la API en lugar de la Google Cloud consola, puedes proporcionar tu propio esquema como objeto JSON. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si tienes previsto incluir inserciones en tus datos estructurados, consulta el artículo Usar inserciones personalizadas de la documentación de Vertex AI Search.

Si seleccionas la opción de importar datos estructurados con metadatos, se incluirán dos campos en tus tablas de BigQuery:

  • Un campo id para identificar el documento. Si importa datos estructurados sin metadatos, se generará automáticamente un id. Si incluye metadatos, puede especificar el valor de id.

  • Un campo jsonData que contiene los datos. Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para importar datos estructurados con metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para crear su almacén de datos, consulte el artículo Conectar una fuente de datos de Google.

Cloud Storage

Los datos estructurados de Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener un tamaño inferior a 2 GB y cada fila del archivo, menos de 1 MB. Puedes importar hasta 1000 archivos en una única solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si tienes previsto incluir inserciones en tus datos estructurados, consulta el artículo Usar inserciones personalizadas de la documentación de Vertex AI Search.

A continuación, se muestra un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y está formada por un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta el artículo Conectar una fuente de datos de Google.

Datos JSON locales

Puedes subir directamente un documento u objeto JSON mediante la API.

Google recomienda que proporcione su propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de importar los datos, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Si tienes previsto incluir inserciones en tus datos estructurados, consulta el artículo Usar inserciones personalizadas de la documentación de Vertex AI Search.

Para crear su almacén de datos, consulte el artículo Conectar una fuente de datos de Google.