Prepara los datos para las fuentes de datos personalizadas

Las empresas suelen tener aplicaciones personalizadas que se compilan internamente. Si quieres que Gemini Enterprise se conecte a las fuentes de datos de estas aplicaciones personalizadas, primero debes preparar los datos. La forma en que preparas los datos depende del tipo de datos que importes desde tu fuente de datos personalizada y de la forma en que elijas importarlos. Comienza por el tipo de datos que planeas importar:

Datos no estructurados
Datos estructurados

Para conocer las limitaciones de la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app, consulta Información sobre cómo conectar varios almacenes de datos.

Datos no estructurados

Gemini Enterprise admite la búsqueda en documentos en formatos TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

En la siguiente tabla, se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Analiza y divide documentos en fragmentos). Puedes importar hasta 100,000 archivos a la vez.

Tipo de archivo	Importación predeterminada
Archivos basados en texto, como HTML, TXT, JSON, XHTML y XML	< 200 MB
PPTX, DOCX, XLSX y XLSM	< 200 MB
PDF	< 200 MB

Si planeas incluir embeddings en tus datos no estructurados, consulta Usa embeddings personalizados en la documentación de Vertex AI Search.

Si tienes archivos PDF en los que no se puede realizar búsquedas (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el analizador de diseño durante la creación del almacén de datos. Esto permite que Gemini Enterprise extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF con capacidad de búsqueda que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes considerar activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Cómo analizar y dividir documentos en fragmentos.

Si quieres usar Gemini Enterprise para la generación mejorada por recuperación (RAG), activa la división de documentos en fragmentos cuando crees tu almacén de datos. Para obtener más información, consulta Cómo analizar y dividir documentos en fragmentos.

Puedes importar datos no estructurados de las siguientes fuentes:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Puedes importar datos de Cloud Storage con o sin metadatos a través de la consola deGoogle Cloud , con el método ImportDocuments o mediante la transferencia de transmisión a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

La importación de datos es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, se importarán los archivos que se encuentren en esas carpetas.

Si planeas importar documentos desde Cloud Storage sin metadatos, colócalos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadato.

Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.

Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

Usa jsonData de la siguiente manera:

{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa structData de la siguiente manera:

{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri en cada fila para apuntar a la ubicación del documento en Cloud Storage.

Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData y las dos segundas usan structData. Con structData, no es necesario escapar las comillas que aparecen dentro de otras comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

BigQuery

Si planeas importar metadatos de BigQuery, sigue estos pasos:

Crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.
Coloca tus documentos no estructurados en un bucket de Cloud Storage.

Puedes importar datos con la Google Cloud consola, con el método ImportDocuments o con la transmisión de la transferencia a través de los métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para apuntar a la ubicación del documento en Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta Cómo crear y usar tablas en la documentación de BigQuery.

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

Google Drive

La sincronización de datos de Google Drive es compatible con la búsqueda.

Si planeas importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Gemini Enterprise. Para obtener información sobre cómo configurar el control de acceso, consulta Identidad y permisos.

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

Datos estructurados

Prepara tus datos según el método de importación que planeas usar.

Puedes importar datos estructurados desde las siguientes fuentes:

BigQuery
Cloud Storage
Datos JSON locales

Cuando importas datos estructurados de BigQuery o de Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).

BigQuery

Puedes importar datos estructurados de conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si realizas la importación con la API en lugar de la consola de Google Cloud , tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Vertex AI Search.

Si seleccionas importar datos estructurados con metadatos, debes incluir dos campos en tus tablas de BigQuery:

Un campo id para identificar el documento. Si importas datos estructurados sin metadatos, se generará el id automáticamente. Si incluyes metadatos, puedes especificar el valor de id.
Es un campo jsonData que contiene los datos. Para ver ejemplos de cadenas de jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para datos estructurados con importaciones de metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

Cloud Storage

Los datos estructurados en Cloud Storage deben estar en formato líneas JSON o NDJSON. Cada archivo debe tener menos de 2 GB y cada fila del archivo, menos de 1 MB. Puedes importar hasta 1,000 archivos en una sola solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Vertex AI Search.

Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

Datos JSON locales

Puedes subir directamente un documento o un objeto JSON con la API.

Para obtener mejores resultados, Google recomienda proporcionar tu propio esquema como un objeto JSON. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Vertex AI Search.

Para crear tu almacén de datos, consulta Cómo conectar una fuente de datos de Google.

Prepara los datos para las fuentes de datos personalizadas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Datos no estructurados

Cloud Storage

BigQuery

Google Drive

Datos estructurados

BigQuery

Cloud Storage

Datos JSON locales

Prepara los datos para las fuentes de datos personalizadas