Nota: Esta documentación se aplica a las ediciones Standard, Plus y Frontline de Gemini Enterprise. Para obtener información sobre la edición Business, consulta el Centro de ayuda de Gemini Enterprise - edición Business.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Prepara los datos para las fuentes de datos personalizadas

Las empresas suelen tener aplicaciones personalizadas que se compilan internamente. Si deseas que Gemini Enterprise se conecte a las fuentes de datos de estas aplicaciones personalizadas, primero debes preparar los datos. La forma en que preparas los datos depende del tipo de datos que importas de tu fuente de datos personalizada y de la forma en que elijas importarlos. Comienza con el tipo de datos que planeas importar:

Datos no estructurados
Datos estructurados

Para conocer las limitaciones de la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app, consulta Información sobre cómo conectar varios almacenes de datos.

Datos no estructurados

Gemini Enterprise admite la búsqueda en documentos que están en formatos TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.

En la siguiente tabla, se enumeran los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Analiza y divide documentos). Puedes importar hasta 100,000 archivos por vez.

Tipo de archivo	Importación predeterminada
Archivos basados en texto, como HTML, TXT, JSON, XHTML y XML	< 200 MB
PPTX, DOCX, XLSX y XLSM	< 200 MB
PDF	< 200 MB

Si planeas incluir incorporaciones en tus datos no estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.

Si tienes archivos PDF que no se pueden buscar (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el analizador de diseño durante la creación del almacén de datos. Esto permite que Gemini Enterprise extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF que se pueden buscar y que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analiza y divide documentos.

Si deseas usar Gemini Enterprise para la generación mejorada por recuperación (RAG), activa la división de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Analiza y divide documentos.

Puedes importar datos no estructurados desde las siguientes fuentes:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Puedes importar datos de Cloud Storage con o sin metadatos mediante Google Cloud la consola, el método ImportDocuments o la transferencia de transmisión a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

La importación de datos es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, se importan los archivos que se encuentran en esas carpetas.

Si planeas importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadatos.

Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.

Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

Usa jsonData de la siguiente manera:

{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa structData de la siguiente manera:

{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri en cada fila para dirigir a la ubicación de Cloud Storage del documento.

Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData, y las dos segundas líneas usan structData. Con structData, no necesitas escapar las comillas que aparecen dentro de las comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.

BigQuery

Si planeas importar metadatos de BigQuery, sigue estos pasos:

Crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.
Coloca tus documentos no estructurados en un bucket de Cloud Storage.

Puedes importar datos mediante Google Cloud consola, el método ImportDocuments o la transferencia de transmisión a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para dirigir a la ubicación de Cloud Storage del documento.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta Crea y usa tablas en la documentación de BigQuery.

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.

Google Drive

La sincronización de datos de Google Drive es compatible con la búsqueda.

Si planeas importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Gemini Enterprise. Para obtener información sobre cómo configurar el control de acceso, consulta Identidad y permisos.

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.

Datos estructurados

Prepara tus datos según el método de importación que planeas usar.

Puedes importar datos estructurados desde las siguientes fuentes:

BigQuery
Cloud Storage
Datos JSON locales

Cuando importas datos estructurados de BigQuery o de Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).

BigQuery

Puedes importar datos estructurados de conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Si importas datos con la API en lugar de la Google Cloud consola, tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.

Si seleccionas importar datos estructurados con metadatos, incluye dos campos en tus tablas de BigQuery:

Un campo id para identificar el documento. Si importas datos estructurados sin metadatos, se generará el id por ti. Incluir metadatos te permite especificar el valor de id.
Un campo jsonData que contiene los datos. Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para las importaciones de datos estructurados con metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.

Cloud Storage

Los datos estructurados en Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener menos de 2 GB, y cada fila del archivo debe tener menos de 1 MB. Puedes importar hasta 1,000 archivos en una sola solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas en Cloud Storage, que contienen archivos NDJSON:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.

Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google source.

Datos JSON locales

Puedes subir directamente un documento o un objeto JSON con la API.

Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.

Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.

Prepara los datos para las fuentes de datos personalizadas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Datos no estructurados

Cloud Storage

BigQuery

Google Drive

Datos estructurados

BigQuery

Cloud Storage

Datos JSON locales

Prepara los datos para las fuentes de datos personalizadas