Las empresas suelen tener aplicaciones personalizadas que se compilan internamente. Si deseas que Gemini Enterprise se conecte a las fuentes de datos de estas aplicaciones personalizadas, primero debes preparar los datos. La forma en que preparas los datos depende del tipo de datos que importas de tu fuente de datos personalizada y de la forma en que elijas importarlos. Comienza con el tipo de datos que planeas importar:
Para conocer las limitaciones de la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app, consulta Información sobre cómo conectar varios almacenes de datos.
Datos no estructurados
Gemini Enterprise admite la búsqueda en documentos que están en formatos TXT, PDF, HTML, DOCX, PPTX, XLSX y XLSM.
En la siguiente tabla, se enumeran los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Analiza y divide documentos). Puedes importar hasta 100,000 archivos por vez.
| Tipo de archivo | Importación predeterminada |
|---|---|
| Archivos basados en texto, como HTML, TXT, JSON, XHTML y XML | < 200 MB |
| PPTX, DOCX, XLSX y XLSM | < 200 MB |
| < 200 MB |
Si planeas incluir incorporaciones en tus datos no estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.
Si tienes archivos PDF que no se pueden buscar (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infografías), te recomendamos que actives el analizador de diseño durante la creación del almacén de datos. Esto permite que Gemini Enterprise extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF que se pueden buscar y que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analiza y divide documentos.
Si deseas usar Gemini Enterprise para la generación mejorada por recuperación (RAG), activa la división de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Analiza y divide documentos.
Puedes importar datos no estructurados de las siguientes fuentes:
Cloud Storage
Puedes importar datos de Cloud Storage con o sin metadatos mediante
Google Cloud la consola,
el método ImportDocuments o la transferencia de transmisión
a través de métodos CRUD. Para obtener información de referencia de la API, consulta
DocumentService y documents.
La importación de datos es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, se importan los archivos que se encuentran en esas carpetas.
Si planeas importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadatos.
Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfsgs://cloud-samples-data/gen-app-builder/search/CUAD_v1gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveysgs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.
Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.
El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:
Usa
jsonDatade la siguiente manera:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }Usa
structDatade la siguiente manera:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Usa el campo uri en cada fila para dirigir a la ubicación de Cloud Storage del documento.
Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData, y las dos segundas líneas usan structData. Con structData, no necesitas escapar las comillas que aparecen dentro de las comillas.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"uri\":\"https://test_doc_0.html\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"uri\":\"https://test_doc_1.html\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","uri":"https://test_doc_2.html","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","uri":"https://test_doc_3.html","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.
BigQuery
Si planeas importar metadatos de BigQuery, sigue estos pasos:
Crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.
Coloca tus documentos no estructurados en un bucket de Cloud Storage.
Puedes importar datos mediante Google Cloud consola, el método
ImportDocumentso la transferencia de transmisión a través de métodos CRUD. Para obtener información de referencia de la API, consultaDocumentServiceydocuments.
Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para dirigir a la ubicación de Cloud Storage del documento.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Para obtener más información, consulta Crea y usa tablas en la documentación de BigQuery.
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.
Google Drive
La sincronización de datos de Google Drive es compatible con la búsqueda.
Si planeas importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Gemini Enterprise. Para obtener información sobre cómo configurar el control de acceso, consulta Identidad y permisos.
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.
Datos estructurados
Prepara tus datos según el método de importación que planeas usar.
Puedes importar datos estructurados de las siguientes fuentes:
Cuando importas datos estructurados de BigQuery o de Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).
BigQuery
Puedes importar datos estructurados de conjuntos de datos de BigQuery.
El esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Si importas datos con la API en lugar de la Google Cloud consola, tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.
Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.
Si seleccionas importar datos estructurados con metadatos, incluye dos campos en tus tablas de BigQuery:
Un campo
idpara identificar el documento. Si importas datos estructurados sin metadatos, se generará elidpor ti. Incluir metadatos te permite especificar el valor deid.Un campo
jsonDataque contiene los datos. Para ver ejemplos de cadenasjsonData, consulta la sección anterior Cloud Storage.
Usa el siguiente esquema de BigQuery para las importaciones de datos estructurados con metadatos:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.
Cloud Storage
Los datos estructurados en Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener menos de 2 GB, y cada fila del archivo debe tener menos de 1 MB. Puedes importar hasta 1,000 archivos en una sola solicitud de importación.
Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas en Cloud Storage, que contienen archivos NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_moviesgs://cloud-samples-data/gen-app-builder/search/austin_311
Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.
Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y se compone de un conjunto de campos.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google source.
Datos JSON locales
Puedes subir directamente un documento o un objeto JSON con la API.
Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.
Si planeas incluir incorporaciones en tus datos estructurados, consulta Usa incorporaciones personalizadas en la documentación de Agent Search.
Para crear tu almacén de datos, consulta Conecta una fuente de datos de Google.