Los conectores obtienen datos de Google y de fuentes de datos de terceros en Gemini Enterprise y los almacenan en almacenes de datos dedicados. En este documento, se proporciona una descripción general de estos conectores. Centralizar tus datos en Gemini Enterprise mejora la accesibilidad de los datos, la funcionalidad de búsqueda y las capacidades de análisis.
Conceptos de conectores y almacén de datos
Almacenes de datos |
| Cada fuente de datos admite un conjunto de tipos de entidades. Por ejemplo, Jira Cloud tiene entidades como problemas, archivos adjuntos, comentarios y registros de trabajo, que son exclusivos de la fuente de datos. Gemini Enterprise crea un almacén de datos independiente para cada entidad. Por lo tanto, cuando creas un almacén de datos con la Google Cloud consola, obtienes una colección de almacenes de datos que representan estas entidades de datos transferidas. |
Federación de datos en comparación con la transferencia (indexación) |
| La federación de datos recupera
información directamente de la fuente de datos especificada. Como los datos no se copian en
el índice de Vertex AI Search, no tienes que preocuparte por el almacenamiento de datos. Sin embargo, debido a que los datos no están indexados, la calidad de la búsqueda puede ser
menor. La transferencia de datos (indexación) copia datos en el índice de Vertex AI Search. Esto puede mejorar la calidad de la búsqueda. Sin embargo, este proceso consume más almacenamiento y tiempo. Si el conector admite la federación y la transferencia de datos, selecciona el método de conexión de datos que prefieras. |
Datos no estructurados |
| El formato de datos admitido es específico de la fuente de datos y el tipo de entidad. Si el contenido de una entidad se almacena en un formato no estructurado, como PDF, HTML, DOCX, PPTX, XLSX y XLSM, Vertex AI Search crea un almacén de datos no estructurado. Para obtener más información y los tipos de archivos admitidos, consulta Búsqueda no estructurada. |
Datos estructurados |
| El formato de datos admitido es específico de la fuente de datos y el tipo de entidad. Si el contenido de una entidad se almacena en un formato estructurado, Vertex AI Search crea un almacén de datos estructurado. Para obtener más información, consulta Búsqueda estructurada. |
Esquemas de datos |
| El esquema de datos define la estructura de los datos. Cuando importas datos estructurados con Gemini Enterprise, el sistema detecta automáticamente el esquema. Puedes usar el esquema detectado automáticamente o definirlo con la API. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema. |
Regiones de almacén de datos |
| Cuando transfieres datos, debes seleccionar la región en la que deseas almacenarlos, como global, EE.UU. o la UE. Para obtener más información, consulta Compromisos regionales de residencia de datos y procesamiento de AA. Los datos almacenados en las regiones de EE.UU. o la UE requieren encriptación de datos. La encriptación predeterminada es con Google-owned and Google-managed encryption keys, pero, como alternativa, puedes usar claves de encriptación administradas por el cliente. |
Sincronizaciones de datos |
Una sincronización de datos extrae y actualiza los datos de identidad (como roles, permisos y usuarios) y los datos de entidades (como los datos relacionados con una fuente de datos específica) de la fuente de datos original. Para obtener más información, consulta Tipos y programas de sincronización de datos. |
Tipos y programas de sincronización de datos
Una sincronización de datos captura datos de entidades, datos de identidad o ambos, y actualiza el contenido del almacén de datos en Gemini Enterprise.
Tipos de sincronización
Los almacenes de datos en Gemini Enterprise usan dos tipos esenciales de sincronización de datos:
Una sincronización completa captura todo el estado de la app o el servicio de terceros. Esto incluye adiciones, actualizaciones y eliminaciones. Una sincronización completa reemplaza el contenido existente del almacén de datos.
Una sincronización incremental captura periódicamente los datos de entidades que se agregaron o actualizaron desde la última sincronización. No sincroniza los datos de identidad ni las eliminaciones de datos de entidades.
Puedes programar una sincronización completa por separado para los siguientes tipos de datos:
Una sincronización de entidades captura datos específicos de la fuente de datos de terceros. Por ejemplo, un almacén de datos para un sistema como Jira puede sincronizar problemas, registros de trabajo, comentarios y archivos adjuntos. Las sincronizaciones de entidades no incluyen información de identidad.
Una sincronización de identidad captura datos sobre las cuentas de usuario asociadas con un grupo de ACL.
Interacción entre la sincronización de identidad y la sincronización completa
Para comprender cómo funciona una ejecución de sincronización de identidad individual con una ejecución de sincronización completa, considera una situación de ejemplo que incluye dos páginas: page_1, vinculada a un grupo de ACL group_1, y page_2, vinculada a un grupo de ACL group_2.
Se ejecuta una sincronización de identidad inicial y se recupera información sobre los grupos
group_1ygroup_2.Supón que
group_1contiene el usuariouser_1.Supón que
group_2contiene el usuariouser_2.
Esta sincronización de identidad establece la siguiente asignación:
user_1se asigna agroup_1.user_2se asigna agroup_2.
Junto con la sincronización de identidad, se ejecuta una sincronización completa, que recupera
page_1ypage_2.Esta sincronización completa establece la siguiente asignación:
user_1tiene acceso apage_1(a través degroup_1).user_2tiene acceso apage_2(a través degroup_2).
Programas de sincronización
Para cada almacén de datos, puedes seleccionar una frecuencia para diferentes tipos de sincronización:
Las sincronizaciones completas de todos los datos de identidad y de entidades se pueden programar de forma simultánea cada 3 horas, 6 horas, 12 horas, 1 día o 3 días.
Las sincronizaciones completas independientes de todos los datos de identidad y las sincronizaciones completas independientes de todos los datos de entidades se pueden programar por separado con cualquiera de las siguientes frecuencias de sincronización personalizadas:
Datos de entidades: Cada 3 horas, 6 horas, 12 horas, 1 día, 3 días, 5 días y 7 días.
Datos de identidad: Cada 30 minutos, 1 hora, 3 horas, 6 horas, 12 horas, 1 día, 3 días, 5 días y 7 días.
Las sincronizaciones incrementales de datos de entidades actualizados o agregados se pueden programar cada 3 horas, 6 horas, 12 horas, 1 día, 3 días, 5 días o 7 días. De forma predeterminada, se realiza una sincronización incremental cada 3 horas.
Recomendaciones de frecuencia
Elige una frecuencia de sincronización de datos que se alinee con el volumen de registros recuperados y las consultas por segundo (QPS) recomendadas.
En la siguiente tabla, se muestra la cantidad típica de registros recuperados para sincronizaciones de uno, tres, cinco y siete días. La cantidad real de registros puede variar según la fuente de datos y su configuración.
| QPS | Volumen de registros para la sincronización de 1 día | Volumen de registros para la sincronización de 3 días | Volumen de registros para la sincronización de 5 días | Volumen de registros para la sincronización de 7 días |
|---|---|---|---|---|
| 5 | 432,000 | 1,296,000 | 2,160,000 | 3,000,000 |
| 10 | 864,000 | 2,592,000 | 4,320,000 | 6,000,000 |
| 20 | 1,700,000 | 5,100,000 | 8,500,000 | 11,900,000 |
| 50 | 4,300,000 | 12,900,000 | 21,500,000 | 30,100,000 |
| 100 | 8,600,000 | 25,800,000 | 43,000,000 | 60,200,000 |
Cómo pausar y reanudar sincronizaciones
Puedes pausar y reanudar tanto las sincronizaciones completas como las incrementales:
Cuando pausas un tipo de sincronización, el almacén de datos cancela las sincronizaciones en curso de ese tipo y deja de programar sincronizaciones nuevas de ese tipo.
Cuando reanudas un tipo de sincronización, el almacén de datos programa la nueva sincronización según la última hora de sincronización programada, pero no continúa con la sincronización interrumpida anteriormente.
Por ejemplo, si pausas la sincronización completa mientras se está produciendo, el almacén de datos cancela esa sincronización. Si reanudas la sincronización completa más tarde, el almacén de datos programa automáticamente una nueva sincronización completa según el programa de sincronización completa.
Fuentes de datos de Google
Puedes conectarte a fuentes de datos de Google, como BigQuery, Spanner y Google Drive.
Lista de tareas para las fuentes de datos de Google
Antes de enviar datos a Gemini Enterprise, consulta la siguiente lista de tareas:
Configura el control de acceso para tu fuente de datos. Para obtener más información, consulta Identidad y permisos.
Decide si los datos deben federarse o transferirse (indexarse).
Decide con qué frecuencia se deben sincronizar los datos.
Si usas claves de encriptación administradas por el cliente (CMEK), crea claves de varias regiones. Para obtener más información, consulta Registra claves de una sola región para fuentes de datos de terceros.
Si tienes información de identificación personal (PII) y deseas usar la función de autocompletar para las sugerencias de consultas, consulta Cómo protegerse contra las filtraciones de PII.
Fuentes de datos de Google compatibles
| Google Drive | Gmail | Calendario de Google | Búsqueda de personas |
|
|
|
|
|
Fuentes de datos de terceros
Los almacenes de datos de terceros transfieren datos de aplicaciones de terceros a Gemini Enterprise.
Lista de tareas para las fuentes de datos de terceros
Antes de conectar una fuente de datos de terceros a Gemini Enterprise, consulta la siguiente lista de tareas:
Se deben configurar permisos y alcances específicos para ciertas fuentes de datos. Un administrador de la aplicación de terceros debe revisar las credenciales requeridas para conectar una fuente de datos y configurar la autenticación y los permisos. Para obtener información sobre los permisos y alcances específicos, consulta la documentación de la fuente de datos de terceros correspondiente.
Configura el control de acceso para tu almacén de datos. Para obtener más información, consulta Identidad y permisos
Decide si los datos deben federarse o transferirse (indexarse).
Si se transfieren datos, asegúrate de que los recursos no estén restringidos para la credencial de usuario que usas para transferir datos a la fuente de datos.
Decide con qué frecuencia se deben sincronizar los datos.
Si usas claves de encriptación administradas por el cliente (CMEK), crea claves de varias regiones y de una sola región. Para obtener más información, consulta Registra claves de una sola región para almacenes de datos de terceros.
Si tienes información de identificación personal (PII) y deseas usar la función de autocompletar para las sugerencias de consultas, consulta Cómo protegerse contra las filtraciones de PII.
Fuentes de datos de terceros compatibles
| Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
|
|
|
|
|
| Jira Cloud | Confluence Cloud | ServiceNow | |
|
|
|
|