Arquitectura y conceptos clave de la API Conversational Analytics

En este documento se describen los conceptos clave para usar la API Conversational Analytics (geminidataanalytics.googleapis.com), que le permite crear e interactuar con agentes de datos que usan el lenguaje natural para responder a preguntas sobre sus datos estructurados. En este documento se describe cómo funcionan los agentes, los flujos de trabajo habituales, los modos de conversación, los roles de gestión de identidades y accesos (IAM) y cómo diseñar sistemas con varios agentes.

Cómo funcionan los agentes de datos

Los agentes de datos de la API Conversational Analytics usan el contexto que proporcionas (información y datos empresariales) y herramientas (como SQL y Python) para interpretar preguntas en lenguaje natural y generar respuestas a partir de tus datos estructurados.

En el siguiente diagrama se muestran las fases del flujo de trabajo de un agente cuando un usuario hace una pregunta:

Diagrama de la arquitectura de la API Conversational Analytics, que muestra el flujo desde la entrada del usuario hasta la salida final, pasando por un motor de razonamiento.

Como se muestra en el diagrama, cuando un usuario hace una pregunta, el agente procesa la solicitud en las siguientes fases:

Entrada del usuario: el usuario envía una pregunta en lenguaje natural, junto con cualquier contexto adicional que hayas proporcionado.
Fuentes de datos: el agente se conecta a tus datos de Looker, BigQuery y Looker Studio para ofrecer funciones de chat. También puede consultar datos de bases de datos de AlloyDB, GoogleSQL para Spanner, Cloud SQL y Cloud SQL para PostgreSQL mediante el método QueryData.
Motor de razonamiento: el núcleo del agente procesa la pregunta del usuario mediante las herramientas disponibles para generar una respuesta.
Salida del agente: el agente devuelve un flujo de mensajes que puede contener texto, datos o gráficos. En algunas fuentes de datos, los mensajes de texto proporcionan información detallada sobre el razonamiento del agente, informan sobre el progreso de una acción o proporcionan la respuesta final a tu consulta.

Flujos de trabajo para diseñar y usar agentes

La API Conversational Analytics admite flujos de trabajo para creadores de agentes (que crean y configuran agentes) y para consumidores de agentes (que interactúan con agentes).

En el siguiente diagrama se ilustra el proceso integral, desde la configuración inicial por parte de un creador de agentes hasta las interacciones finales de un consumidor de agentes:

El flujo de trabajo integral para diseñar y usar agentes, desde las tareas de los creadores, como crear y compartir, hasta las tareas de los usuarios de datos, como interactuar con un agente.

En las siguientes secciones se describen los flujos de trabajo para los creadores y los consumidores de agentes con más detalle.

Flujo de trabajo de creación de agentes

El creador del agente es el responsable de configurar los agentes. Este flujo de trabajo incluye los siguientes pasos:

Crear agente: el creador empieza creando un agente y proporcionando el contexto necesario, incluidas las instrucciones del sistema y las conexiones a las fuentes de datos. Este paso es fundamental para que el agente pueda entender y responder a las preguntas de los usuarios de forma eficaz.
Compartir el agente: una vez configurado el agente, el creador lo comparte con otros usuarios y establece los controles de acceso basados en roles adecuados para gestionar los permisos.

Flujo de trabajo de consumidor de agentes

El consumidor del agente suele ser un usuario empresarial que necesita obtener respuestas de un agente configurado. Este flujo de trabajo incluye los siguientes pasos:

Buscar un agente: el usuario empieza buscando un agente que se haya compartido con él.
Hacer una pregunta: el usuario hace una pregunta en lenguaje natural. Esta pregunta puede ser una sola consulta o formar parte de una conversación de varias interacciones.
El agente "piensa": el motor de razonamiento del agente procesa la pregunta. El motor de razonamiento usa el conocimiento predefinido del agente y las herramientas de agente disponibles (como SQL, Python y gráficos) en un "bucle de razonamiento" para determinar la mejor forma de responder a la pregunta.
Respuesta del agente: el agente devuelve un flujo de mensajes que pueden contener texto, datos o gráficos. En algunas fuentes de datos, los mensajes de texto proporcionan información detallada sobre el razonamiento del agente, informan sobre el progreso de una acción o proporcionan la respuesta final a tu consulta.

Modos de conversación

Los agentes de la API Conversational Analytics admiten diferentes modos de conversación que determinan cómo gestiona un agente el historial de conversaciones y la persistencia del contexto en las interacciones. Están disponibles los siguientes modos de conversación:

Modo sin estado: el agente no almacena el historial de conversaciones. Cada interacción se trata de forma independiente. Este modo es útil en aplicaciones en las que no necesitas mantener el contexto en varias interacciones.
Modo con estado: el agente conserva el contexto y el historial de conversaciones, lo que permite interacciones más contextualizadas. Este modo es útil en aplicaciones en las que necesitas mantener el contexto en varias interacciones. Te recomendamos que uses el modo con estado para obtener respuestas más precisas y personalizadas.

Elige un modo de conversación en función de los requisitos de tu aplicación en cuanto al historial de conversaciones y la persistencia del contexto.

Los distintos modos de chat de un agente de la API Conversational Analytics.

Roles de gestión de identidades y accesos

Los roles de IAM controlan quién puede crear, gestionar, compartir e interactuar con los agentes de la API Conversational Analytics. En la siguiente tabla se describen los roles de gestión de identidades y accesos (IAM) clave de la API Conversational Analytics:

Rol	Ámbito habitual	Qué permite el rol	Quién puede usar este rol
Creador de agentes de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentCreator`)	Proyecto	Crear agentes y heredar los permisos del propietario del agente.	Cualquier analista de datos
Propietario del agente de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentOwner`)	Proyecto, agente	Editar, compartir o eliminar agentes con otros usuarios.	Analista sénior de datos
Editor de agente de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentEditor`)	Agente, proyecto	Actualizar la configuración o el contexto de un agente.	Analista júnior de datos
Usuario del agente de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentUser`)	Agente, proyecto	Chatea con un agente.	Profesional del marketing o propietario de una tienda
Visor del agente de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentViewer`)	Proyecto, agente	Lista los agentes y obtén sus detalles.	Cualquier usuario
Usuario de consulta de datos de Gemini Data Analytics (`roles/geminidataanalytics.queryDataUser`)	Proyecto	Consulta datos de fuentes de bases de datos compatibles mediante el método `QueryData`.	Desarrollador de aplicaciones, analista de datos
Usuario sin estado del agente de datos de Gemini Data Analytics (`roles/geminidataanalytics.dataAgentStatelessUser`)	Proyecto	Chatea con un agente sin que se almacene el contexto ni el historial de la conversación.	Cualquier usuario

Sistemas con varios agentes

Puedes diseñar sistemas complejos integrando varios agentes de la API Conversational Analytics. Un patrón habitual es usar un agente "orquestador" principal que delega tareas en uno o varios agentes especializados que gestionan dominios específicos, como datos de ventas o de marketing. Este enfoque te permite crear un sistema que pueda responder a una amplia gama de preguntas combinando los puntos fuertes de varios agentes.

En el siguiente diagrama se ilustra este patrón de varios agentes y se muestra cómo un agente principal puede delegar una pregunta sobre datos en un agente de analíticas conversacionales especializado:

Un agente orquestador principal delega una pregunta sobre datos a un agente de ventas especializado, que devuelve una respuesta al usuario.

El flujo de trabajo habitual de un sistema multiagente implica los siguientes pasos:

Un usuario empresarial o un analista de datos hace una pregunta en lenguaje natural, como "Muéstrame las tres tiendas con más ingresos".
Un agente "orquestador" principal delega la solicitud en el agente especializado adecuado.
Un agente especializado recibe la solicitud delegada, se conecta a las fuentes de datos pertinentes, usa sus herramientas para generar las consultas y los gráficos de SQL necesarios y genera una respuesta.
La respuesta del agente especializado se devuelve al usuario, como "Las tiendas 4, 9 y 3 son las que tienen los ingresos más altos. Aquí tienes un gráfico".

Siguientes pasos

Una vez que hayas comprendido los conceptos básicos de la API Conversational Analytics, descubre cómo implementar estas funciones:

Consulta cómo autenticarte y conectarte a una fuente de datos.
Consulta cómo crear y configurar un agente con HTTP.
Consulta cómo crear y configurar un agente con Python.
Más información sobre cómo guiar el comportamiento de un agente con contexto creado
Consulta información sobre el control de acceso con IAM para la API Conversational Analytics.
Consulta cómo renderizar las respuestas de los agentes para las fuentes de datos de Looker.