Modos de Deployment en RAG Engine en Agent Platform de Gemini Enterprise

RAG Engine en Gemini Enterprise Agent Platform proporciona diferentes modos de implementación para operar tus instancias de RAG. La elección del modo de implementación determina dónde se almacenan tus datos, cómo se escala ese almacenamiento a medida que crecen tus datos y qué nivel de administración de infraestructura se requiere de tu parte. Si comprendes cómo funcionan estos modos, podrás elegir el equilibrio adecuado entre simplicidad, escalabilidad y costos para tu proyecto.

RAG Engine ofrece dos modos de implementación: sin servidores y Spanner. Puedes alternar entre ambos modos sin problemas. Los datos de cada modo permanecen aislados de los demás.

Modos de implementación disponibles

En esta sección, analizaremos los dos modos de implementación disponibles para RAG Engine:

Modo sin servidores

El modo sin servidores es la forma más económica y recomendada de comenzar a usar RAG Engine. Proporciona una base de datos completamente administrada, a escala planetaria y lista para empresas que abstrae todo el aprovisionamiento y la escalabilidad de la base de datos.

  • Ideal para: La mayoría de los usuarios, incorporación rápida y escalamiento sin problemas sin necesidad de administrar la configuración de la infraestructura.
  • Funciones clave: No requiere administración de niveles. Utiliza automáticamente la búsqueda de vectores administrada por RAG como la base de datos de vectores predeterminada para proporcionar una experiencia de RAG optimizada y lista para usar.

En el modo sin servidores, la base de datos administrada por RAG se utiliza para administrar las operaciones comerciales de RAG y almacenar los recursos de RAG. Estos recursos incluyen (sin limitaciones) RagCorpus, RagFiles, RagMetadata, DataSchema, etcétera, pero ya no se pueden usar para la indexación de la incorporación ni la búsqueda vectorial.

Los usuarios siempre deberán elegir una base de datos de vectores diferente por separado. En el modo sin servidores, de forma predeterminada, RAG Engine aprovisiona una colección de Vector Search 2.0 en tu proyecto para la indexación de embeddings y la búsqueda de vectores. En comparación con el modo de Spanner, aprovisionar Vector Search 2.0 en tu proyecto te brinda visibilidad y control totales sobre el uso y los costos de la BD de vectores. Consulta la sección Modo de Spanner en comparación con el modo sin servidores para obtener una comparación detallada.

Modo de Spanner

El modo de Spanner asigna infraestructura dedicada de Spanner específicamente para que sirva como base de la implementación de tu RAG Engine. Está diseñado para cargas de trabajo que requieren funciones de cumplimiento específicas (como CMEK) o instancias de bases de datos aisladas y dedicadas. El modo Spanner se asigna como predeterminado si no se selecciona explícitamente un modo.

Cuando usas el modo de Spanner, debes administrar tu infraestructura seleccionando un nivel de rendimiento:

  • Nivel Básico (predeterminado): Es un nivel fijo, rentable y de baja capacidad de procesamiento adecuado para la experimentación, los tamaños de datos pequeños o las cargas de trabajo que no son sensibles a la latencia.
  • Nivel escalado: Ofrece rendimiento a escala de producción con funcionalidad de ajuste de escala automático. Es adecuado para los clientes con grandes cantidades de datos o cargas de trabajo sensibles al rendimiento.

Aislamiento de datos y cambio de modos

El motor de RAG te permite cambiar el modo de implementación de tu proyecto, siempre y cuando no haya operaciones en curso en tu modo de implementación activo. Puedes tener datos en ambos modos. Sin embargo, solo un modo puede estar activo a la vez, y los datos están estrictamente aislados entre los modos de implementación.

Como herramienta útil, puedes imaginar que tu proyecto se comporta como si tuviera dos back-ends completamente separados. Los recursos que creas (corpus, archivos importados y subidos, y las incorporaciones analizadas) están vinculados de forma permanente al modo de implementación que estaba activo durante su creación. Todas las solicitudes de recuperación, ya sea directamente o a través de Gemini, también se limitarán a los corpus y archivos presentes en tu modo de implementación actual. Cambiar entre los dos modos no transfiere ni borra datos del otro modo.

/gemini-enterprise-agent-platform/images/rag-engine-deployment-modes.png

Como se ilustra en el diagrama:

  • API unificada: Usas exactamente las mismas APIs de RAG de Agent Platform para crear y administrar recursos. La API enruta automáticamente tus solicitudes al backend asociado con tu modo de implementación activo.
  • Visibilidad: Si el modo sin servidor está activo, tu aplicación solo puede ver los corpus A y B de RagCorpus, y solo puede interactuar con ellos. RagCorpus C, que se creó en el modo Spanner, permanece almacenado de forma segura, pero está completamente oculto y es inaccesible para tu aplicación hasta que vuelvas a cambiar el modo de tu proyecto a Spanner.
  • Sin pérdida de datos: Cambiar de modo no borra tus datos. Solo cambia el "backend" que consulta la API.

Administra tu modo de implementación

El modo de implementación es un parámetro de configuración a nivel del proyecto. Puedes ver o cambiar tu modo actual con las APIs de GetRagEngineConfig y UpdateRagEngineConfig. Consulta la página Cómo cambiar entre modos para obtener detalles sobre cómo cambiar entre los modos de implementación y elegir un nivel adecuado para tu modo de Spanner.

Borra los datos y detiene la facturación

Dado que los datos están aislados entre los modos, los procesos para limpiar los recursos y detener la facturación difieren ligeramente según dónde se encuentren tus datos.

  • Para borrar datos de Serverless, asegúrate de que tu modo activo esté configurado como Serverless. Llama a la API de ListRagCorpora para ver tus recursos y, luego, borra manualmente cada corpus con la API de DeleteRagCorpus.
  • Para borrar datos de Spanner (desaprovisionamiento): Asegúrate de que tu modo activo esté configurado como Spanner. Actualiza tu RagEngineConfig y establece el nivel de Spanner en Unprovisioned. Esta acción borrará de inmediato tu instancia dedicada de Spanner y todos los datos de RAG que contenga, y detendrá la facturación asociada al modo de Spanner. Nota: Los datos borrados con el nivel Sin aprovisionar no se pueden recuperar.

Comparación entre el modo de Spanner y el modo sin servidores

Función Modo sin servidores Modo de Spanner
Costo
  • Es gratis para la administración y la organización de recursos.
  • La base de datos vectorial se factura directamente según la elección del usuario.
  • El precio depende del nivel que elijas. Incluye la administración y la organización de recursos.
  • El costo de la BD de vectores se cubre para todos los corpus con RagManagedDb como opción de base de datos de vectores.
  • Para el resto de los corpus, la base de datos de vectores se factura directamente según la elección del usuario.
Escalamiento Ajuste de escala automático completamente administrado Se debe configurar la elección del nivel, pero se ofrece un nivel de ajuste de escala automático.
Aislamiento El almacenamiento no está aislado Proporciona aislamiento del almacenamiento y el rendimiento.
CMEK No hay CMEK en este momento Ofrece compatibilidad con CMEK
Controles de seguridad de VPC Admitido Admitido
Bases de datos de vectores compatibles
  • Managed Vector Search 2.0 (predeterminado)
  • Pinecone
  • Weaviate
  • RagManagedDb (predeterminado)
  • Managed Vector Search 2.0
  • Vector Search 1.0
  • Pinecone
  • Weaviate

¿Qué sigue?