Seguridad en Gemini Enterprise Agent Platform

Los modelos de IA generativa, como Gemini, requieren medidas de seguridad sólidas para mitigar riesgos como la generación de contenido dañino, la filtración de información sensible o el uso inadecuado. Google Cloud's Gemini Enterprise Agent Platform ofrece un conjunto de herramientas y prácticas para implementar la seguridad integral de tus modelos de Gemini.

Riesgos de seguridad potenciales y estrategias de mitigación

Cuando implementes modelos de Gemini, es fundamental identificar y mitigar varios riesgos potenciales. Un enfoque proactivo para comprender estos riesgos permite una implementación más eficaz de las medidas de seguridad. Un enfoque de seguridad de varias capas es fundamental, ya que puede mitigar o evitar lo siguiente:

  • Riesgos de contenido: Pueden incluir contenido dañino, lenguaje obsceno y sexualización, y contenido violento o sangriento.
  • Riesgos de seguridad de la marca: Es posible que el contenido generado no se alinee con el tono o los valores de tu marca, que respalde a competidores o productos inapropiados, o que genere contenido que pueda dañar la reputación.
  • Riesgos de alineación: Es posible que el contenido generado sea irrelevante o impreciso.
  • Riesgos de seguridad y privacidad: Es posible que el contenido generado filtre datos de entrenamiento o instrucciones sensibles, o que los usuarios adversarios intenten obligar al modelo a anular los protocolos de seguridad o comportarse de formas no deseadas.

Nuestros modelos implementados ofrecen varias funciones para abordar estos posibles problemas:

  • El modelo predeterminado y los filtros no configurables proporcionan una red de seguridad general.
  • Las instrucciones del sistema proporcionan orientación directa al modelo sobre el comportamiento preferido y los temas que se deben evitar.
  • Los filtros de contenido permiten establecer umbrales específicos para los tipos de daño comunes.
  • Gemini como filtro ofrece un punto de control avanzado y personalizable para problemas de seguridad complejos o matizados que podrían omitirse en las capas anteriores o requerir una evaluación más sensible al contexto.
  • Model Armor proporciona protección de nivel empresarial contra la inyección de instrucciones y el jailbreak, los daños al contenido, la protección de datos sensibles, la detección de software malicioso y la navegación segura.
  • DLP aborda específicamente el riesgo fundamental de filtración de datos sensibles, en caso de que el modelo tenga acceso a ellos. También permite crear listas de bloqueo personalizadas.
  • Las credenciales de contenido agregan metadatos de C2PA firmados de forma criptográfica a las imágenes generadas con el modelo Gemini 3 Pro Image, lo que indica que se generaron con IA y proporciona un historial verificable de su origen.

Herramientas de seguridad disponibles en Gemini Enterprise Agent Platform para Gemini

Gemini Enterprise Agent Platform ofrece varias herramientas para administrar la seguridad de tus modelos de Gemini. Comprender cómo funciona cada una, sus consideraciones y los casos de uso ideales te ayudará a crear una solución de seguridad personalizada.

Enfoque Cómo funciona Protección proporcionada Riesgos Cuándo usar
Configuración predeterminada: Gemini + filtros no configurables Los modelos de Gemini están diseñados de forma inherente teniendo en cuenta la seguridad y la equidad, incluso cuando se enfrentan a instrucciones adversarias. Google invirtió en evaluaciones de seguridad integrales incluidas las de sesgo y toxicidad. La configuración predeterminada incluye una capa de protección independiente diseñada para evitar la generación de contenido relacionado con material de abuso sexual infantil (CSAM) o contenido protegido por derechos de autor (recitación). Protección de referencia contra el material de abuso sexual infantil y los derechos de autor (recitación) Es posible que la seguridad predeterminada de Gemini no satisfaga las necesidades de tu organización. El modelo puede alucinar o no seguir las instrucciones. Es posible que los atacantes motivados aún tengan éxito en jailbreak y la inyección de instrucciones. Workflows en los que no se espera ninguna entrada maliciosa
Filtros configurables Los filtros de contenido precompilados de Gemini proporcionan protección adicional contra varias categorías de contenido dañino, como contenido sexual, de odio, de hostigamiento o peligroso. Puedes configurar umbrales de bloqueo para cada categoría de daño (p.ej., BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) según la probabilidad o la gravedad del contenido dañino. Estos son una capa independiente del modelo, por lo que son sólidos contra el jailbreak. Sólido contra las infracciones de categorías predefinidas, sensibilidad ajustable No tiene personalización detallada más allá de la configuración de umbrales para categorías predefinidas. En ocasiones, puede bloquear contenido benigno (falsos positivos) o no detectar contenido dañino (falsos negativos). Solo está disponible para el filtrado de respuestas, no para el filtrado de instrucciones. Proporciona un nivel básico de seguridad para las aplicaciones o los agentes orientados al usuario. Si tu objetivo es garantizar la seguridad del contenido y de la marca, los filtros de contenido deben combinarse con las instrucciones del sistema.
Instrucciones del sistema Puedes indicarle al modelo tus lineamientos de seguridad de la marca y del contenido a través de instrucciones del sistema o preámbulos. Por ejemplo, puedes decirle al modelo que no responda preguntas relacionadas con la política o que cumpla con lineamientos específicos de tono y voz de la marca. Las instrucciones del sistema guían directamente el comportamiento del modelo. Personalizable para la seguridad del contenido o de la marca, puede ser muy eficaz El modelo puede alucinar o no seguir las instrucciones. Es posible que los atacantes motivados aún tengan éxito en el jailbreak y la inyección de instrucciones. Aplicaciones o agentes que requieren el cumplimiento de lineamientos de marca específicos o políticas de contenido matizadas Si tu objetivo es garantizar la seguridad del contenido y de la marca, las instrucciones del sistema deben combinarse con los filtros de contenido.
Model Armor Model Armor es un Google Cloud servicio diseñado para mejorar la seguridad de tus aplicaciones de IA. Funciona examinando de forma proactiva las instrucciones y respuestas de LLM, protegiendo contra varios riesgos y garantizando prácticas de IA responsable. Ya sea que implementes IA en Google Cloud o en otros proveedores de servicios en la nube, Model Armor puede ayudarte a evitar entradas maliciosas , verificar la seguridad del contenido, proteger datos sensibles, mantener el cumplimiento y aplicar tus políticas de seguridad de IA de manera coherente en todas tus aplicaciones de IA. Filtrado de inyección de instrucciones y jailbreak, filtros de contenido, protección de datos sensibles, detección de software malicioso y navegación segura Costo y latencia Oferta paga para clientes con necesidades empresariales
DLP para listas de bloqueo personalizadas y protección de datos sensibles La API de DLP puede inspeccionar texto para identificar y clasificar información sensible en función de una amplia gama de detectores Infotipo predefinidos y personalizados. Una vez identificada, puede aplicar técnicas de desidentificación, como ocultamiento, enmascaramiento o asignación de tokens. La API de DLP también se puede usar para bloquear palabras clave. Protección de entrada: Antes de enviar instrucciones o datos del usuario a Gemini, puedes pasar el texto a través de la API de DLP para ocultar o enmascarar cualquier información sensible. Esto evita que el modelo procese o registre datos sensibles. Protección de salida: Si existe el riesgo de que Gemini genere o revele información sensible de forma involuntaria (p.ej., si resume documentos fuente que contienen PII), la API de DLP puede analizar el resultado del modelo antes de enviarlo al usuario. Filtrado sólido para lenguaje obsceno o palabras personalizadas Filtrado sólido para datos sensibles data. Agrega latencia. Puede generar un bloqueo excesivo. Protección contra la pérdida de datos para agentes que tienen acceso a datos sensibles
Gemini como filtro Puedes usar Gemini para filtrar instrucciones y respuestas de tu agente o app. Esto implica realizar una segunda llamada a un modelo de Gemini rápido y rentable (como Gemini Flash o Flash Lite) para evaluar si la entrada de un usuario o una herramienta, o el resultado de tu modelo de Gemini principal, es seguro. El modelo de filtro recibe instrucciones para decidir si el contenido es seguro o no según las políticas definidas, incluidas la seguridad del contenido, la seguridad de la marca y la desalineación del agente. Esto ofrece una protección sólida y altamente personalizable contra infracciones de seguridad del contenido, problemas de seguridad de la marca, desviación del modelo y alucinaciones y puede analizar texto, imágenes, video y audio para obtener una comprensión integral. Altamente sólido y personalizable para la seguridad del contenido o de la marca, la desviación, la alucinación; comprensión multimodal. Costo y latencia adicionales Posibilidad de falsos negativos extremadamente raros Proporciona un nivel personalizado de seguridad para las aplicaciones o los agentes orientados al usuario
Enfoque de varias capas: filtros configurables + instrucciones del sistema + DLP + Gemini como filtro Altamente sólido y personalizable para la seguridad del contenido o de la marca, la desviación, la alucinación; comprensión multimodal Costo y latencia adicionales Proporciona un nivel sólido de seguridad para las aplicaciones o los agentes orientados al usuario, en especial cuando se espera un uso malicioso y adversario
Credenciales de contenido de C2PA En el caso de los modelos compatibles, Gemini Enterprise Agent Platform agrega automáticamente Content Credentials firmadas de forma criptográfica a las imágenes generadas, lo que indica que se generaron por IA y proporciona un historial verificable de su origen según el estándar de C2PA. Para obtener más información, consulta Credenciales de contenido. Transparencia sobre el origen del contenido; ayuda a los usuarios a identificar imágenes generadas por IA imágenes. El uso de herramientas que no cumplen con los requisitos puede poner en riesgo la autenticidad de los archivos; no garantiza la confiabilidad de la fuente de contenido multimedia. Casos de uso de generación de contenido multimedia, en los que la transparencia sobre el origen y el historial del archivo es importante para la confianza del usuario

Evaluación de seguridad continua

La evaluación de seguridad continua es fundamental para los sistemas de IA, ya que el panorama de la IA y los métodos de uso inadecuado evolucionan constantemente. Las evaluaciones periódicas ayudan a identificar vulnerabilidades, evaluar la eficacia de la mitigación, adaptarse a los riesgos en evolución, garantizar la alineación con las políticas y los valores, generar confianza y mantener el cumplimiento. Para lograrlo, se usan varios tipos de evaluación, incluidas las evaluaciones de desarrollo, las evaluaciones de garantía, las pruebas de equipo rojo, las evaluaciones externas y las pruebas comparativas. El alcance de la evaluación debe abarcar la seguridad del contenido, la seguridad de la marca, la relevancia, el sesgo y la equidad, la veracidad y la solidez ante ataques adversarios. Las herramientas como el servicio de evaluación de IA generativa de Gemini Enterprise Agent Platform pueden ayudar en estos esfuerzos, lo que enfatiza que las mejoras iterativas basadas en los resultados de la evaluación son esenciales para el desarrollo IA responsable.