Modelos de Llama completamente administrados


Los modelos de Llama están disponibles para su uso como APIs administradas y modelos autodeployados en Gemini Enterprise Agent Platform. Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos de Llama administrados

Los modelos de Llama ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Llama en Agent Platform, envía una solicitud directamente al extremo de API de Agent Platform. Cuando usas modelos de Llama como una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Los siguientes modelos están disponibles en Llama para usarse en Gemini Enterprise Agent Platform. Para acceder a un modelo de Llama, ve a su ficha del modelo de Model Garden.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y capaz que ofrece capacidades de programación, razonamiento y procesamiento de imágenes. Cuenta con una arquitectura de mezcla de expertos (MoE) con 17,000 millones de parámetros activos de un total de 400,000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido más uno de los 128 expertos que se enrutan. El modelo se entrenó previamente en 200 idiomas y se optimizó para interacciones de chat de alta calidad a través de un flujo de trabajo posterior al entrenamiento perfeccionado.

Llama 4 Maverick 17B-128E es multimodal y es adecuado para la generación avanzada de subtítulos de imágenes, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia de primer nivel y comprensión de imágenes.

Consideraciones

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
  • No se admiten las predicciones por lotes.

Ir a la ficha del modelo de Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que superan a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de MoE con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales y 16 expertos.

Llama 4 Scout 17B-16E es adecuado para tareas de recuperación dentro de contextos extensos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros extensos de interacción del usuario para la personalización y razonar en grandes bases de código.

Ir a la ficha del modelo de Llama 4

Consideraciones

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
  • No se admiten las predicciones por lotes.

Ir a la ficha del modelo de Llama 4

Llama 3.3

Llama 3.3 es un modelo de solo texto de 70B ajustado por instrucciones que proporciona un rendimiento mejorado en relación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto.

Ir a la tarjeta de modelo de Llama 3.3 70B

Usa modelos de Llama

En el caso de los modelos administrados, puedes usar comandos curl para enviar solicitudes al extremo de la plataforma de Gemini Enterprise Agent con los siguientes nombres de modelos. Para obtener información sobre cómo hacer llamadas de transmisión y no transmisión a los modelos de Llama, consulta Cómo llamar a las APIs de modelos abiertos.

Para usar un modelo de Gemini Enterprise Agent Platform implementado por el usuario, haz lo siguiente:

  1. Navega a la consola de Model Garden.
  2. Busca el modelo pertinente de Gemini Enterprise Agent Platform.
  3. Haz clic en Habilitar y completa el formulario proporcionado para obtener las licencias de uso comercial necesarias.

Si deseas obtener más información para implementar y usar modelos de socios, consulta Implementa un modelo de socio y realiza solicitudes de predicción.

¿Qué sigue?

Obtén más información para usar los modelos de Llama.