Modelos Llama totalmente gestionados


Los modelos Llama se pueden usar como APIs gestionadas y modelos autodesplegados en Vertex AI. Puedes transmitir tus respuestas para reducir la latencia que perciben los usuarios finales. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos Llama gestionados

Los modelos de Llama ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo Llama en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Cuando se usan modelos Llama como API gestionada, no es necesario aprovisionar ni gestionar ninguna infraestructura.

Los siguientes modelos de Llama están disponibles para usarse en Vertex AI. Para acceder a un modelo Llama, ve a su tarjeta de modelo de Model Garden.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y potente, y ofrece funciones de programación, razonamiento e imagen. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de un total de 400.000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y MoE alternas, donde cada token activa un experto compartido más uno de los 128 expertos asignados. El modelo se ha preentrenado en 200 idiomas y se ha optimizado para ofrecer interacciones de chat de alta calidad mediante un proceso posterior al entrenamiento perfeccionado.

Llama 4 Maverick 17B-128E es multimodal y está diseñado para la generación de subtítulos de imágenes avanzada, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia y comprensión de imágenes de primer nivel.

Cuestiones importantes

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, despliega Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
  • No se admiten las predicciones por lotes.

Ir a la tarjeta del modelo Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que supera a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de los 109.000 millones de parámetros totales y 16 expertos.

Llama 4 Scout 17B-16E es adecuado para tareas de recuperación en contextos largos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros de interacción de usuarios extensos para la personalización y razonar en grandes bases de código.

Ir a la tarjeta del modelo Llama 4

Cuestiones importantes

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, despliega Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
  • No se admiten las predicciones por lotes.

Ir a la tarjeta del modelo Llama 4

Llama 3.3

Llama 3.3 es un modelo de 70.000 millones de parámetros ajustado para instrucciones de solo texto que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto.

Ir a la tarjeta del modelo Llama 3.3 70B

Usar modelos Llama

En el caso de los modelos gestionados, puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo. Para saber cómo hacer llamadas de streaming y no de streaming a los modelos de Llama, consulta Llamar a APIs de modelos abiertos.

Para usar un modelo de Vertex AI autodesplegado, sigue estos pasos:

  1. Ve a la consola Model Garden.
  2. Busca el modelo de Vertex AI pertinente.
  3. Haz clic en Habilitar y rellena el formulario proporcionado para obtener las licencias de uso comercial necesarias.

Para obtener más información sobre cómo implementar y usar modelos de partners, consulta Implementar un modelo de partner y enviar solicitudes de predicción.

Siguientes pasos

Consulta cómo usar los modelos Llama.