Los modelos Llama en Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo Llama en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos Llama usan una API gestionada, no es necesario aprovisionar ni gestionar infraestructura.
Puedes transmitir tus respuestas para reducir la latencia percibida por el usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.
Modelos Llama disponibles
Meta ofrece los siguientes modelos Llama para usarlos en Vertex AI. Para acceder a un modelo Llama, ve a su tarjeta de modelo de Model Garden.
Los modelos que están en Vista previa también tienen la opción de autodespliegue. Si necesitas un servicio listo para producción, usa los modelos Llama autodesplegables.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y potente, y ofrece funciones de programación, razonamiento e imagen. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de un total de 400.000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y MoE alternas, donde cada token activa un experto compartido más uno de los 128 expertos de la ruta. El modelo se ha preentrenado en 200 idiomas y se ha optimizado para ofrecer interacciones de chat de alta calidad mediante un proceso posterior al entrenamiento perfeccionado.
Llama 4 Maverick 17B-128E es multimodal y está pensada para la generación de subtítulos de imágenes avanzada, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia y comprensión de imágenes de primer nivel.
Cuestiones importantes
- Puedes incluir un máximo de tres imágenes por solicitud.
- El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que supera a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de Mixture-of-Experts (MoE) con 17.000 millones de parámetros activos de los 109.000 millones de parámetros totales y 16 expertos.
Llama 4 Scout 17B-16E es adecuado para tareas de recuperación en contextos largos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros de interacción de usuarios extensos para la personalización y razonar en grandes bases de código.
Ir a la tarjeta de modelo de Llama 4
Cuestiones importantes
- Puedes incluir un máximo de tres imágenes por solicitud.
- El endpoint de MaaS no usa Llama Guard, a diferencia de las versiones anteriores. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, a continuación, envía las peticiones y respuestas a ese endpoint. Sin embargo, en comparación con Llama 4, Llama Guard tiene un contexto más limitado (128.000) y solo puede procesar solicitudes con una sola imagen al principio de la petición.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 3.3
Llama 3.3 es un modelo de 70.000 millones de parámetros ajustado para instrucciones de solo texto que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto.
Ir a la tarjeta del modelo Llama 3.3 70B
Siguientes pasos
Consulta cómo usar los modelos Llama.