Modelos de Llama completamente administrados


Los modelos Llama en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Llama en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de Llama usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos de Llama disponibles

Los siguientes modelos de Llama están disponibles en Meta para usarlos en Vertex AI. Para acceder a un modelo de Llama, ve a su tarjeta de modelo de Model Garden.

Los modelos que se encuentran en Vista previa también tienen la opción de autodeploy. Si necesitas un servicio listo para la producción, usa los modelos de Llama autoadministrados.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y potente que ofrece capacidades de programación, razonamiento y procesamiento de imágenes. Cuenta con una arquitectura de mezcla de expertos (MoE) con 17,000 millones de parámetros activos de un total de 400,000 millones de parámetros y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido y uno de los 128 expertos que se enrutan. El modelo se entrenó previamente en 200 idiomas y se optimizó para interacciones de chat de alta calidad a través de una canalización posterior al entrenamiento perfeccionada.

Llama 4 Maverick 17B-128E es multimodal y es adecuado para la generación avanzada de leyendas de imágenes, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia de primer nivel y comprensión de imágenes.

Consideraciones

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
  • No se admiten las predicciones por lotes.

Ir a la tarjeta de modelo de Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que superan a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de MoE con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales y 16 expertos.

Llama 4 Scout 17B-16E es adecuado para tareas de recuperación dentro de contextos largos y tareas que exigen razonamiento sobre grandes cantidades de información, como resumir varios documentos extensos, analizar registros extensos de interacción del usuario para la personalización y razonar en grandes bases de código.

Ir a la tarjeta de modelo de Llama 4

Consideraciones

  • Puedes incluir un máximo de tres imágenes por solicitud.
  • A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
  • No se admiten las predicciones por lotes.

Ir a la tarjeta de modelo de Llama 4

Llama 3.3

Llama 3.3 es un modelo de solo texto de 70B ajustado por instrucciones que proporciona un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto.

Ir a la tarjeta de modelo de Llama 3.3 70B

¿Qué sigue?

Obtén más información para usar los modelos de Llama.