Los modelos Llama están disponibles para usarse como APIs administradas y modelos implementados por el usuario en Vertex AI. Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.
Modelos de Llama administrados
Los modelos Llama ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Llama en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Cuando usas los modelos de Llama como una API administrada, no es necesario aprovisionar ni administrar la infraestructura.
Los siguientes modelos están disponibles en Llama para usarlos en Vertex AI. Para acceder a un modelo de Llama, ve a su tarjeta de modelo de Model Garden.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E es el modelo de Llama 4 más grande y potente que ofrece capacidades de programación, razonamiento y procesamiento de imágenes. Cuenta con una arquitectura de mezcla de expertos (MoE) con 17,000 millones de parámetros activos de un total de 400,000 millones y 128 expertos. Llama 4 Maverick 17B-128E usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido más uno de los 128 expertos que se enrutaron. El modelo se entrena previamente en 200 idiomas y se optimiza para interacciones de chat de alta calidad a través de una canalización posterior al entrenamiento perfeccionada.
Llama 4 Maverick 17B-128E es multimodal y es adecuado para la generación avanzada de leyendas de imágenes, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia de primer nivel y comprensión de imágenes.
Consideraciones
- Puedes incluir un máximo de tres imágenes por solicitud.
- A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, que superan a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con una arquitectura de MoE con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales y 16 expertos.
Llama 4 Scout 17B-16E es adecuado para tareas de recuperación dentro de contextos largos y tareas que exigen razonamiento sobre grandes cantidades de información, como resumir varios documentos extensos, analizar registros extensos de interacción del usuario para la personalización y razonar en grandes bases de código.
Ir a la tarjeta de modelo de Llama 4
Consideraciones
- Puedes incluir un máximo de tres imágenes por solicitud.
- A diferencia de las versiones anteriores, el extremo de MaaS no usa Llama Guard. Para usar Llama Guard, implementa Llama Guard desde Model Garden y, luego, envía las instrucciones y las respuestas a ese extremo. Sin embargo, en comparación con Llama 4, LlamaGuard tiene un contexto más limitado (128,000) y solo puede procesar solicitudes con una sola imagen al comienzo de la instrucción.
- No se admiten las predicciones por lotes.
Ir a la tarjeta de modelo de Llama 4
Llama 3.3
Llama 3.3 es un modelo de solo texto de 70B ajustado por instrucciones que proporciona un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto.
Ir a la tarjeta de modelo de Llama 3.3 70B
Usa modelos de Llama
En el caso de los modelos administrados, puedes usar comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos. Para obtener información sobre cómo hacer llamadas de transmisión y no transmisión a los modelos de Llama, consulta Llama a las APIs de modelos abiertos.
Para usar un modelo de Vertex AI implementado por el usuario, haz lo siguiente:
- Navega a la consola de Model Garden.
- Busca el modelo de Vertex AI pertinente.
- Haz clic en Habilitar y completa el formulario proporcionado para obtener las licencias de uso comercial necesarias.
Si deseas obtener más información para implementar y usar modelos de socios, consulta Implementa un modelo de socio y realiza solicitudes de predicción.
¿Qué sigue?
Obtén más información para usar los modelos de Llama.