Llama es una colección de modelos abiertos desarrollados por Meta que puedes ajustar y, además, implementar en Gemini Enterprise Agent Platform. Llama ofrece modelos multimodales y de texto generativos previamente entrenados y ajustados a instrucciones.
Llama 4
La familia de modelos Llama 4 es una colección de modelos multimodales que usan la arquitectura de mezcla de expertos (MoE). Con la arquitectura de MoE, los modelos con una gran cantidad de parámetros pueden activar un subconjunto de esos parámetros para cualquier entrada determinada, lo que genera inferencias más eficientes. Además, Llama 4 usa la fusión temprana, que integra información de texto y visión desde las etapas iniciales del procesamiento. Este método permite que los modelos de Llama 4 comprendan de manera más eficaz las relaciones complejas y matizadas entre el texto y las imágenes. Model Garden en Gemini Enterprise Agent Platform ofrece dos modelos de Llama 4: Llama 4 Scout y Llama 4 Maverick.
Para obtener más información, consulta la tarjeta de modelo de Llama 4 en Model Garden o lee la entrada de blog sobre el lanzamiento de Llama 4 en Gemini Enterprise Agent Platform.
Llama 4 Maverick
Llama 4 Maverick es el modelo de Llama 4 más grande y capaz, y ofrece capacidades líderes en la industria en las comparativas de programación, razonamiento y procesamiento de imágenes. Cuenta con 17,000 millones de parámetros activos de un total de 400,000 millones con 128 expertos. Llama 4 Maverick usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido más uno de los 128 expertos que se enrutan. Puedes usar el modelo como un modelo previamente entrenado (PT) o un modelo ajustado según las instrucciones (IT) con compatibilidad con FP8. El modelo se entrenó previamente en 200 idiomas y se optimizó para interacciones de chat de alta calidad a través de una canalización posterior al entrenamiento perfeccionada.
Llama 4 Maverick es multimodal y tiene una longitud de contexto de 1 millón. Es adecuado para la generación avanzada de subtítulos de imágenes, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia de primer nivel y comprensión de imágenes.
Llama 4 Scout
Llama 4 Scout ofrece resultados de vanguardia para su clase de tamaño con una gran ventana de contexto de 10 millones de tokens, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales con 16 expertos y está disponible como un modelo previamente entrenado (PT) o ajustado según las instrucciones (IT). Llama 4 Scout es adecuado para tareas de recuperación dentro de contextos extensos y tareas que exigen razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros extensos de interacción del usuario para la personalización y razonar en grandes bases de código.
Llama 3.3
Llama 3.3 es un modelo de solo texto de 70B ajustado por instrucciones que proporciona un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto. Además, para algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B.
Para obtener más información, consulta la tarjeta de modelo de Llama 3.3 en Model Garden.
Llama 3.2
Llama 3.2 permite a los desarrolladores compilar e implementar los modelos y las aplicaciones de IA generativa más recientes que usan las capacidades de Llama para generar nuevas innovaciones, como el razonamiento de imágenes. Llama 3.2 también está diseñado para ser más accesible para las aplicaciones integradas en el dispositivo. En la siguiente lista, se destacan las funciones de Llama 3.2:
- Ofrece una experiencia de IA más privada y personalizada, con procesamiento integrado en el dispositivo para modelos más pequeños.
- Ofrece modelos diseñados para ser más eficientes, con latencia reducida y un rendimiento mejorado, lo que los hace adecuados para una amplia variedad de aplicaciones.
- Se compiló en la parte superior de Llama Stack, lo que facilita la compilación y la implementación de aplicaciones. Llama Stack es una interfaz estandarizada para compilar componentes de cadena de herramientas canónicos y aplicaciones de agentes.
- Admite tareas de visión, con una nueva arquitectura de modelos que integra las representaciones del codificador de imágenes en el modelo de lenguaje.
Los modelos de 1,000 y 3,000 millones son modelos ligeros de solo texto que admiten casos de uso en el dispositivo, como la recuperación de conocimiento local multilingüe, el resumen y la reescritura.
Los modelos Llama 11B y 90B son modelos multimodales pequeños y medianos con razonamiento de imágenes. Por ejemplo, pueden analizar datos visuales de gráficos para proporcionar respuestas más precisas y extraer detalles de las imágenes para generar descripciones de texto.
Para obtener más información, consulta la tarjeta de modelo de Llama 3.2 en Model Garden.
Consideraciones
Cuando usas los 11B y 90B, no hay restricciones cuando envías instrucciones de solo texto. Sin embargo, si incluyes una imagen en la instrucción, esta debe estar al comienzo y solo puedes incluir una. Por ejemplo, no puedes incluir texto y, luego, una imagen.
Llama 3.1
La colección de modelos de lenguaje grandes (LLM) multilingües de Llama 3.1 es una colección de modelos generativos previamente entrenados y ajustados por instrucciones en tamaños de 8,000, 70,000 y 405,000 millones (texto de entrada y salida). Los modelos de solo texto ajustados por instrucciones de Llama 3.1 (8000, 70,000, 405,000 millones) están optimizados para casos de uso de diálogos multilingües y tienen un mejor rendimiento que muchos de los modelos de chat cerrado y de código abierto en comparativas comunes de la industria.
Para obtener más información, consulta la tarjeta de modelo Llama 3.1 en Model Garden.
Llama 3
Los modelos ajustados con instrucciones de Llama 3 son una colección de LLM optimizados para casos de uso de diálogo. Los modelos de Llama 3 superan a muchos de los modelos de chat de código abierto disponibles en las comparativas comunes de la industria.
Para obtener más información, consulta la tarjeta de modelo de Llama 3 en Model Garden.
Llama 2
Los LLM de Llama 2 son una colección de modelos de texto generativo previamente entrenados y ajustados, con un tamaño que varía de 7B a 70B parámetros.
Para obtener más información, consulta la tarjeta de modelo de Llama 2 en Model Garden.
Code Llama
Los modelos Code Llama de Meta están diseñados para la síntesis, la comprensión y la instrucción de código.
Para obtener más información, consulta la tarjeta del modelo Code Llama en Model Garden.
Llama Guard 3
Llama Guard 3 se basa en las capacidades de Llama Guard 2 y agrega tres categorías nuevas: Difamación, Elecciones y Abuso del intérprete de código. Además, este modelo es multilingüe y tiene un formato de instrucción que es coherente con Llama 3 o modelos de instrucción posteriores.
Para obtener más información, consulta la tarjeta de modelo de Llama Guard en Model Garden.
Recursos
Para obtener más información acerca de Model Garden, consulta Explora los modelos de IA en Model Garden.