Modelos de Llama con autoimplementación

Llama es una colección de modelos abiertos desarrollados por Meta que puedes ajustar y, además, implementar en Vertex AI. Llama ofrece modelos multimodales y de texto generativos previamente entrenados y ajustados a instrucciones.

Llama 4

La familia de modelos Llama 4 es una colección de modelos multimodales que usan la arquitectura de mezcla de expertos (MoE). Cuando se usa la arquitectura de MoE, los modelos con recuentos de parámetros muy grandes pueden activar un subconjunto de esos parámetros para cualquier entrada determinada, lo que genera inferencias más eficientes. Además, Llama 4 usa la fusión temprana, que integra información de texto y visión desde las etapas de procesamiento iniciales. Este método permite que los modelos de Llama 4 comprendan de manera más efectiva las relaciones complejas y matizadas entre el texto y las imágenes. Model Garden en Vertex AI ofrece dos modelos de Llama 4: Llama 4 Scout y Llama 4 Maverick.

Para obtener más información, consulta la tarjeta de modelo de Llama 4 en Model Garden o mira la entrada de blog de presentación de Llama 4 en Vertex AI.

Llama 4 Maverick

Llama 4 Maverick es el modelo más grande y capaz de Llama 4, que ofrece capacidades líderes en la industria en pruebas comparativas de imágenes, razonamiento y programación. Cuenta con 17,000 millones de parámetros activos de 400,000 millones de parámetros totales con 128 expertos. Llama 4 Maverick usa capas densas y de MoE alternadas, en las que cada token activa un experto compartido más uno de los 128 expertos enrutados. Puedes usar el modelo como un modelo previamente entrenado (PT) o un modelo ajustado por instrucciones (IT) con compatibilidad con FP8. El modelo se entrenó previamente en 200 idiomas y se optimizó para interacciones de chat de alta calidad a través de una canalización posterior al entrenamiento refinada.

Llama 4 Maverick es multimodal y tiene una longitud de contexto de 1 millón. Es adecuada para la generación de subtítulos avanzados, el análisis, la comprensión precisa de imágenes, las preguntas y respuestas visuales, la generación de texto creativo, los asistentes de IA de uso general y los chatbots sofisticados que requieren inteligencia y comprensión de imágenes de primer nivel.

Llama 4 Scout

Llama 4 Scout ofrece resultados de vanguardia para su clase de tamaño con una gran ventana de contexto de 10 millones de tokens, lo que supera a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Cuenta con 17,000 millones de parámetros activos de los 109,000 millones de parámetros totales con 16 expertos y está disponible como modelo previamente entrenado (PT) o ajustado por instrucciones (IT). Llama 4 Scout es adecuado para tareas de recuperación en contextos extensos y tareas que requieren razonamiento sobre grandes cantidades de información, como resumir varios documentos grandes, analizar registros de interacción del usuario extensos para la personalización y el razonamiento en bases de código grandes.

Llama 3.3

Llama 3.3 es un modelo ajustado por instrucciones de 70,000 millones de solo texto que proporciona un rendimiento mejorado en relación con Llama 3.1 70,000 millones y Llama 3.2 90,000 millones cuando se usa para aplicaciones de solo texto. Además, en algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B.

Para obtener más información, consulta la tarjeta de modelo Llama 3.3 en Model Garden.

Llama 3.2

Llama 3.2 permite a los desarrolladores compilar e implementar los modelos y las aplicaciones de IA generativa más recientes que usan las capacidades de Llama para generar nuevas innovaciones, como el razonamiento de imágenes. Llama 3.2 también está diseñado para ser más accesible para las aplicaciones integradas en el dispositivo. En la siguiente lista, se destacan las funciones de Llama 3.2:

  • Ofrece una experiencia de IA más privada y personalizada, con procesamiento integrado en el dispositivo para modelos más pequeños.
  • Ofrece modelos diseñados para ser más eficientes, con latencia reducida y un rendimiento mejorado, lo que los hace adecuados para una amplia variedad de aplicaciones.
  • Se compiló en la parte superior de Llama Stack, lo que facilita la compilación y la implementación de aplicaciones. Llama Stack es una interfaz estandarizada para compilar componentes de cadena de herramientas canónicos y aplicaciones de agentes.
  • Admite tareas de visión, con una nueva arquitectura de modelos que integra las representaciones del codificador de imágenes en el modelo de lenguaje.

Los modelos de 1,000 y 3,000 millones son modelos ligeros de solo texto que admiten casos de uso en el dispositivo, como la recuperación de conocimiento local multilingüe, el resumen y la reescritura.

Los modelos Llama 11B y 90B son modelos multimodales pequeños y medianos con razonamiento de imágenes. Por ejemplo, pueden analizar datos visuales de gráficos para proporcionar respuestas más precisas y extraer detalles de las imágenes para generar descripciones de texto.

Para obtener más información, consulta la tarjeta de modelo de Llama 3.2 en Model Garden.

Consideraciones

Cuando usas los 11B y 90B, no hay restricciones cuando envías instrucciones de solo texto. Sin embargo, si incluyes una imagen en la instrucción, esta debe estar al comienzo y solo puedes incluir una. Por ejemplo, no puedes incluir texto y, luego, una imagen.

Llama 3.1

La colección de modelos de lenguaje grandes (LLM) multilingües de Llama 3.1 es una recopilación de modelos generativos previamente entrenados y ajustados por instrucciones en tamaños de 8,000, 70,000 y 405,000 millones (texto de entrada/salida de texto). Los modelos de solo texto ajustados por instrucciones de Llama 3.1 (8000, 70,000, 405,000 millones) están optimizados para casos de uso de diálogos multilingües y tienen un mejor rendimiento que muchos de los modelos de chat cerrado y de código abierto en comparativas comunes de la industria.

Para obtener más información, consulta la tarjeta de modelo Llama 3.1 en Model Garden.

Llama 3

Los modelos ajustados por instrucciones de Llama 3 son una colección de LLM optimizados para casos de uso de diálogo. Los modelos de Llama 3 superan a muchos de los modelos de chat de código abierto disponibles en comparativas comunes de la industria.

Para obtener más información, consulta la tarjeta de modelo Llama 3 en Model Garden.

Llama 2

Los LLM de Llama 2 son una colección de modelos de texto generativo previamente entrenados y ajustados, que varían en tamaño de 7,000 millones a 70,000 millones de parámetros.

Para obtener más información, consulta la tarjeta de modelo de Llama 2 en Model Garden.

Code Llama

Los modelos de Code Llama de Meta están diseñados para la síntesis, la comprensión y la instrucción de código.

Para obtener más información, consulta la tarjeta de modelo Code Llama en Model Garden.

Llama Guard 3

Llama Guard 3 se basa en las capacidades de Llama Guard 2 y agrega tres categorías nuevas: Difamación, Elecciones y Abuso del intérprete de código. Además, este modelo es multilingüe y tiene un formato de instrucción que es coherente con los modelos de instrucción de Llama 3 o versiones posteriores.

Para obtener más información, consulta la tarjeta de modelo de Llama Guard en Model Garden.

Recursos

Para obtener más información acerca de Model Garden, consulta Explora los modelos de IA en Model Garden.