Vollständig verwaltete Llama-Modelle


Llama-Modelle in Vertex AI bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Da Llama-Modelle eine verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.

Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.

Verfügbare Llama-Modelle

Die folgenden Llama-Modelle sind von Meta zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.

Für Modelle, die sich in der Vorschau befinden, ist auch die Option zur Selbstbereitstellung verfügbar. Wenn Sie einen produktionsfertigen Dienst benötigen, verwenden Sie die selbst bereitgestellten Llama-Modelle.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E ist das größte und leistungsstärkste Llama 4-Modell, das Funktionen für Programmierung, Reasoning und Bilder bietet. Das Modell basiert auf der Mixture-of-Experts-Architektur (MoE) mit 17 Mrd. aktiven Parametern von insgesamt 400 Mrd. Parametern und 128 Experten. Llama 4 Maverick 17B-128E verwendet abwechselnd dichte und MoE-Ebenen. Bei jedem Token wird ein gemeinsamer Experte sowie einer der 128 weitergeleiteten Experten aktiviert. Das Modell wurde auf 200 Sprachen vortrainiert und durch eine optimierte Post-Training-Pipeline für hochwertige Chat-Interaktionen optimiert.

Llama 4 Maverick 17B-128E ist multimodal und eignet sich für die erweiterte Bildbeschriftung, Analyse, präzises Bildverständnis, visuelle Fragen und Antworten, kreative Textgenerierung, KI-Assistenten für allgemeine Zwecke und komplexe Chatbots, die erstklassige Intelligenz und Bildverständnis erfordern.

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird Llama Guard nicht verwendet, anders als bei früheren Versionen. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E liefert für seine Größenklasse modernste Ergebnisse, die frühere Llama-Generationen sowie andere offene und proprietäre Modelle bei mehreren Benchmarks übertreffen. Das Modell basiert auf einer MoE-Architektur mit 17 Mrd. aktiven Parametern von insgesamt 109 Mrd. Parametern und 16 Experten.

Llama 4 Scout 17B-16E eignet sich für Abrufvorgänge in langen Kontexten und für Aufgaben, die eine Analyse großer Informationsmengen erfordern, z. B. das Zusammenfassen mehrerer großer Dokumente, die Analyse umfangreicher Protokolle zur Nutzerinteraktion zur Personalisierung und die Analyse großer Codebasen.

Zur Modellkarte Llama 4

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird Llama Guard nicht verwendet, anders als bei früheren Versionen. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 3.3

Llama 3.3 ist ein reines Textmodell mit 70 Milliarden Parametern, das für Anweisungen optimiert wurde und im Vergleich zu Llama 3.1 70B und Llama 3.2 90B eine höhere Leistung bei reinen Textanwendungen bietet.

Zur Modellkarte Llama 3.3 70B

Nächste Schritte

Informationen zur Verwendung von Llama-Modellen