Vollständig verwaltete Llama-Modelle


Llama-Modelle sind für die Verwendung als verwaltete APIs und selbst bereitgestellte Modelle in Vertex AI verfügbar. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet Server-Sent Events (SSE), um die Antwort schrittweise zu streamen.

Verwaltete Llama-Modelle

Llama-Modelle bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell für Vertex AI verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt von Vertex AI. Wenn Sie Llama-Modelle als verwaltete API verwenden, müssen Sie keine Infrastruktur bereitstellen oder verwalten.

Die folgenden Modelle sind von Llama zur Verwendung in Vertex AI verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E ist das größte und leistungsstärkste Llama 4-Modell, das Funktionen für Programmierung, Reasoning und Bilder bietet. Es basiert auf der Mixture-of-Experts-Architektur (MoE) mit 17 Milliarden aktiven Parametern von insgesamt 400 Milliarden Parametern und 128 Experten. Llama 4 Maverick 17B-128E verwendet abwechselnd dichte und MoE-Ebenen. Bei jedem Token wird ein gemeinsamer Experte sowie einer der 128 weitergeleiteten Experten aktiviert. Das Modell wurde in 200 Sprachen vortrainiert und durch eine optimierte Post-Training-Pipeline für hochwertige Chat-Interaktionen optimiert.

Llama 4 Maverick 17B-128E ist multimodal und eignet sich für die erweiterte Bildbeschriftung, ‑analyse, präzises Bildverständnis, visuelle Fragen und Antworten, kreative Textgenerierung, Allzweck-KI-Assistenten und anspruchsvolle Chatbots, die erstklassige Intelligenz und Bildverständnis erfordern.

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird Llama Guard nicht verwendet, anders als bei früheren Versionen. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E liefert für seine Größenklasse modernste Ergebnisse, die frühere Llama-Generationen sowie andere offene und proprietäre Modelle bei mehreren Benchmarks übertreffen. Das Modell basiert auf einer MoE-Architektur mit 17 Mrd. aktiven Parametern von insgesamt 109 Mrd. Parametern und 16 Experten.

Llama 4 Scout 17B-16E eignet sich für Abrufvorgänge in langen Kontexten und für Aufgaben, die eine Analyse großer Informationsmengen erfordern, z. B. das Zusammenfassen mehrerer großer Dokumente, die Analyse umfangreicher Protokolle zur Nutzerinteraktion zur Personalisierung und die Analyse großer Codebasen.

Zur Modellkarte Llama 4

Hinweise

  • Pro Anfrage können Sie maximal drei Bilder einfügen.
  • Für den MaaS-Endpunkt wird Llama Guard nicht verwendet, anders als bei früheren Versionen. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard über Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen eingeschränkteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
  • Batchvorhersagen werden nicht unterstützt.

Zur Modellkarte Llama 4

Llama 3.3

Llama 3.3 ist ein anweisungsorientiertes 70B-Modell, das nur Text verarbeitet und im Vergleich zu Llama 3.1 70B und Llama 3.2 90B eine höhere Leistung bei Anwendungen bietet, die nur Text verarbeiten.

Zur Modellkarte Llama 3.3 70B

Llama-Modelle verwenden

Für verwaltete Modelle können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Vertex AI-Endpunkt zu senden. Informationen zum Senden von Streaming- und Nicht-Streaming-Aufrufen an Llama-Modelle finden Sie unter Open-Model-APIs aufrufen.

So verwenden Sie ein selbst bereitgestelltes Vertex AI-Modell:

  1. Rufen Sie die Model Garden-Konsole auf.
  2. Suchen Sie das entsprechende Vertex AI-Modell.
  3. Klicken Sie auf Aktivieren und füllen Sie das bereitgestellte Formular aus, um die erforderlichen Lizenzen für die kommerzielle Nutzung zu erhalten.

Weitere Informationen zum Bereitstellen und Verwenden von Partnermodellen finden Sie unter Partnermodell bereitstellen und Vorhersageanfragen stellen.

Nächste Schritte

Informationen zur Verwendung von Llama-Modellen