Llama-Modelle können als verwaltete APIs und selbst bereitgestellte Modelle auf der Gemini Enterprise Agent Platform verwendet werden. Sie können Ihre Antworten streamen, um die vom Endnutzer wahrgenommene Latenz zu reduzieren. Eine gestreamte Antwort verwendet vom Server gesendete Ereignisse (SSE, Server-Sent Events), um die Antwort schrittweise zu streamen.
Verwaltete Llama-Modelle
Llama-Modelle bieten vollständig verwaltete und serverlose Modelle als APIs. Wenn Sie ein Llama-Modell auf der Agent Platform verwenden möchten, senden Sie eine Anfrage direkt an den API-Endpunkt der Agent Platform. Wenn Sie Llama-Modelle als verwaltete API verwenden, muss keine Infrastruktur bereitgestellt oder verwaltet werden.
Die folgenden Modelle sind von Llama zur Verwendung in der Gemini Enterprise Agent Platform verfügbar. Rufen Sie die zugehörige Model Garden-Modellkarte auf, um auf ein Llama-Modell zuzugreifen.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E ist das größte und leistungsstärkste Llama 4-Modell, das Funktionen für die Programmierung, das logische Denken und die Bildverarbeitung bietet. Es verfügt über eine Mixture-of-Experts-Architektur (MoE) mit 17 Milliarden aktiven Parametern von insgesamt 400 Milliarden Parametern und 128 Experten. Llama 4 Maverick 17B-128E verwendet abwechselnd dichte und MoE-Layer, wobei jedes Token einen gemeinsamen Experten und einen der 128 weitergeleiteten Experten aktiviert. Das Modell ist für 200 Sprachen vortrainiert und durch eine optimierte Post-Training-Pipeline für hochwertige Chat-Interaktionen optimiert.
Llama 4 Maverick 17B-128E ist multimodal und eignet sich für erweiterte Bildunterschriften, Analysen, präzises Bildverständnis, visuelle Fragen und Antworten, kreative Texterstellung, allgemeine KI-Assistenten und anspruchsvolle Chatbots, die erstklassige Intelligenz und Bildverständnis erfordern.
Hinweise
- Sie können maximal drei Bilder pro Anfrage einfügen.
- Im Gegensatz zu früheren Versionen verwendet der MaaS-Endpunkt Llama Guard nicht. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard aus Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen begrenzteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
- Batchvorhersagen werden nicht unterstützt.
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E liefert für seine Größenklasse erstklassige Ergebnisse, die frühere Llama-Generationen und andere offene und proprietäre Modelle in mehreren Benchmarks übertreffen. Es verfügt über eine MoE-Architektur mit 17 Milliarden aktiven Parametern von insgesamt 109 Milliarden Parametern und 16 Experten.
Llama 4 Scout 17B-16E eignet sich für Abrufanfragen in langen Kontexten und für Aufgaben, die logisches Denken mit großen Informationsmengen erfordern, z. B. das Zusammenfassen mehrerer großer Dokumente, die Analyse umfangreicher Protokolle von Nutzerinteraktionen zur Personalisierung und das logische Denken in großen Codebasen.
Hinweise
- Sie können maximal drei Bilder pro Anfrage einfügen.
- Im Gegensatz zu früheren Versionen verwendet der MaaS-Endpunkt Llama Guard nicht. Wenn Sie Llama Guard verwenden möchten, stellen Sie Llama Guard aus Model Garden bereit und senden Sie dann die Prompts und Antworten an diesen Endpunkt. Im Vergleich zu Llama 4 hat Llama Guard jedoch einen begrenzteren Kontext (128.000) und kann nur Anfragen mit einem einzelnen Bild am Anfang des Prompts verarbeiten.
- Batchvorhersagen werden nicht unterstützt.
Llama 3.3
Llama 3.3 ist ein reines Textmodell mit 70 Milliarden Parametern, das auf Anweisungen abgestimmt ist und im Vergleich zu Llama 3.1 70B und Llama 3.2 90B eine höhere Leistung bietet, wenn es für reine Textanwendungen verwendet wird.
Zur Modellkarte von Llama 3.3 70B
Llama-Modelle verwenden
Bei verwalteten Modellen können Sie curl-Befehle verwenden, um Anfragen mit den folgenden Modellnamen an den Endpunkt der Gemini Enterprise Agent Platform zu senden. Informationen zum Ausführen von Streaming- und Nicht-Streaming-Aufrufen an Llama Modelle finden Sie unter APIs für offene Modelle aufrufen.
So verwenden Sie ein selbst bereitgestelltes Modell der Gemini Enterprise Agent Platform:
- Rufen Sie die Model Garden Console auf.
- Suchen Sie das entsprechende Modell der Gemini Enterprise Agent Platform.
- Klicken Sie auf Aktivieren und füllen Sie das angegebene Formular aus, um die erforderlichen Lizenzen für die kommerzielle Nutzung zu erhalten.
Weitere Informationen zum Bereitstellen und Verwenden von Partnermodellen finden Sie unter Partnermodell bereitstellen und Vorhersageanfragen stellen.
Nächste Schritte
Informationen zur Verwendung von Llama-Modellen.