Die Gemini Enterprise Agent Platform bietet mehrere Möglichkeiten, offene Large Language Models zu verwenden, wie Llama, DeepSeek, Mistral und Qwen, in Google Cloud. In diesem Dokument finden Sie eine Übersicht über die Angebote der Gemini Enterprise Agent Platform für die Bereitstellung offener Modelle und können die richtige Option für Ihren Anwendungsfall auswählen.
Bereitstellungsoptionen
Die Gemini Enterprise Agent Platform bietet die folgenden Optionen für die Bereitstellung offener Modelle. Jede dieser Optionen bietet Hochverfügbarkeit und enthält standardmäßig Best Practices für die Sicherheit Google Cloud :
- Model as a Service (MaaS): Stellt offene Modelle mithilfe serverloser verwalteter APIs bereit.
- Selbst bereitgestellte Modelle in Model Garden: Stellt offene Modelle aus Model Garden mit der Ein-Klick-Bereitstellung bereit oder mit benutzerdefinierten Gewichtungen.
- Vorgefertigte Container-Images der Gemini Enterprise Agent Platform: Stellt offene Modelle mithilfe vorgefertigter Container für beliebte Bereitstellungs-Frameworks wie vLLM, Hex-LLM und TGI bereit.
- Benutzerdefinierter vLLM-Container: Ermöglicht Ihnen, Ihren eigenen benutzerdefinierten vLLM-Container zu erstellen und bereitzustellen, um mehr Flexibilität zu erhalten.
Wann MaaS verwendet werden sollte
In den folgenden Szenarien sollten Sie MaaS verwenden:
- Schnelle Entwicklung und Prototyperstellung: Mit MaaS können Sie LLM Funktionen schnell in Anwendungen integrieren. Dies ist besonders nützlich für die erste Erkundung, die schnelle Prototyperstellung und wenn eine schnelle Markteinführung ein wichtiges Ziel ist.
- Betriebsaufwand minimieren: Wählen Sie MaaS aus, wenn sich Ihr Team auf die Anwendungslogik und nicht auf die Infrastrukturverwaltung konzentrieren möchte. Google übernimmt die gesamte GPU-/TPU-Bereitstellung, ‑Skalierung und ‑Wartung. Das ist für Teams von Vorteil, die sich auf die Anwendungsentwicklung und nicht auf MLOps oder DevOps konzentrieren.
- Variabler Traffic: Das Pay-as-you-go-Modell unterstützt experimentelle Arbeitslasten oder Anwendungen mit unvorhersehbaren, burstartigen Traffic-Mustern.
- Sofort einsatzbereit: Verwenden Sie eine verwaltete API für Anwendungen, die konsistente Leistung erfordern, aber keine umfassende Anpassung des zugrunde liegenden Modells oder Bereitstellungsstacks benötigen.
- Sicherheit und Compliance: Mit MaaS können Unternehmen die integrierten Sicherheits- und Compliancefunktionen auf Unternehmensniveau von Google Cloud's nutzen.
- Standardmodellnutzung: Verwenden Sie MaaS, wenn ein Standard-Foundation-Modell ohne Anpassung Ihren Anforderungen entspricht.
Wann selbst bereitgestellte Modelle in Model Garden verwendet werden sollten
Zu den Optionen für die Selbstbereitstellung gehört die Bereitstellung aus Model Garden mithilfe vorgefertigter oder benutzerdefinierter Container. In den folgenden wichtigen Szenarien sollten Sie die Selbstbereitstellung in Betracht ziehen:
- Benutzerdefinierte Gewichtungen und feinabgestimmte Modelle: Die Selbstbereitstellung ist die beste Wahl wenn Ihre Anwendung benutzerdefinierte Gewichtungen oder eine feinabgestimmte Version eines Modells erfordert. So können Sie Modelle flexibler bereitstellen, die auf Ihre spezifischen Anforderungen zugeschnitten sind. Sie können auch Ihre eigenen benutzerdefinierten Bereitstellungscontainer erstellen und bereitstellen. Verwenden Sie diese Option beispielsweise, wenn ein Modell eine eindeutige Vor- oder Nachverarbeitungslogik erfordert.
- Vorhersehbare Arbeitslasten mit hohem Volumen: Die Selbstbereitstellung ist eine strategische und kostengünstige Option für Produktionsanwendungen mit vorhersehbarem und hohem Traffic. Obwohl eine höhere anfängliche Engineering-Investition erforderlich ist, können die Gesamtbetriebskosten über die Lebensdauer der Anwendung aufgrund optimierter Kosten pro Token im großen Maßstab niedriger sein.
- Granulare Kontrolle über die Infrastruktur: Verwenden Sie die Selbstbereitstellung, wenn Sie Leistung und Budget durch die Auswahl bestimmter Hardware Konfigurationen optimieren müssen. Dazu gehört die Auswahl bestimmter Maschinentypen, GPUs (z. B. NVIDIA L4 oder H100) oder TPUs und optimierter Bereitstellungs-Frameworks.
- Strenge Sicherheits- und Complianceanforderungen: Dieser Ansatz unterstützt Anwendungen die bestimmten Richtlinien zur Datenresidenz oder strengen Vorschriften entsprechen müssen, die die Verwendung eines verwalteten Mehrmandantendienstes verbieten. So können Sie Modelle sicher in Ihrem eigenen Google Cloud Projekt und Virtual Private Cloud Netzwerk bereitstellen und haben die vollständige Kontrolle über den Datenpfad.
- Granulare Kontrolle über den Standort: Mit dedizierten Endpunkten können Sie in allen Regionen auf jedem Compute Engine-Beschleuniger bereitstellen. Google Cloud
Wann vorgefertigte Container verwendet werden sollten
In den folgenden Szenarien sollten Sie vorgefertigte Container der Gemini Enterprise Agent Platform verwenden:
- Optimierte Leistung: Die Gemini Enterprise Agent Platform optimiert und passt vorgefertigte Container für Frameworks wie vLLM an, um die Leistung, Zuverlässigkeit und nahtlose Integration in zu verbessern Google Cloud.
- Einfache Verwendung: Stellen Sie Modelle mithilfe beliebter Bereitstellungs Frameworks wie vLLM, Hex-LLM, SGLang, TGI oder TensorRT-LLM bereit, ohne eigene Container-Images erstellen und verwalten zu müssen.
Wann benutzerdefinierte vLLM-Container verwendet werden sollten
In den folgenden Szenarien sollten Sie einen eigenen benutzerdefinierten Container erstellen und verwenden:
- Maximale Flexibilität: Wenn die vorhandenen Bereitstellungsoptionen und vorgefertigten Container nicht ausreichen und Sie die vollständige Kontrolle über das Container-Image benötigen, einschließlich Abhängigkeiten und Konfigurationen.
- Benutzerdefinierte Bereitstellungslogik: Wenn Ihr Modell eindeutige Vor- oder Nachverarbeitungsschritte erfordert, die von vorgefertigten Containern nicht unterstützt werden.
Nächste Schritte
- Offene Modelle mit Model as a Service (MaaS) verwenden
- Offene Modelle aus Model Garden bereitstellen
- Offene Modelle mit vorgefertigten Containern bereitstellen
- Offene Modelle mit einem benutzerdefinierten vLLM-Container bereitstellen