Vertex AI bietet mehrere Möglichkeiten, Open-Source-Large Language Models wie Llama, DeepSeek, Mistral und Qwen in Google Cloudbereitzustellen. Dieses Dokument bietet einen Überblick über die Vertex AI-Angebote für die Bereitstellung offener Modelle und hilft Ihnen, die richtige Option für Ihren Anwendungsfall auszuwählen.
Bereitstellungsoptionen
Vertex AI bietet die folgenden Optionen für die Bereitstellung von Open-Source-Modellen. Jede dieser Optionen bietet Hochverfügbarkeit und umfasst standardmäßig Google Cloud Sicherheits-Best Practices:
- Model as a Service (MaaS): Stellt offene Modelle über serverlose verwaltete APIs bereit.
- Selbst bereitgestellte Modelle in Model Garden: Offene Modelle aus Model Garden werden mit der Ein-Klick-Bereitstellung oder mit benutzerdefinierten Gewichten bereitgestellt.
- Vordefinierte Container-Images für Vertex AI: Offene Modelle werden mit vordefinierten Containern für beliebte Bereitstellungs-Frameworks wie vLLM, Hex-LLM und TGI bereitgestellt.
- Benutzerdefinierter vLLM-Container: Sie können Ihren eigenen benutzerdefinierten vLLM-Container erstellen und bereitstellen, um mehr Flexibilität zu erhalten.
Wann sollte MaaS verwendet werden?
In den folgenden Szenarien sollten Sie MaaS verwenden:
- Schnelle Entwicklung und Prototyping: Mit MaaS können Sie LLM-Funktionen schnell in Anwendungen einbinden. Das ist besonders nützlich für die erste Analyse, schnelles Prototyping und wenn eine schnelle Markteinführung ein wichtiges Ziel ist.
- Betriebsaufwand minimieren: Wählen Sie MaaS aus, wenn sich Ihr Team auf die Anwendungslogik anstatt auf die Infrastrukturverwaltung konzentrieren möchte. Google übernimmt die gesamte GPU-/TPU-Bereitstellung, ‑Skalierung und ‑Wartung, was Teams zugute kommt, die sich auf die Anwendungsentwicklung und nicht auf MLOps oder DevOps konzentrieren.
- Variabler Traffic: Das Pay-as-you-go-Modell unterstützt experimentelle Arbeitslasten oder Anwendungen mit unvorhersehbaren, burstartigen Trafficmustern.
- Sofort einsatzbereit: Verwenden Sie eine verwaltete API für Anwendungen, die eine gleichbleibende Leistung erfordern, aber keine tiefgreifende Anpassung des zugrunde liegenden Modells oder Serving-Stacks benötigen.
- Sicherheit und Compliance: Mit MaaS können Unternehmen die integrierten Sicherheits- und Compliancefunktionen von Google Cloudauf Unternehmensniveau nutzen.
- Standardmodellnutzung: Verwenden Sie MaaS, wenn ein Standard-Basismodell ohne Anpassung Ihren Anforderungen entspricht.
Wann sollten selbst bereitgestellte Modelle im Model Garden verwendet werden?
Zu den Optionen für die Selbstbereitstellung gehört die Bereitstellung über Model Garden mit vorgefertigten oder benutzerdefinierten Containern. In den folgenden wichtigen Szenarien sollten Sie die Selbstbereitstellung in Betracht ziehen:
- Benutzerdefinierte Gewichte und optimierte Modelle: Die Selbstbereitstellung ist die beste Wahl, wenn für Ihre Anwendung benutzerdefinierte Gewichte oder eine optimierte Version eines Modells erforderlich sind. So können Sie Modelle flexibler bereitstellen, die auf Ihre spezifischen Anforderungen zugeschnitten sind. Sie können auch eigene benutzerdefinierte Serving-Container erstellen und bereitstellen. Verwenden Sie diese Option beispielsweise, wenn ein Modell eine spezielle Vorverarbeitungs- oder Nachbearbeitungslogik erfordert.
- Vorhersehbare Arbeitslasten mit hohem Volumen: Die Selbstbereitstellung ist eine strategische und kostengünstige Option für Produktionsanwendungen mit vorhersehbarem Traffic mit hohem Volumen. Das erfordert zwar eine höhere anfängliche Investition in die Entwicklung, kann aber aufgrund der optimierten Kosten pro Token im großen Maßstab zu niedrigeren Gesamtbetriebskosten über die gesamte Lebensdauer der Anwendung führen.
- Detaillierte Kontrolle über die Infrastruktur: Verwenden Sie die Selbstbereitstellung, wenn Sie Leistung und Budget durch die Auswahl bestimmter Hardwarekonfigurationen optimieren müssen. Dazu gehört die Auswahl genauer Maschinentypen, GPUs (z. B. NVIDIA L4 oder H100) oder TPUs sowie optimierter Serving-Frameworks.
- Strenge Sicherheits- und Complianceanforderungen: Dieser Ansatz unterstützt Anwendungen, die bestimmte Datenstandortrichtlinien oder strenge Vorschriften einhalten müssen, die die Verwendung eines verwalteten Mehrmandantendienstes verbieten. So können Sie Modelle sicher in Ihrem eigenen Google Cloud Projekt und VPC-Netzwerk (Virtual Private Cloud) bereitstellen und haben die vollständige Kontrolle über den Datenpfad.
- Granulare Kontrolle über den Standort: Mit dedizierten Endpunkten können Sie jeden Compute Engine-Beschleuniger in Google Cloud in allen Regionen bereitstellen.
Wann sollten vordefinierte Container verwendet werden?
In den folgenden Szenarien sollten Sie vorkonfigurierte Vertex AI-Container verwenden:
- Optimierte Leistung: Vertex AI optimiert und passt vorgefertigte Container für Frameworks wie vLLM an, um die Leistung, Zuverlässigkeit und nahtlose Integration in Google Cloudzu verbessern.
- Einfache Bedienung: Sie können Modelle mit beliebten Bereitstellungs-Frameworks wie vLLM, Hex-LLM, SGLang, TGI oder TensorRT-LLM bereitstellen, ohne eigene Container-Images erstellen und verwalten zu müssen.
Wann benutzerdefinierte vLLM-Container verwendet werden sollten
In den folgenden Szenarien sollten Sie einen eigenen benutzerdefinierten Container erstellen und verwenden:
- Maximale Flexibilität: Wenn vorhandene Bereitstellungsoptionen und vorgefertigte Container nicht ausreichen und Sie die vollständige Kontrolle über das Container-Image benötigen, einschließlich Abhängigkeiten und Konfigurationen.
- Benutzerdefinierte Bereitstellungslogik: Wenn für Ihr Modell eindeutige Vor- oder Nachverarbeitungsschritte erforderlich sind, die von vordefinierten Containern nicht unterstützt werden.
Nächste Schritte
- Offene Modelle mit Model-as-a-Service (MaaS) verwenden
- Offene Modelle aus Model Garden bereitstellen
- Offene Modelle mit vordefinierten Containern bereitstellen
- Offene Modelle mit einem benutzerdefinierten vLLM-Container bereitstellen