Offene Modelle mit vordefinierten Containern bereitstellen

In diesem Dokument wird beschrieben, wie Sie offene Modelle auf der Gemini Enterprise Agent Platform mit vordefinierten Container-Images bereitstellen und bereitstellen. Die Gemini Enterprise Agent Platform bietet vordefinierte Container für beliebte Serving-Frameworks wie vLLM, Hex-LLM und SGLang sowie Unterstützung für Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (über Google Cloud Hugging Face PyTorch Inference Container) und Tensor-RT-LLM Container, um unterstützte Modelle auf der Gemini Enterprise Agent Platform bereitzustellen.

vLLM ist eine Open-Source-Bibliothek für die schnelle Inferenz und Bereitstellung von Large Language Models (LLMs). Die Gemini Enterprise Agent Platform verwendet eine optimierte und angepasste Version von vLLM. Diese Version wurde speziell für eine verbesserte Leistung, Zuverlässigkeit und nahtlose Integration entwickelt Google Cloud. Sie können das angepasste vLLM-Container-Image der Gemini Enterprise Agent Platform verwenden, um Modelle auf der Gemini Enterprise Agent Platform bereitzustellen. Der vordefinierte vLLM-Container kann Modelle von Hugging Face oder aus Cloud Storage herunterladen. Weitere Informationen zur Modellbereitstellung mit vordefinierten vLLM-Container-Images der Gemini Enterprise Agent Platform finden Sie unter Modellbereitstellung mit vordefinierten vLLM-Container Images der Gemini Enterprise Agent Platform.

Beispiel-Notebooks

In den folgenden Notebooks wird gezeigt, wie Sie vordefinierte Container der Gemini Enterprise Agent Platform für die Modellbereitstellung verwenden. Weitere Beispiel-Notebooks finden Sie im GitHub Repository für Gemini Enterprise Agent Platform-Beispiele.

Name des Notebooks Beschreibung Direkter Link (GitHub/Colab)
Gemini Enterprise Agent Platform Model Garden – Gemma 3 (Bereitstellung) Zeigt die Bereitstellung von Gemma 3-Modellen auf GPUs mit vLLM. Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Multimodales Llama 3.2 mit vLLM bereitstellen Stellt multimodale Llama 3.2-Modelle mit dem vordefinierten vLLM-Container bereit. Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Hugging Face Text Generation Inference-Bereitstellung Zeigt die Bereitstellung des Gemma-2-2b-it-Modells mit Text Generation Inference (TGI) von Hugging Face Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Hugging Face Text Embeddings Inference-Bereitstellung Zeigt die Bereitstellung von nomic-ai/nomic-embed-text-v1 mit Text Embeddings Inference (TEI) von Hugging Face Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Hugging Face PyTorch Inference-Bereitstellung Zeigt die Bereitstellung von distilbert/distilbert-base-uncased-finetuned-sst-2-english mit Hugging Face PyTorch Inference Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – DeepSeek-Bereitstellung Zeigt die Bereitstellung von DeepSeek-Modellen mit vLLM, SGLang oder TensorRT-LLM Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Qwen3-Bereitstellung Zeigt die Bereitstellung von Qwen3-Modellen mit SGLang Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Gemma 3n-Bereitstellung Zeigt die Bereitstellung von Gemma3n-Modellen mit SGLang Auf GitHub ansehen
Gemini Enterprise Agent Platform Model Garden – Ausführliche Informationen: Llama 3.1 und 3.2 mit Hex-LLM bereitstellen Zeigt die Bereitstellung von Llama 3.1- und Llama 3.2-Modellen mit Hex-LLM auf TPUs mit Gemini Enterprise Agent Platform Model Garden Auf GitHub ansehen

Nächste Schritte