Offene Modelle mit vordefinierten Containern bereitstellen

In diesem Dokument wird beschrieben, wie Sie offene Modelle in Vertex AI mit vordefinierten Container-Images bereitstellen und bereitstellen. Vertex AI bietet vordefinierte Container für beliebte Serving-Frameworks wie vLLM, Hex-LLM und SGLang sowie Unterstützung für Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (überGoogle Cloud Hugging Face PyTorch Inference Containers) und Tensor-RT-LLM-Container, um unterstützte Modelle in Vertex AI bereitzustellen.

vLLM ist eine Open-Source-Bibliothek für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs). Vertex AI verwendet eine optimierte und angepasste Version von vLLM. Diese Version wurde speziell für eine verbesserte Leistung, Zuverlässigkeit und nahtlose Integration in Google Cloudentwickelt. Sie können das angepasste vLLM-Container-Image von Vertex AI verwenden, um Modelle in Vertex AI bereitzustellen. Der vordefinierte vLLM-Container kann Modelle von Hugging Face oder aus Cloud Storage herunterladen. Weitere Informationen zur Modellbereitstellung mit vordefinierten vLLM-Container-Images von Vertex AI finden Sie unter Modellbereitstellung mit vordefinierten vLLM-Container-Images von Vertex AI.

Beispiel-Notebooks

In den folgenden Notebooks wird gezeigt, wie Sie vordefinierte Vertex AI-Container für die Modellbereitstellung verwenden. Weitere Beispiel-Notebooks finden Sie im GitHub-Repository für Vertex AI-Beispiele.

Name des Notebooks Beschreibung Direktlink (GitHub/Colab)
Vertex AI Model Garden – Gemma 3 (Bereitstellung) Hier wird gezeigt, wie Gemma 3-Modelle mit vLLM auf GPUs bereitgestellt werden. Auf GitHub ansehen
Vertex AI Model Garden – Multimodales Llama 3.2 mit vLLM bereitstellen Stellt multimodale Llama 3.2-Modelle mit dem vLLM-Container bereit. Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung von Hugging Face-Textgenerierungsmodellen für die Inferenz Bereitstellung des Modells „Gemma-2-2b-it“ mit Text Generation Inference (TGI) von Hugging Face Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung der Hugging Face-Inferenz für Texteinbettungen Zeigt die Bereitstellung von nomic-ai/nomic-embed-text-v1 mit Text Embeddings Inference (TEI) von Hugging Face Auf GitHub ansehen
Vertex AI Model Garden – Hugging Face PyTorch-Inferenzbereitstellung Zeigt die Bereitstellung von distilbert/distilbert-base-uncased-finetuned-sst-2-english mit Hugging Face PyTorch Inference Auf GitHub ansehen
Vertex AI Model Garden – DeepSeek-Bereitstellung Demonstriert die Bereitstellung von DeepSeek-Modellen mit vLLM, SGLang oder TensorRT-LLM Auf GitHub ansehen
Vertex AI Model Garden – Qwen3-Bereitstellung Bereitstellung von Qwen3-Modellen mit SGLang Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung von Gemma 3n Bereitstellung von Gemma3n-Modellen mit SGLang Auf GitHub ansehen
Vertex AI Model Garden – Detaillierte Informationen: Llama 3.1 und 3.2 mit Hex-LLM bereitstellen Hier wird gezeigt, wie Llama 3.1- und Llama 3.2-Modelle mit Hex-LLM auf TPUs über Vertex AI Model Garden bereitgestellt werden. Auf GitHub ansehen

Nächste Schritte