Offene Modelle mit vordefinierten Containern bereitstellen

In diesem Dokument wird beschrieben, wie Sie offene Modelle in Vertex AI mit vordefinierten Container-Images bereitstellen und bereitstellen. Vertex AI bietet vordefinierte Container für beliebte Serving-Frameworks wie vLLM, Hex-LLM und SGLang sowie Unterstützung für Hugging Face Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (überGoogle Cloud Hugging Face PyTorch Inference Containers) und Tensor-RT-LLM-Container, um unterstützte Modelle in Vertex AI bereitzustellen.

vLLM ist eine Open-Source-Bibliothek für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs). Vertex AI verwendet eine optimierte und angepasste Version von vLLM. Diese Version wurde speziell für eine verbesserte Leistung, Zuverlässigkeit und nahtlose Integration in Google Cloudentwickelt. Sie können das angepasste vLLM-Container-Image von Vertex AI verwenden, um Modelle in Vertex AI bereitzustellen. Der vordefinierte vLLM-Container kann Modelle von Hugging Face oder aus Cloud Storage herunterladen. Weitere Informationen zur Modellbereitstellung mit vordefinierten vLLM-Container-Images von Vertex AI finden Sie unter Modellbereitstellung mit vordefinierten vLLM-Container-Images von Vertex AI.

Beispiel-Notebooks

In den folgenden Notebooks wird gezeigt, wie Sie vordefinierte Vertex AI-Container für die Modellbereitstellung verwenden. Weitere Beispiel-Notebooks finden Sie im GitHub-Repository für Vertex AI-Beispiele.

Name des Notebooks	Beschreibung	Direktlink (GitHub/Colab)
Vertex AI Model Garden – Gemma 3 (Bereitstellung)	Hier wird gezeigt, wie Gemma 3-Modelle mit vLLM auf GPUs bereitgestellt werden.	Auf GitHub ansehen
Vertex AI Model Garden – Multimodales Llama 3.2 mit vLLM bereitstellen	Stellt multimodale Llama 3.2-Modelle mit dem vLLM-Container bereit.	Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung von Hugging Face-Textgenerierungsmodellen für die Inferenz	Bereitstellung des Modells „Gemma-2-2b-it“ mit Text Generation Inference (TGI) von Hugging Face	Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung der Hugging Face-Inferenz für Texteinbettungen	Zeigt die Bereitstellung von nomic-ai/nomic-embed-text-v1 mit Text Embeddings Inference (TEI) von Hugging Face	Auf GitHub ansehen
Vertex AI Model Garden – Hugging Face PyTorch-Inferenzbereitstellung	Zeigt die Bereitstellung von distilbert/distilbert-base-uncased-finetuned-sst-2-english mit Hugging Face PyTorch Inference	Auf GitHub ansehen
Vertex AI Model Garden – DeepSeek-Bereitstellung	Demonstriert die Bereitstellung von DeepSeek-Modellen mit vLLM, SGLang oder TensorRT-LLM	Auf GitHub ansehen
Vertex AI Model Garden – Qwen3-Bereitstellung	Bereitstellung von Qwen3-Modellen mit SGLang	Auf GitHub ansehen
Vertex AI Model Garden – Bereitstellung von Gemma 3n	Bereitstellung von Gemma3n-Modellen mit SGLang	Auf GitHub ansehen
Vertex AI Model Garden – Detaillierte Informationen: Llama 3.1 und 3.2 mit Hex-LLM bereitstellen	Hier wird gezeigt, wie Llama 3.1- und Llama 3.2-Modelle mit Hex-LLM auf TPUs über Vertex AI Model Garden bereitgestellt werden.	Auf GitHub ansehen

Offene Modelle mit vordefinierten Containern bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Beispiel-Notebooks

Nächste Schritte

Offene Modelle mit vordefinierten Containern bereitstellen