פריסת מודלים פתוחים באמצעות קונטיינרים מוכנים מראש

במאמר הזה מוסבר איך לפרוס מודלים פתוחים ב-Vertex AI ולמלא בקשות באמצעותם, באמצעות תמונות קונטיינר מוכנות מראש. ‫Vertex AI מספק קונטיינרים מוכנים מראש למסגרות פופולריות להצגת מודלים כמו vLLM,‏ Hex-LLM ו-SGLang, וגם תמיכה ב-Text Generation Inference‏ (TGI),‏ Text Embeddings Inference‏ (TEI),‏ Inference Toolkit (באמצעותGoogle Cloud Hugging Face PyTorch Inference Containers) וקונטיינרים של Tensor-RT-LLM להצגת מודלים נתמכים ב-Vertex AI.

‫vLLM היא ספרייה בקוד פתוח להסקת מסקנות מהירה ולהצגת מודלים גדולים של שפה (LLM). ב-Vertex AI נעשה שימוש בגרסה מותאמת אישית של vLLM שעברה אופטימיזציה. הגרסה הזו מיועדת במיוחד לשיפור הביצועים, האמינות והשילוב החלק בתוך Google Cloud. אתם יכולים להשתמש בקובץ אימג' של קונטיינר vLLM מותאם אישית של Vertex AI כדי להפעיל מודלים ב-Vertex AI. מאגר ה-vLLM שנבנה מראש יכול להוריד מודלים מ-Hugging Face או מ-Cloud Storage. מידע נוסף על מילוי בקשות למודלים באמצעות תמונות קונטיינר מוכנות מראש של vLLM ב-Vertex AI זמין במאמר מילוי בקשות למודלים באמצעות תמונות קונטיינר מוכנות מראש של vLLM ב-Vertex AI.

דוגמאות ל-Notebook

במסמכי ה-Notebook הבאים מוסבר איך להשתמש במאגרי תמונות מובנים מראש של Vertex AI לצורך פרסום המודל. אפשר למצוא עוד מחברות לדוגמה במאגר GitHub של דוגמאות ל-Vertex AI.

שם ה-Notebook תיאור קישור ישיר (GitHub/Colab)
Vertex AI Model Garden - Gemma 3 (פריסה) הדגמה של פריסת מודלים של Gemma 3 ב-GPU באמצעות vLLM. הצגת הקוד ב-GitHub
‫Vertex AI Model Garden – הפעלת Llama 3.2 מולטי-מודאלי באמצעות vLLM פריסת מודלים מרובי-מוֹדָל של Llama 3.2 באמצעות קונטיינר מוכן מראש של vLLM. הצגת הקוד ב-GitHub
Vertex AI Model Garden - Hugging Face Text Generation Inference Deployment הדגמה של פריסת מודל Gemma-2-2b-it באמצעות Text Generation Inference ‏ (TGI) מ-Hugging Face הצגת הקוד ב-GitHub
Vertex AI Model Garden - Hugging Face Text Embeddings Inference Deployment הדגמה של פריסת nomic-ai/nomic-embed-text-v1 באמצעות Text Embeddings Inference ‏ (TEI) מ-Hugging Face הצגת הקוד ב-GitHub
Vertex AI Model Garden - Hugging Face PyTorch Inference Deployment הדגמה של פריסת distilbert/distilbert-base-uncased-finetuned-sst-2-english באמצעות Hugging Face PyTorch Inference הצגת הקוד ב-GitHub
Vertex AI Model Garden – פריסת DeepSeek הדגמה של הפעלת מודלים של DeepSeek באמצעות vLLM,‏ SGLang או TensorRT-LLM הצגת הקוד ב-GitHub
Vertex AI Model Garden - Qwen3 Deployment הדגמה של הצגת מודלים של Qwen3 באמצעות SGLang הצגת הקוד ב-GitHub
Vertex AI Model Garden - Gemma 3n Deployment הדגמה של הפעלת מודלים של Gemma3n באמצעות SGLang הצגת הקוד ב-GitHub
Vertex AI Model Garden - Deep dive: Deploy Llama 3.1 and 3.2 with Hex-LLM הדגמה של פריסת מודלים של Llama 3.1 ו-3.2 באמצעות Hex-LLM ב-TPU באמצעות Vertex AI Model Garden הצגת הקוד ב-GitHub

המאמרים הבאים