במאמר הזה מוסבר איך לפרוס מודלים פתוחים ב-Vertex AI ולמלא בקשות באמצעותם, באמצעות תמונות קונטיינר מוכנות מראש. Vertex AI מספק קונטיינרים מוכנים מראש למסגרות פופולריות להצגת מודלים כמו vLLM, Hex-LLM ו-SGLang, וגם תמיכה ב-Text Generation Inference (TGI), Text Embeddings Inference (TEI), Inference Toolkit (באמצעותGoogle Cloud Hugging Face PyTorch Inference Containers) וקונטיינרים של Tensor-RT-LLM להצגת מודלים נתמכים ב-Vertex AI.
vLLM היא ספרייה בקוד פתוח להסקת מסקנות מהירה ולהצגת מודלים גדולים של שפה (LLM). ב-Vertex AI נעשה שימוש בגרסה מותאמת אישית של vLLM שעברה אופטימיזציה. הגרסה הזו מיועדת במיוחד לשיפור הביצועים, האמינות והשילוב החלק בתוך Google Cloud. אתם יכולים להשתמש בקובץ אימג' של קונטיינר vLLM מותאם אישית של Vertex AI כדי להפעיל מודלים ב-Vertex AI. מאגר ה-vLLM שנבנה מראש יכול להוריד מודלים מ-Hugging Face או מ-Cloud Storage. מידע נוסף על מילוי בקשות למודלים באמצעות תמונות קונטיינר מוכנות מראש של vLLM ב-Vertex AI זמין במאמר מילוי בקשות למודלים באמצעות תמונות קונטיינר מוכנות מראש של vLLM ב-Vertex AI.
דוגמאות ל-Notebook
במסמכי ה-Notebook הבאים מוסבר איך להשתמש במאגרי תמונות מובנים מראש של Vertex AI לצורך פרסום המודל. אפשר למצוא עוד מחברות לדוגמה במאגר GitHub של דוגמאות ל-Vertex AI.
| שם ה-Notebook | תיאור | קישור ישיר (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3 (פריסה) | הדגמה של פריסת מודלים של Gemma 3 ב-GPU באמצעות vLLM. | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden – הפעלת Llama 3.2 מולטי-מודאלי באמצעות vLLM | פריסת מודלים מרובי-מוֹדָל של Llama 3.2 באמצעות קונטיינר מוכן מראש של vLLM. | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Hugging Face Text Generation Inference Deployment | הדגמה של פריסת מודל Gemma-2-2b-it באמצעות Text Generation Inference (TGI) מ-Hugging Face | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Hugging Face Text Embeddings Inference Deployment | הדגמה של פריסת nomic-ai/nomic-embed-text-v1 באמצעות Text Embeddings Inference (TEI) מ-Hugging Face | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Hugging Face PyTorch Inference Deployment | הדגמה של פריסת distilbert/distilbert-base-uncased-finetuned-sst-2-english באמצעות Hugging Face PyTorch Inference | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden – פריסת DeepSeek | הדגמה של הפעלת מודלים של DeepSeek באמצעות vLLM, SGLang או TensorRT-LLM | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Qwen3 Deployment | הדגמה של הצגת מודלים של Qwen3 באמצעות SGLang | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Gemma 3n Deployment | הדגמה של הפעלת מודלים של Gemma3n באמצעות SGLang | הצגת הקוד ב-GitHub |
| Vertex AI Model Garden - Deep dive: Deploy Llama 3.1 and 3.2 with Hex-LLM | הדגמה של פריסת מודלים של Llama 3.1 ו-3.2 באמצעות Hex-LLM ב-TPU באמצעות Vertex AI Model Garden | הצגת הקוד ב-GitHub |
המאמרים הבאים
- בחירת אפשרות לפרסום מודלים פתוחים
- שימוש במודלים פתוחים באמצעות Model as a Service (MaaS)
- פריסת מודלים פתוחים מ-Model Garden
- פריסת מודלים פתוחים באמצעות מאגר vLLM בהתאמה אישית