תזמור של AI/ML ב-GKE
Google Kubernetes Engine (GKE) מספק פלטפורמה מאוחדת אחת לתזמור של מחזור החיים המלא של פרויקטים של AI/ML. הוא מעניק לכם את העוצמה והגמישות שדרושות כדי לשפר את האימון, ההסקה ועומסי העבודה של הסוכנים הדיגיטליים, כך שתוכלו לייעל את התשתית ולהתחיל להשיג תוצאות. יכולות האורקסטרציה המתקדמות של GKE מספקות את היתרונות הבאים:
- שיפור המהירות באמצעות החומרה: גישה למעבדי GPU ו-TPU חזקים וניהול שלהם, לצורך אימון והסקת מסקנות, בהיקף גדול.
- גמישות בשימוש בסטאק: אפשר לשלב עם מסגרות של מחשוב מבוזר, עיבוד נתונים ופרסום המודל שאתם כבר מכירים וסומכים עליהן.
- פשטות של Kubernetes מנוהל: אתם נהנים מכל היתרונות של פלטפורמה מנוהלת לאוטומציה, להרחבה ולשיפור האבטחה של כל מחזור החיים של פרויקטים של AI/ML, תוך שמירה על גמישות.
כדאי לעיין בבלוגים, במדריכים ובשיטות המומלצות שלנו כדי ללמוד איך GKE יכול לעזור לכם לייעל את עומסי העבודה של AI/ML. מידע נוסף על היתרונות והתכונות הזמינות מופיע במאמר מבוא לעומסי עבודה של AI/ML ב-GKE.
מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$
- פיתוח באמצעות המודלים והכלים הכי עדכניים שלנו ל-AI גנרטיבי
- שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
- בלי חיובים אוטומטיים ובלי התחייבות
מתנסים ביותר מ-20 מוצרים שבחינם תמיד
אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.
משאבי עזרה
ניהול של תשתית AI ומאיצים
- Concept
- Concept
- Concept
- שיטה מומלצת
- שיטה מומלצת
- שיטה מומלצת
- מדריך למתחילים
- סרטון
- סרטון
אימון מודלים של AI בקנה מידה נרחב
- מדריך למתחילים
- מדריך
- מדריך
- מדריך
- מדריך למתחילים
- הדרכה
- מדריך
הצגת מודלים של AI להסקת מסקנות
- שיטה מומלצת
- Concept
- הדרכה
- מדריך למתחילים
- מדריך
- מדריך
- מדריך
- מדריך
מקורות מידע שקשורים לנושא
אופטימיזציה של עומסי עבודה של AI ולמידת מכונה באמצעות Cloud Storage ו-GKE
במאמר הזה מוסבר איך להשתמש ב-Cloud Storage FUSE כדי לשפר את הביצועים של עומסי עבודה של AI ו-ML ב-GKE.
אופטימיזציה של עומסי עבודה של AI ו-ML באמצעות Managed Lustre ו-GKE
במאמר הזה מוסבר איך להשתמש ב-Managed Lustre כדי לשפר את הביצועים של עומסי עבודה של AI ו-ML ב-GKE.
בידוד של הרצת קוד AI באמצעות Agent Sandbox
במאמר הזה מוסבר איך להתקין ולהריץ את בקר Agent Sandbox ב-GKE, ואיך לפרוס בסביבת ארגז חול באשכול כדי לבדוק פקודות shell לא מהימנות.
פריסת אפליקציית AI אקטיבי ב-GKE באמצעות ערכה לפיתוח סוכנים (ADK) ומודל LLM באירוח עצמי
בקורס תלמדו איך לפרוס ולנהל אפליקציית AI אקטיבי בקונטיינר ב-GKE, באמצעות ערכה לפיתוח סוכנים (ADK) ו-vLLM להיקש שניתן להרחבה עם Llama 3.1.
Deploy an agentic AI application on GKE with the Agent Development Kit (ADK) and Vertex AI
בקורס תלמדו איך לפרוס ולנהל אפליקציית AI אקטיבי בקונטיינרים ב-GKE, באמצעות ערכה לפיתוח סוכנים (ADK) ו-Vertex AI להיקש שניתן להרחבה עם Gemini 2.0 Flash.
Serve open source models using TPUs on GKE with Optimum TPU
כאן מוסבר איך פורסים מודלים גדולים של שפה (LLM) באמצעות יחידות לעיבוד טנסורים (TPU) ב-GKE עם מסגרת Optimum TPU serving מבית Hugging Face.
הצגת מודלים של שפה גדולה (LLM) ב-GKE באמצעות אסטרטגיית הקצאת GPU שמותאמת לעלויות וזמינות גבוהה
כאן מוסבר איך לבצע אופטימיזציה של עלויות עבור עומסי עבודה (workloads) של מודלים גדולים של שפה (LLM) ב-GKE באמצעות DWS Flex-start.
הפעלת מודלים גדולים של שפה באמצעות KubeRay ב-TPU
בקורס הזה תלמדו איך להפעיל מודלים גדולים של שפה (LLM) באמצעות KubeRay ב-TPU, ואיך זה יכול לעזור לשפר את הביצועים של המודלים.
טעינת נתונים מהירה ל-AI/ML באמצעות Hyperdisk ML
איך מפשטים ומאיצים את הטעינה של משקלי מודלים של AI/ML ב-GKE באמצעות Hyperdisk ML
הצגת מודל שפה גדול (LLM) באמצעות TPU ב-GKE עם JetStream ו-PyTorch
איך מפעילים מודל LLM באמצעות יחידות לעיבוד טנסורים (TPU) ב-GKE עם JetStream דרך PyTorch.
שיטות מומלצות לאופטימיזציה של הסקת מסקנות של מודלים גדולים של שפה (LLM) באמצעות יחידות GPU ב-GKE
במאמר הזה מוסברות שיטות מומלצות לאופטימיזציה של ביצועי ההסקה של מודלים של שפה גדולים (LLM) באמצעות מעבדי GPU ב-GKE, בעזרת מסגרות ההגשה vLLM ו-Text Generation Inference (TGI).
ניהול של ערימת ה-GPU באמצעות NVIDIA GPU Operator ב-GKE
כאן מוסבר מתי כדאי להשתמש באופרטור NVIDIA GPU ואיך להפעיל את האופרטור NVIDIA GPU ב-GKE.
הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM ב-TPU
במאמר הזה אנחנו מסבירים איך להגדיר את התשתית שלכם להרחבה אוטומטית באמצעות GKE Horizontal Pod Autoscaler (HPA) כדי לפרוס את Gemma LLM באמצעות JetStream של מארח יחיד.
ביצוע התאמה עדינה של מודלים פתוחים של Gemma באמצעות כמה מעבדים גרפיים ב-GKE
איך מבצעים כוונון עדין של Gemma LLM באמצעות GPUs ב-GKE עם ספריית Hugging Face Transformers.
Deploy a Ray Serve application with a Stable Diffusion model on GKE with TPUs
בקורס הזה תלמדו איך לפרוס מודל דיפוזיה יציבה ב-GKE ולהפעיל אותו באמצעות TPU, Ray Serve ותוסף Ray Operator.
הגדרת התאמה אוטומטית לעומס (autoscaling) לעומסי עבודה של LLM ביחידות GPU באמצעות GKE
במאמר הזה נסביר איך להגדיר את התשתית שלכם להרחבה אוטומטית באמצעות GKE Horizontal Pod Autoscaler (HPA) כדי לפרוס את Gemma LLM עם מסגרת ההגשה Hugging Face Text Generation Interface (TGI).
אימון Llama2 באמצעות Megatron-LM במכונות וירטואליות מסוג A3 Mega
איך מריצים עומס עבודה של Megatron-LM PyTorch מבוסס-קונטיינר ב-A3 Mega.
פריסת עומסי עבודה של GPU ב-Autopilot
איך מבקשים שיפור מהירות באמצעות חומרה (GPUs) בעומסי עבודה ב-GKE Autopilot.
הצגת מודל שפה גדול (LLM) עם כמה מעבדי GPU ב-GKE
איך מפעילים את Llama 2 70B או Falcon 40B באמצעות כמה מעבדי GPU של NVIDIA L4 עם GKE
תחילת העבודה עם Ray ב-GKE
כאן מוסבר איך להתחיל להשתמש ב-Ray ב-GKE בקלות על ידי הפעלת עומס עבודה באשכול Ray.
הצגת מודל LLM במעבדי L4 GPU באמצעות Ray
איך מפעילים את Falcon 7b, Llama2 7b, Falcon 40b או Llama2 70b באמצעות מסגרת Ray ב-GKE.
תזמור עומסי עבודה של TPU Multislice באמצעות JobSet ו-Kueue
איך מתזמרים עומס עבודה של Jax בכמה פרוסות TPU ב-GKE באמצעות JobSet ו-Kueue.
מעקב אחרי עומסי עבודה של GPU ב-GKE באמצעות NVIDIA Data Center GPU Manager (DCGM)
איך עוקבים אחרי עומסי עבודה של GPU ב-GKE באמצעות NVIDIA Data Center GPU Manager (DCGM).
מדריך למתחילים: אימון מודל באמצעות מעבדי GPU באשכולות GKE Standard
במדריך למתחילים הזה תלמדו איך לפרוס מודל אימון עם מעבדי GPU ב-GKE ולאחסן את התחזיות ב-Cloud Storage.
הרצת למידת מכונה בהיקף גדול ב-GKE
בסרטון הזה מוצגות דרכים שבהן GKE עוזר לפתור אתגרים נפוצים באימון מודלים גדולים של AI בקנה מידה נרחב, ומוצגות שיטות מומלצות לאימון מודלים של למידת מכונה בקנה מידה נרחב ב-GKE.
TensorFlow ב-GKE Autopilot עם האצת GPU
בפוסט הזה בבלוג מוסבר איך ליצור, להפעיל ולבטל מחברת Jupiter עם Tensorflow.
הטמעה של מערכת לתור משימות עם שיתוף מכסות בין מרחבי שמות ב-GKE
במדריך הזה נשתמש ב-Kueue כדי להסביר איך להטמיע מערכת להוספת משימות לתור, ואיך להגדיר שיתוף של משאבי עומס עבודה ומכסות בין מרחבי שמות שונים ב-GKE.
יצירת צ'אטבוט RAG באמצעות GKE ו-Cloud Storage
במדריך הזה מוסבר איך לשלב אפליקציה של מודל שפה גדול (LLM) שמבוססת על יצירה משופרת באמצעות אחזור (RAG) עם קובצי PDF שמעלים לקטגוריה של Cloud Storage.
ניתוח נתונים ב-GKE באמצעות BigQuery, Cloud Run ו-Gemma
במדריך הזה נסביר איך לנתח מערכי נתונים גדולים ב-GKE באמצעות BigQuery לאחסון ולעיבוד נתונים, Cloud Run לטיפול בבקשות ומודל שפה גדולה (LLM) של Gemma לניתוח נתונים ולחיזויים.
עיבוד מקדים מבוזר של נתונים באמצעות GKE ו-Ray: התאמה לשימוש בארגונים
למדו כיצד למנף את GKE ו-Ray כדי לעבד ביעילות מערכי נתונים גדולים מראש ללמידת מכונה.
שיטות מומלצות לטעינת נתונים להסקת מסקנות של AI/ML ב-GKE
במאמר הזה נסביר איך לקצר את זמן טעינת הנתונים באפליקציות ללמידת מכונה ב-Google Kubernetes Engine.
חיסכון ב-GPU: התאמה אוטומטית חכמה יותר לעומס (autoscaling) לעומסי עבודה של הסקת מסקנות ב-GKE
כאן מוסבר איך לבצע אופטימיזציה של עלויות ההסקה של ה-GPU על ידי כוונון עדין של Horizontal Pod Autoscaler (קנה מידה אוטומטי של פודים) ב-GKE כדי להשיג יעילות מקסימלית.
הצגת מודלים מבוססי-AI שעברו אופטימיזציה בצורה יעילה באמצעות מיקרו-שירותים של NVIDIA NIM ב-GKE
איך פורסים בקלות מיקרו-שירותים מתקדמים של NVIDIA NIM ב-GKE ומאיצים את עומסי העבודה של ה-AI.
האצת Ray בסביבת ייצור באמצעות Ray Operator חדש ב-GKE
איך Ray Operator ב-GKE מפשט את פריסות הייצור של AI/ML, משפר את הביצועים ואת יכולת ההתאמה.
מדריך מעשי למיקסום התפוקה של שרת LLM עבור יחידות GPU ב-GKE
איך למקסם את קצב העברת הנתונים של מודלים גדולים של שפה (LLM) עבור מעבדי GPU ב-GKE, כולל החלטות לגבי התשתית ואופטימיזציות של שרת המודלים.
שיטות מומלצות להרצה של עומסי עבודה באצווה ב-GKE
איך לבנות פלטפורמות לעיבוד באצווה ולבצע בהן אופטימיזציה ב-GKE
ביצועים גבוהים של אחסון AI/ML באמצעות תמיכה ב-SSD מקומי ב-GKE
במאמר הזה מוסבר איך להשתמש בכונני SSD מקומיים כדי לספק אחסון AI/ML עם ביצועים גבוהים ב-GKE.
למידת מכונה עם JAX ב-Kubernetes עם מעבדי NVIDIA GPU
במאמר הזה מוסבר איך להריץ אפליקציות JAX מרובות GPU ומרובות צמתים ב-GKE עם GPUs של NVIDIA.
מנועי חיפוש פשוטים: גישה עם תכנות מינימלי באמצעות GKE ו-Vertex AI Agent Builder
איך יוצרים מנוע חיפוש באמצעות Google Cloud, באמצעות Vertex AI Agent Builder, חיפוש מבוסס-Vertex AI ו-GKE.
LiveX AI מפחיתה את עלויות התמיכה בלקוחות באמצעות סוכני AI שאומנו ומופעלים ב-GKE וב-NVIDIA AI
איך LiveX AI משתמשת ב-GKE כדי לבנות סוכני AI שמשפרים את שביעות רצון הלקוחות ומפחיתים את העלויות.
תשתית לאפליקציית AI גנרטיבי עם יכולות RAG באמצעות GKE ו-Cloud SQL
ארכיטקטורת עזר להרצת אפליקציית AI גנרטיבי עם יצירה משופרת באחזור (RAG) באמצעות GKE, Cloud SQL, Ray, Hugging Face ו-LangChain.
דוגמה לארכיטקטורה של פלטפורמה לעיבוד באצווה ב-GKE
ארכיטקטורת עזר לפלטפורמה לעיבוד ברצף (batch processing) ב-GKE במצב רגיל, באמצעות Kueue לניהול מכסות משאבים.
חדשנות בחיפוש פטנטים: איך IPRally ממנפת את ה-AI באמצעות GKE ו-Ray
איך IPRally משתמשת ב-GKE וב-Ray כדי לבנות פלטפורמת ML יעילה וניתנת להרחבה לחיפושי פטנטים מהירים יותר עם רמת דיוק גבוהה יותר.
ניתוח מעמיק של הביצועים של Gemma ב-Google Cloud
אפשר להשתמש ב-Gemma במעבדים גרפיים ל-Cloud וב-Cloud TPU כדי לבצע היקש ולשפר את יעילות האימון ב-GKE.
Gemma on GKE deep dive: New innovations to serve open generative AI models
אפשר להשתמש במודלים פתוחים של Gemma כדי ליצור אפליקציות AI ניידות שניתנות להתאמה אישית ולפרוס אותן ב-GKE.
תזמון מתקדם של AI/ML עם Ray ו-Kueue
תזמור אפליקציות Ray ב-GKE באמצעות KubeRay ו-Kueue.
איך מאבטחים את Ray ב-Google Kubernetes Engine
החלת תובנות אבטחה וטכניקות לחיזוק האבטחה לצורך אימון עומסי עבודה של AI/ML באמצעות Ray ב-GKE.
תכנון אחסון לעומסי עבודה של AI ולמידת מכונה ב-Google Cloud
בחירת השילוב הטוב ביותר של אפשרויות אחסון לעומסי עבודה של AI ו-ML ב-Google Cloud.
התקנה אוטומטית של דרייברים מפשטת את השימוש ב-GPU של NVIDIA ב-GKE
התקנה אוטומטית של מנהלי התקנים (דרייברים) של Nvidia GPU ב-GKE.
האצת השימוש ב-AI גנרטיבי באמצעות מסגרת NVIDIA NeMo ב-GKEE
אימון מודלים של AI גנרטיבי באמצעות GKE ו-NVIDIA NeMo framework.
למה כדאי להשתמש ב-GKE לעומסי עבודה של AI ב-Ray?
שימוש ב-GKE לעומסי עבודה של Ray משפר את המדרגיות, את היעילות מבחינת עלויות, את עמידות התקלות, את הבידוד ואת הניידות.
Simplifying MLOps using Weights & Biases with Google Kubernetes Engine
תהליך פיתוח ופריסה פשוט יותר של מודלים באמצעות Weights & Biases עם GKE.
הפעלת AI ב-GKE בניהול מלא, עכשיו עם אפשרויות חדשות למחשוב, תמחור ושמירת משאבים
עם GKE Autopilot, אתם יכולים ליהנות משיפור בתמיכה במעבד גרפי, בביצועים ובמחירים נמוכים יותר לעומסי עבודה של AI/ML.
איך חברת SEEN הגדילה את התפוקה פי 89 והפחיתה את עלויות ה-GPU ב-66% באמצעות GKE
סטארט-אפ מרחיב את הפקת סרטונים בהתאמה אישית באמצעות GKE.
How Spotify is unleashing ML Innovation with Ray and GKE
איך Ray משנה את פיתוח ה-ML ב-Spotify.
איך Ordaōs Bio משתמשת ב-AI גנרטיבי ב-GKE
חברת Ordaōs Bio, אחת מהחברות המובילות בתחום האצת ה-AI למחקר ולגילוי ביו-רפואי, מוצאת פתרונות לאימונותרפיה חדשנית באונקולוגיה ובמחלות דלקתיות כרוניות.
GKE מסטארט-אפ צומח שמבוסס על ML
איך חברת הסטארט-אפ Moloco מעמק הסיליקון השתמשה ב-GKE וב-Tensor Flow Enterprise כדי לשפר את תשתית למידת המכונה שלה.
שיפור משך ההפעלה של Stable Diffusion ב-GKE פי 4
איך משפרים את זמן ההפעלה של Stable Diffusion ב-GKE
דוגמאות ל-Google Kubernetes Engine (GKE)
אפשר לראות אפליקציות לדוגמה שמשמשות במדריכים הרשמיים למוצר GKE.
GKE AI Labs Samples
תוכלו לראות דוגמאות ניסיוניות לשימוש ב-GKE כדי להאיץ את היוזמות שלכם בתחום ה-AI/ML.
GKE Accelerated Platforms
אפשר לעיין בדוגמאות לארכיטקטורות ובפתרונות לפריסת עומסי עבודה מואצים ב-GKE.