הפעלת פתרונות AI ב-Cloud Run

במדריך הזה מוצגת סקירה כללית של השימוש ב-Cloud Run לאירוח אפליקציות, להפעלת הסקה ולבניית תהליכי עבודה של AI.

‫Cloud Run לאירוח אפליקציות AI, סוכנים ונקודות קצה של API שניתנות להרחבה

‫Cloud Run מספק פלטפורמה מנוהלת לחלוטין שמתאימה את עומסי העבודה ואת אפליקציות ה-AI שלכם לעומס.

כשמאחסנים אפליקציות AI ב-Cloud Run, בדרך כלל יש את רכיבי הארכיטקטורה הבאים:

  • הצגה ותזמור: אתם פורסים את קוד האפליקציה או הקונטיינר ב-Cloud Run.
  • מודלים של AI: אתם משתמשים במודלים של AI מבית Google, במודלים בקוד פתוח או במודלים בהתאמה אישית באפליקציה שלכם.
  • שילובים: אתם יכולים להתחבר ל Google Cloud שירותים או לשירותי צד שלישי לזיכרון, למסדי נתונים, לאחסון, לאבטחה ועוד.
  • כלים: אפשר להתחבר לכלים למשימות ולפעולות אחרות.

הדיאגרמה הבאה מציגה סקירה כללית של השימוש ב-Cloud Run כפלטפורמת אירוח לאפליקציות AI:

ארבעת הרכיבים של אפליקציית AI שמתארחת ב-Cloud Run:
    ‫1. הצגה ותזמור, 2. מודלים של AI‏, 3. שילובים, 4. כלים.
איור 1. רכיבים של אפליקציית AI שמתארחת ב-Cloud Run.

כפי שמוצג בתרשים:

  1. בשכבת ההגשה והתזמור, שירות Cloud Run פועל כנקודת קצה ל-API שניתנת להרחבה עבור הלוגיקה המרכזית של האפליקציה. הוא מנהל ביעילות מספר משתמשים בו-זמנית באמצעות שינוי גודל מהיר, אוטומטי ועל פי דרישה של המופעים.

    אתם מביאים את הקונטיינר לפריסה ב-Cloud Run. אתם יכולים לארוז את האפליקציה ואת התלות שלה בקונטיינר, או לספק את קוד המקור ולאפשר ל-Cloud Run ליצור באופן אוטומטי את הקוד בקונטיינר לצורך פריסה. בפריסות של קוד מקור, אפשר להשתמש בכל שפה, מסגרות קוד פתוח או ערכות SDK כדי ליצור את אפליקציות ה-AI.

  2. אפליקציית ה-AI פועלת כנקודת קצה ל-API שניתנת להרחבה, שמטפלת בבקשות נכנסות ושולחת נתונים למודל AI שעבר אימון מראש לצורך עיבוד, ואז מחזירה את התוצאות.

    ‫Cloud Run משולב עם המודלים של Google, כמו מודלי Gemini ו-Vertex AI, ויכול להשתלב עם מודלים בקוד פתוח, כמו Llama ו-Gemma. אם יש לכם מודל בהתאמה אישית שאומן על ידכם, אתם יכולים להשתמש בו גם עם משאב Cloud Run.

  3. ‫Google Cloud Vertex AI מציע מגוון רחב של פתרונות לתמיכה בתשתית של אפליקציית ה-AI שלכם. הנה כמה Google Cloud אינטגרציות שמתאימות לאפליקציית ה-AI שלכם:

    • זיכרון ומסדי נתונים
      • Short-term
        • Memorystore הוא שירות לניהול נתונים במטמון ובאחסון זמני, עם גישה מהירה, שמאפשר אחסון נתונים לטווח קצר במטמון חיצוני.
      • Long-term
        • AlloyDB ל-PostgreSQL הוא מסד נתונים שתואם ל-PostgreSQL ומיועד לעומסי עבודה כבדים בטרנזקציות ובניתוח נתונים. הוא מציע יצירה מוטמעת של וקטורים ומדד וקטורי מהיר, ולכן הוא מהיר יותר לחיפוש סמנטי בהשוואה להטמעה הרגילה של pgvector.
        • Cloud SQL הוא שירות מסד נתונים רלציוני ל-MySQL, ‏ PostgreSQL ושרת SQL, שיכול לשמש גם כמאגר וקטורים עם התוסף pgvector ל-PostgreSQL.
        • Firestore הוא שירות של מסד נתונים מסוג NoSQL, שניתן להרחבה ומבוסס על מסמכים, שכולל יכולות מובנות של חיפוש וקטורי.
    • אחסון
      • Cloud Storage הוא פתרון לאחסון אובייקטים שמאפשר לשמור מערכי נתונים גדולים לאימון מודלים, קובצי קלט/פלט לאפליקציה או ארטיפקטים של מודלים.
    • אבטחה
      • Secret Manager הוא שירות לניהול סודות ופרטי כניסה, שמספק דרך מאובטחת ומרוכזת לאחסון נתונים רגישים כמו מפתחות API, סיסמאות ופרטי כניסה, שנדרשים לעיתים קרובות לאפליקציות AI כדי ליצור אינטראקציה עם שירותים חיצוניים.

    מידע נוסף זמין במאמר חיבור לשירותי Google Cloud .

  4. כלים מאפשרים לאפליקציות ולמודלים של AI ליצור אינטראקציה עם שירותים, ממשקי API או אתרים שפועלים באופן חיצוני או ב-Cloud Run.

    לדוגמה, אם אפליקציית ה-AI שלכם היא סוכן AI, יכול להיות שהסוכן ישלח בקשה לשרת MCP כדי להפעיל כלי חיצוני, או ישתמש בכלים שפועלים במאגר שלכם, כמו הרצת קוד, שימוש במחשב, אחזור מידע וכן הלאה.

אירוח מודלים ב-Cloud Run להסקת מסקנות מ-AI

בנוסף ליצירת אפליקציות וסוכנים שמשתמשים במודל שפה גדול (LLM), אפשר גם להפעיל GPU ב-Cloud Run כדי להריץ מודלים שאומנו מראש או מודלים מותאמים אישית שמוצבים באופן עצמאי לצורך הסקת מסקנות מ-AI.

מעבדי GPU ב-Cloud Run מאפשרים לטפל במספר הגדול של פעולות שנדרשות להרצת משימות עתירות חישוב עבור עומסי עבודה של הסקת מסקנות מ-AI. אפשר לפרוס מודלים של AI כקובצי אימג' בקונטיינרים או מקוד מקור, ולהשתמש במגוון שיטות כדי לפרוס את משאבי Cloud Run.

המאמרים הבאים