מערכת AI עם כמה סוכנים ב-Google Cloud

Last reviewed 2025-09-16 UTC

במסמך הזה מוצגת ארכיטקטורת הפניה שתעזור לכם לתכנן מערכות AI חזקות עם כמה סוכנים ב- Google Cloud. מערכת AI מרובת סוכנים מייעלת תהליכים מורכבים ודינמיים על ידי חלוקה שלהם למשימות נפרדות שמבוצעות בשיתוף פעולה על ידי כמה סוכני AI מיוחדים.

קהל היעד של המסמך הזה כולל ארכיטקטים, מפתחים ואדמינים שיוצרים ומנהלים תשתית ואפליקציות של AI בענן. ההנחה היא שיש לכם ידע בסיסי בסוכני AI ובמודלים של AI. המסמך לא מספק הנחיות ספציפיות לתכנון ולקידוד של סוכני AI.

בקטע פריסה במסמך הזה מופיעות דוגמאות קוד שאפשר להשתמש בהן כדי ללמוד איך ליצור ולפרוס מערכות AI מרובות סוכנים.

ארכיטקטורה

בתרשים הבא מוצגת ארכיטקטורה לדוגמה של מערכת AI מרובת סוכנים שנפרסת ב- Google Cloud.

ארכיטקטורה של מערכת AI מרובת סוכנים ב- Google Cloud. ארכיטקטורה של מערכת AI עם כמה סוכנים ב- Google Cloud.

רכיבי ארכיטקטורה

ארכיטקטורת הדוגמה בקטע הקודם כוללת את הרכיבים הבאים:

רכיב תיאור
קצה קדמי המשתמשים יוצרים אינטראקציה עם מערכת מרובת הסוכנים דרך קצה קדמי, כמו ממשק צ'אט, שפועלת כשירות Cloud Run בלי שרת.
סוכנים

סוכן מתאם שולט במערכת ה-AI האקטיבי בדוגמה הזו. הסוכן המתאם מפעיל סוכן משנה מתאים כדי להפעיל את התהליך של הסוכן. הסוכנים יכולים לתקשר אחד עם השני באמצעות הפרוטוקול Agent2Agent (A2A), שמאפשר פעולה הדדית בין סוכנים בלי קשר לשפת התכנות ולזמן הריצה שלהם. בדוגמה לארכיטקטורה מוצגים סוכנים בדפוס רציף ובדפוס של שיפור איטרטיבי.

מידע נוסף על סוכני המשנה בדוגמה הזו זמין בקטע תהליך מבוסס-סוכנים.

Agents runtime אפשר לפרוס סוכני AI בתור שירותים בלי שרת (serverless) ב-Cloud Run, בתור אפליקציות בקונטיינרים ב-Google Kubernetes Engine‏ (GKE) או ב-Vertex AI Agent Engine.
ADK הערכה לפיתוח סוכנים (ADK) מספקת כלים ומסגרת לפיתוח, לבדיקה ולפריסה של סוכנים. ה-ADK מפשט את המורכבות של יצירת סוכנים ומאפשר למפתחי AI להתמקד בלוגיקה וביכולות של הסוכן.
מודל AI וזמני ריצה של מודלים לצורך הצגת מסקנות, הסוכנים בארכיטקטורה לדוגמה הזו משתמשים במודל AI ב-Vertex AI. בארכיטקטורה מוצגים Cloud Run ו-GKE כסביבות זמן ריצה חלופיות למודל ה-AI שבו תבחרו להשתמש.
הגנה מוגברת על המודל ‫הגנה מוגברת על המודל מאפשרת בדיקה וניקוי של קלט ותשובות למודלים שנפרסים ב-Vertex AI וב-GKE. מידע נוסף זמין במאמר בנושא שילוב של הגנה מוגברת על המודל עם שירותי Google Cloud .
לקוחות, שרתים וכלים של MCP Model Context Protocol ‏ (MCP) מאפשר גישה לכלים על ידי יצירת אינטראקציה סטנדרטית בין סוכנים לכלים. לכל צמד של סוכן וכלי, לקוח MCP שולח בקשות לשרת MCP שדרכו הסוכן ניגש לכלי כמו מסד נתונים, מערכת קבצים או API.

תהליך עבודה של סוכן

בדוגמה של מערכת מרובת סוכנים בארכיטקטורה הקודמת, התהליך הוא כזה:

  1. משתמש מזין הנחיה דרך קצה קדמי, כמו ממשק צ'אט, שפועל כשירות Cloud Run בלי שרת.
  2. החלק הקדמי של האתר מעביר את ההנחיה לסוכן מתאם.
  3. הסוכן המתאם מתחיל אחד מהתהליכים הבאים שמבוססים על סוכנים, בהתאם לכוונה שמופיעה בהנחיה.

    • Sequential:
      1. סוכן משנה של משימה-א' מבצע משימה.
      2. סוכן המשנה של משימה א' מפעיל את סוכן המשנה של משימה א'.1.
    • שיפור איטרטיבי:

      1. סוכן המשנה של משימה ב' מבצע משימה.
      2. סוכן המשנה להערכת איכות בודק את הפלט של סוכן המשנה task-B.
      3. אם הפלט לא מספק, בודק האיכות מפעיל את סוכן המשנה לשיפור ההנחיה כדי לשפר את ההנחיה.
      4. סוכן המשנה task-B מבצע שוב את המשימה שלו באמצעות ההנחיה המשופרת.

      התהליך הזה נמשך עד שהפלט משביע רצון או עד שמגיעים למספר המקסימלי של איטרציות.

    ארכיטקטורת הדוגמה כוללת נתיב human-in-the-loop שמאפשר למשתמשים אנושיים להתערב בתהליך של הסוכן כשצריך.

  4. סוכן המשנה task-A.1 וסוכן המשנה quality evaluator מפעילים באופן עצמאי את סוכן המשנה response generator.

  5. סוכן המשנה ליצירת תשובות יוצר תשובה, מבצע בדיקות אימות וביסוס, ואז שולח את התשובה הסופית למשתמש דרך סוכן המתאם.

מוצרים וכלים שבהם נעשה שימוש

ארכיטקטורת ההפניה הזו משתמשת במוצרים ובכלים הבאים של Google Cloud ושל צד שלישי:

  • Cloud Run: פלטפורמת מחשוב ללא שרת שמאפשרת להריץ קונטיינרים ישירות על גבי התשתית הניתנת להרחבה של Google.
  • Vertex AI: פלטפורמה ללמידת מכונה שמאפשרת לאמן ולפרוס מודלים של למידת מכונה ואפליקציות מבוססות-AI, ולהתאים אישית מודלים של שפה גדולה (LLM) לשימוש באפליקציות מבוססות-AI.
  • Google Kubernetes Engine‏ (GKE): שירות Kubernetes שמאפשר לפרוס ולהפעיל אפליקציות בקונטיינרים בהיקף גדול באמצעות התשתית של Google.
  • Model Armor: שירות שמספק הגנה למשאבי AI גנרטיבי ו-AI מבוסס-סוכנים מפני החדרת הנחיות, דליפות של מידע אישי רגיש ותוכן מזיק.
  • ערכה לפיתוח סוכנים (ADK): קבוצה של כלים וספריות לפיתוח, לבדיקה ולפריסה של סוכני AI.
  • פרוטוקול Agent2Agent‏ (A2A): פרוטוקול פתוח שמאפשר תקשורת ופעולה הדדית בין סוכנים, ללא קשר לשפת התכנות ולזמן הריצה שלהם.
  • Model Context Protocol‏ (MCP): תקן קוד פתוח לחיבור אפליקציות AI למערכות חיצוניות.

תרחישים לדוגמה

מערכות AI מרובות-סוכנים מתאימות לתרחישי שימוש מורכבים שדורשים שיתוף פעולה ותיאום בין כמה מערכי מיומנויות מיוחדים כדי להשיג יעד עסקי. כדי לזהות תרחישי שימוש שמתאימים למערכות AI מרובות סוכנים, צריך לנתח את התהליכים העסקיים ולזהות משימות ספציפיות ש-AI יכול לשפר. התמקדות בתוצאות עסקיות מוחשיות, כמו הפחתת עלויות ועיבוד מהיר יותר. הגישה הזו עוזרת לכם להתאים את ההשקעות שלכם ב-AI לערך העסקי.

הנה כמה דוגמאות לתרחישי שימוש במערכות AI מרובות סוכנים.

יועץ פיננסי

לספק המלצות מותאמות אישית למסחר במניות ולבצע עסקאות. בתרשים הבא מוצג תרחיש לדוגמה לשימוש בסוכן. בדוגמה הזו נעשה שימוש בתבנית רציפה.

תרחיש שימוש של יועץ פיננסי במערכת מרובת סוכנים (MAS).

בתרשים מוצג התהליך הבא:

  1. סוכן לאחזור נתונים מאחזר מנתונים מהימנים מחירים של מניות בזמן אמת ונתונים היסטוריים, דוחות פיננסיים של חברות ונתונים רלוונטיים אחרים.
  2. סוכן לניתוח פיננסי מיישם על הנתונים טכניקות מתאימות של ניתוח ויצירת תרשימים, מזהה דפוסים של תנודות במחירים ומבצע תחזיות.
  3. סוכן להמלצות על מניות משתמש בניתוח ובטבלאות כדי ליצור המלצות מותאמות אישית לקנייה ולמכירה של מניות ספציפיות על סמך פרופיל הסיכון של המשתמש ויעדי ההשקעה שלו.
  4. סוכן לביצוע עסקאות קונה ומוכר מניות בשם המשתמש.

עוזר מחקר

ליצור תוכנית מחקר, לאסוף מידע, להעריך ולשפר את המחקר, ואז לכתוב דוח. בתרשים הבא מוצג תרחיש לדוגמה לשימוש בתכונה הזו. התבנית העיקרית בדוגמה הזו היא תבנית רציפה. הדוגמה כוללת גם דפוס של שיפור איטרטיבי.

תרחיש שימוש בעוזר דיגיטלי למחקר במערכת מרובת סוכנים.

בתרשים מוצג התהליך הבא:

  1. סוכן לתכנון יוצר תוכנית מחקר מפורטת.
  2. סוכן מחקר משלים את המשימות הבאות:

    1. משתמשים בתוכנית המחקר כדי לזהות מקורות נתונים פנימיים וחיצוניים מתאימים.
    2. המערכת אוספת ומנתחת את הנתונים הנדרשים.
    3. מכין סיכום מחקר ומספק אותו לסוכן הערכה.

    סוכן המחקר חוזר על המשימות האלה עד שסוכן ההערכה מאשר את המחקר.

  3. סוכן של כלי ליצירת דוחות יוצר את דוח המחקר הסופי.

כלי לאופטימיזציה של שרשרת האספקה

לייעל את המלאי, לעקוב אחרי משלוחים ולתקשר עם שותפים בשרשרת האספקה. בתרשים הבא מוצג תרחיש לדוגמה לשימוש בסוכן. בדוגמה הזו נעשה שימוש בדפוס רציף.

תרחיש שימוש באופטימיזציה של שרשרת אספקה במערכת מרובת סוכנים.

  1. סוכן לניהול מחסנים מוודא שרמות המלאי אופטימליות על ידי יצירת הזמנות למילוי מלאי על סמך נתוני מלאי, תחזיות ביקוש וזמני אספקה של ספקים.

    • הנציג יוצר אינטראקציה עם נציג מעקב המשלוחים כדי לעקוב אחרי משלוחים.
    • הנציג מקיים אינטראקציה עם הנציג של ספק התקשורת כדי להודיע לספקים על שינויים בהזמנות.
  2. סוכן למעקב אחר משלוחים משתלב עם פלטפורמות לוגיסטיות של ספקים ומערכות של חברות תובלה כדי להבטיח מילוי יעיל של הזמנות בזמן.

  3. סוכן תקשורת עם ספקים מתקשר עם ספקים חיצוניים בשם הסוכנים האחרים במערכת.

חלופות עיצוב

בהתאם לדרישות שלכם לגבי יכולת ניהול, שליטה וגמישות, אתם יכולים לבחור מתוך מגוון אפשרויות של זמן ריצה ב- Google Cloud עבור סוכני ה-AI והמודל שלכם. מידע נוסף זמין במאמר בנושא בחירת רכיבי הארכיטקטורה של AI אקטיבי.

שיקולים לגבי העיצוב

בקטע הזה מפורטים גורמים שצריך לקחת בחשבון בתכנון, שיטות מומלצות והמלצות לשימוש בארכיטקטורת ההפניה הזו כדי לפתח טופולוגיה שעונה על הדרישות הספציפיות שלכם בנוגע לאבטחה, למהימנות, לעלות ולביצועים.

ההנחיות שבקטע הזה הן לא רשימה מלאה. בהתאם לדרישות של עומס העבודה ולמוצרים ולתכונות של צד שלישי שבהם אתם משתמשים, יכול להיות שיש עוד גורמים עיצוביים ושיקולים שצריך לקחת בחשבון. Google Cloud

עיצוב המערכת

בקטע הזה מוסבר איך לבחור Google Cloud אזורים לפריסה ואיך לבחור Google Cloud מוצרים וכלים מתאימים. Google Cloud

בחירת אזור

כשבוחרים Google Cloud אזורים לאפליקציות ה-AI, כדאי לקחת בחשבון את הגורמים הבאים:

כדי לבחור מיקומים מתאימים לאפליקציות, אפשר להשתמש בכלים הבאים: Google Cloud

  • Google Cloud כלי לבחירת אזור: כלי אינטראקטיבי מבוסס-אינטרנט לבחירת האזור האופטימלי Google Cloud ליישומים ולנתונים שלכם על סמך גורמים כמו טביעת רגל פחמנית, עלות וחביון.
  • Cloud Location Finder API: ממשק API ציבורי שמאפשר למצוא באופן פרוגרמטי מיקומי פריסה ב- Google Cloud, ב-Google Distributed Cloud ובספקי ענן אחרים.

תכנון סוכנים

בקטע הזה מפורטות המלצות כלליות לעיצוב סוכני AI. הנחיות מפורטות לגבי כתיבת קוד ולוגיקה של סוכנים לא כלולות במסמך הזה.

התמקדות בעיצוב המלצות
הגדרה ועיצוב של סוכנים
  • הגדירו בבירור את היעד העסקי של מערכת ה-AI האקטיבי ואת המשימה שכל סוכן מבצע.
  • בוחרים דפוס עיצוב של סוכן שהכי מתאים לדרישות שלכם.
  • אפשר להשתמש ב-ADK כדי ליצור, לפרוס ולנהל ביעילות את הארכיטקטורה של הסוכן.
אינטראקציות עם נציג תמיכה
  • תכננו את הסוכנים שפונים למשתמשים בארכיטקטורה כך שיתמכו באינטראקציות בשפה טבעית.
  • חשוב לוודא שכל סוכן מעביר ללקוחות התלויים בו מידע ברור על הפעולות והסטטוס שלו.
  • תכננו את הסוכנים כך שיזהו שאילתות מעורפלות ואינטראקציות מורכבות ויטפלו בהן.
הקשר, כלים ונתונים
  • חשוב לוודא שיש לסוכנים מספיק הקשר כדי לעקוב אחרי אינטראקציות עוקבות ופרמטרים של סשנים.
  • תארו בצורה ברורה את המטרה, הטיעונים והשימוש בכלי שהסוכנים יכולים להשתמש בהם.
  • חשוב לוודא שהתשובות של הסוכנים מבוססות על מקורות נתונים אמינים כדי לצמצם את התופעה של הזיות.
  • מיישמים לוגיקה לטיפול במצבים שבהם אין התאמה, למשל כשמזינים הנחיה שלא קשורה לנושא.

אבטחה

בקטע הזה מתוארים שיקולים והמלצות לתכנון טופולוגיה ב- Google Cloud שעומדת בדרישות האבטחה של עומס העבודה.

רכיב שיקולים והמלצות לגבי עיצוב
סוכנים

סוכני AI מציגים סיכוני אבטחה ייחודיים וקריטיים, ששיטות אבטחה קונבנציונליות ודטרמיניסטיות לא יכולות למזער באופן מספק. Google ממליצה על גישה שמשלבת את היתרונות של אמצעי בקרה דטרמיניסטיים לאבטחה עם אמצעי הגנה דינמיים שמבוססים על נימוקים. הגישה הזו מבוססת על שלושה עקרונות מרכזיים: פיקוח אנושי, אוטונומיה מוגדרת בקפידה של הסוכן ויכולת צפייה. בהמשך מפורטות המלצות ספציפיות שתואמות לעקרונות המרכזיים האלה.

פיקוח אנושי: לפעמים מערכת AI אקטיבי עלולה להיכשל או לא לפעול כמצופה. לדוגמה, המודל עשוי ליצור תוכן לא מדויק או שהסוכן עשוי לבחור כלים לא מתאימים. במערכות AI אקטיבי שחיוניות לעסק, כדאי לשלב זרימת עבודה של 'אדם בתהליך' כדי לאפשר למנהלים אנושיים לעקוב אחרי הסוכנים, לבטל את הפעולות שלהם ולהשהות אותם. לדוגמה, משתמשים אנושיים יכולים לבדוק את הפלט של הסוכנים, לאשר או לדחות את הפלט ולספק הנחיות נוספות לתיקון שגיאות או לקבלת החלטות אסטרטגיות. הגישה הזו משלבת את היעילות של מערכות AI אקטיבי עם החשיבה הביקורתית והמומחיות בתחום של משתמשים אנושיים.

בקרת גישה לסוכנים: מגדירים את ההרשאות של הסוכנים באמצעות אמצעי בקרה לניהול זהויות והרשאות גישה (IAM). מעניקים לכל סוכן רק את ההרשאות שהוא צריך כדי לבצע את המשימות שלו ולתקשר עם כלים ועם סוכנים אחרים. הגישה הזו עוזרת למזער את ההשפעה הפוטנציאלית של פרצת אבטחה, כי לסוכן שנפרץ תהיה גישה מוגבלת לחלקים אחרים במערכת. למידע נוסף, אפשר לעיין במאמרים הגדרת הזהות וההרשאות של הסוכן וניהול הגישה לסוכנים שנפרסו.

ניטור: אפשר לנטר את התנהגות הסוכן באמצעות יכולות מקיפות של מעקב, שמאפשרות לראות כל פעולה שהסוכן מבצע, כולל תהליך החשיבה הרציונלית, בחירת הכלים ונתיבי ההרצה. מידע נוסף זמין במאמרים בנושא רישום ביומן של סוכן ב-Vertex AI Agent Engine ורישום ביומן ב-ADK.

מידע נוסף על אבטחת סוכני AI זמין במאמר בנושא בטיחות ואבטחה של סוכני AI.

Vertex AI

אחריות משותפת: האבטחה היא אחריות משותפת. ‫Vertex AI מאבטח את התשתית הבסיסית ומספק כלים ואמצעי אבטחה שיעזרו לכם להגן על הנתונים, הקוד והמודלים שלכם. אתם אחראים להגדיר את השירותים בצורה נכונה, לנהל את אמצעי בקרת הגישה ולאבטח את האפליקציות. מידע נוסף זמין במאמר בנושא אחריות משותפת ב-Vertex AI.

אמצעי בקרה לאבטחה: ‏ Vertex AI תומך ב Google Cloud אמצעי בקרה לאבטחה שבהם אפשר להשתמש כדי לעמוד בדרישות שלכם בנוגע למיקום הנתונים, מפתחות הצפנה בניהול הלקוח (CMEK), אבטחת רשת באמצעות VPC Service Controls וAccess Transparency. מידע נוסף זמין במאמרים הבאים:

בטיחות: מודלים של AI עשויים להפיק תשובות מזיקות, לפעמים בתגובה להנחיות זדוניות.

  • כדי לשפר את הבטיחות ולצמצם את הסיכון לשימוש לרעה במערכת ה-AI האגנטית, אתם יכולים להגדיר מסנני תוכן שימנעו קלט ותשובות מזיקים. מידע נוסף זמין במאמר בנושא מסנני בטיחות ותוכן.
  • כדי לבדוק ולנקות בקשות ותגובות של היקש מפני איומים כמו החדרה של הנחיות ותוכן פוגעני, אפשר להשתמש ב-הגנה מוגברת על המודל. ‫הגנה מוגברת על המודל עוזר למנוע קלט זדוני, לוודא את בטיחות התוכן, להגן על מידע אישי רגיש, לשמור על תאימות ולאכוף את כללי המדיניות בנושא בטיחות ואבטחה באופן עקבי.

גישה למודלים: אתם יכולים להגדיר מדיניות ארגונית כדי להגביל את הסוגים והגרסאות של מודלים של AI שאפשר להשתמש בהם ב Google Cloud פרויקט. מידע נוסף זמין במאמר שליטה בגישה למודלים ב-Model Garden.

הגנה על נתונים: כדי לגלות ולבטל את הזיהוי של מידע רגיש בהנחיות ובתשובות וגם בנתוני יומן, אפשר להשתמש ב-Cloud Data Loss Prevention API. מידע נוסף זמין בסרטון הבא: הגנה על מידע אישי רגיש באפליקציות AI.

MCP כשמגדירים את הסוכנים לשימוש ב-MCP, חשוב לוודא שהגישה לנתונים ולכלים חיצוניים מורשית, להטמיע אמצעי בקרה על פרטיות כמו הצפנה, להחיל מסננים כדי להגן על מידע אישי רגיש ולעקוב אחרי האינטראקציות של הסוכנים. מידע נוסף זמין במאמר בנושא MCP ואבטחה.
A2A

אבטחת תעבורה: פרוטוקול A2A מחייב שימוש ב-HTTPS בכל התקשורת בין אפליקציות בסביבות ייצור, ומומלץ להשתמש בגרסה 1.2 ומעלה של Transport Layer Security‏ (TLS).

אימות: פרוטוקול A2A מעביר את האימות למנגנוני אינטרנט סטנדרטיים כמו כותרות HTTP ולתקנים כמו OAuth2 ו-OpenID Connect. כל סוכן מפרסם את דרישות האימות בכרטיס הסוכן שלו. מידע נוסף זמין במאמר בנושא אימות A2A.

Cloud Run

אבטחת תעבורת Ingress (בשביל שירות ה-Frontend): כדי לשלוט בגישה לאפליקציה, משביתים את כתובת ה-URL run.app שמוגדרת כברירת מחדל של שירות ה-Frontend ב-Cloud Run ומגדירים מאזן עומסים חיצוני אזורי של אפליקציות. בנוסף לאיזון העומסים של התעבורה הנכנסת לאפליקציה, מאזן העומסים מטפל בניהול של אישורי SSL. כדי להוסיף הגנה, אפשר להשתמש במדיניות האבטחה של Google Cloud Armor כדי לספק סינון בקשות, הגנה מפני מתקפות DDoS והגבלת קצב לשירות.

אימות משתמשים:

  • משתמשים בתוך הארגון: כדי לאמת גישה של משתמשים פנימיים לשירות הקצה הקדמי של Cloud Run, משתמשים בשרת proxy לאימות זהויות (IAP). כשמשתמש מנסה לקבל גישה למשאב שמאובטח באמצעות IAP, האימות ובדיקת ההרשאות מתבצעים על ידי IAP.
  • משתמשים מחוץ לארגון: כדי לאמת גישה של משתמשים חיצוניים לשירות הקצה, צריך להשתמש ב-Identity Platform או ב-Firebase Authentication. כדי לנהל את הגישה של משתמשים חיצוניים, צריך להגדיר את האפליקציה כך שתטפל בתהליך כניסה ותבצע קריאות מאומתות ל-API של שירות Cloud Run.

מידע נוסף זמין במאמר אימות משתמשים.

אבטחת קובצי אימג' של קונטיינרים: כדי לוודא שרק קובצי אימג' מורשים של קונטיינרים נפרסים ב-Cloud Run, אפשר להשתמש ב- Binary Authorization. כדי לזהות ולצמצם סיכוני אבטחה בקובצי אימג' של קונטיינרים, אפשר להשתמש ב-Artifact Analysis כדי להריץ באופן אוטומטי סריקות לאיתור נקודות חולשה. מידע נוסף זמין במאמר סקירה כללית של סריקת קונטיינרים.

מיקום נתונים: ‏Cloud Run עוזר לכם לעמוד בדרישות של מיקום נתונים. פונקציות Cloud Run פועלות באזור שנבחר.

הנחיות נוספות בנושא אבטחת קונטיינרים זמינות במאמר טיפים כלליים לפיתוח ב-Cloud Run.

כל המוצרים בארכיטקטורה

הצפנת נתונים: כברירת מחדל, Google Cloud מצפין נתונים במנוחה באמצעות Google-owned and Google-managed encryption keys. כדי להגן על הנתונים של הסוכנים באמצעות מפתחות הצפנה שאתם שולטים בהם, אתם יכולים להשתמש בCMEK שאתם יוצרים ומנהלים ב-Cloud KMS. למידע על Google Cloud שירותים שתואמים ל-Cloud KMS, אפשר לעיין במאמר בנושא שירותים תואמים.

צמצום הסיכון לזליגת נתונים: כדי לצמצם את הסיכון לזליגת נתונים, צריך ליצור מתחם היקפי של VPC Service Controls מסביב לתשתית. שירות VPC Service Controls תומך בכל השירותים Google Cloud שמשמשים בארכיטקטורת ההפניה הזו.

בקרת גישה: כשמגדירים הרשאות למשאבים בטופולוגיה, חשוב לפעול לפי העיקרון של הרשאות מינימליות.

אבטחת סביבת הענן: אפשר להשתמש בכלים ב-Security Command Center כדי לזהות נקודות חולשה, לזהות איומים ולצמצם אותם, להגדיר ולפרוס עמדת אבטחה ולייצא נתונים לניתוח נוסף.

אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור האבטחה באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא איתור המלצות ב-Active Assist.

עוד המלצות בנושא אבטחה

אמינות

בקטע הזה מפורטים שיקולים והמלצות לתכנון, לבנייה ולהפעלה של תשתית אמינה לפריסה ב- Google Cloud.

רכיב שיקולים והמלצות לגבי עיצוב
סוכנים

עמידות בפני תקלות: תכנון המערכת מבוסס-הסוכנים כך שתהיה עמידה בפני תקלות ברמת הסוכן או שתדע לטפל בהן. במקרים שבהם זה אפשרי, כדאי להשתמש בגישה מבוזרת שבה סוכנים יכולים לפעול באופן עצמאי.

סימולציה של כשלים: לפני פריסת מערכת ה-AI האקטיבי בסביבת ייצור, כדאי לאמת אותה באמצעות סימולציה של סביבת ייצור. זיהוי ותיקון של בעיות בתיאום בין נציגים ושל התנהגויות לא צפויות.

טיפול בשגיאות: כדי לאפשר אבחון ופתרון בעיות של שגיאות, צריך להטמיע רישום ביומן, טיפול בחריגים ומנגנונים לניסיון חוזר.

Vertex AI

ניהול מכסות: ב-Vertex AI יש תמיכה במכסה משותפת דינמית (DSQ) למודלים של Gemini. התכונה DSQ עוזרת לנהל בצורה גמישה בקשות לתשלום לפי שימוש, ומבטלת את הצורך לנהל את המכסה באופן ידני או לבקש הגדלות של המכסה. DSQ מקצה באופן דינמי את המשאבים הזמינים למודל ולאזור מסוימים ללקוחות פעילים. ב-DSQ, אין מגבלות מכסה מוגדרות מראש ללקוחות פרטיים.

תכנון הקיבולת: אם מספר הבקשות למודל חורג מהקיבולת שהוקצתה, מוחזר קוד השגיאה 429. עבור עומסי עבודה שהם קריטיים לעסק ודורשים תפוקה גבוהה באופן עקבי, אפשר להזמין תפוקה באמצעות הקצאת משאבים לפי התפוקה שנקבעה.

זמינות של נקודת קצה של מודל: אם אפשר לשתף נתונים בכמה אזורים או מדינות, אפשר להשתמש בנקודת קצה גלובלית בשביל המודל.

Cloud Run עמידות בפני הפסקות זמניות בתשתית: Cloud Run הוא שירות אזורי. הוא מאחסן נתונים באופן סינכרוני בכמה אזורים בתוך אזור מסוים, ומבצע איזון עומסים אוטומטי של התנועה בין האזורים. אם מתרחש הפסקת חשמל באזור, השירות Cloud Run ממשיך לפעול והנתונים לא אובדים. אם מתרחש שיבוש באזור מסוים, השירות מפסיק לפעול עד ש-Google פותרת את השיבוש.
כל המוצרים בארכיטקטורה אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור האמינות באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

עקרונות והמלצות בנושא מהימנות שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Reliability (נקודת מבט על AI ו-ML: מהימנות) ב-Well-Architected Framework.

תפעול

בקטע הזה מתוארים הגורמים שכדאי לקחת בחשבון כשמשתמשים בארכיטקטורת ההפניה הזו כדי לתכנן טופולוגיה של Google Cloud שאפשר להפעיל ביעילות.

רכיב שיקולים והמלצות לגבי עיצוב
Vertex AI

מעקב באמצעות יומנים: כברירת מחדל, יומני הסוכנים שנכתבים לזרמי stdout ו-stderr מנותבים אל Cloud Logging. לרישום מתקדם ביומן, אפשר לשלב את כלי רישום היומנים של Python עם Cloud Logging. אם אתם צריכים שליטה מלאה ביומנים וביומנים מובנים, אתם יכולים להשתמש בלקוח Cloud Logging. מידע נוסף זמין במאמרים רישום סוכן ביומן ורישום ביומן ב-ADK.

הערכה מתמשכת: חשוב לבצע באופן קבוע הערכה איכותנית של הפלט של הסוכנים ושל המסלול או השלבים שהסוכנים מבצעים כדי ליצור את הפלט. כדי להטמיע הערכה של סוכנים, אפשר להשתמש בשירות ההערכה של AI גנרטיבי או בשיטות ההערכה שנתמכות על ידי ADK.

MCP

כלי מסד נתונים: כדי לנהל ביעילות כלי מסד נתונים לסוכני ה-AI שלכם ולוודא שהסוכנים מטפלים בצורה מאובטחת במורכבויות כמו איגום חיבורים ואימות, כדאי להשתמש ב-MCP Toolbox for Databases. הוא מספק מיקום מרכזי לאחסון ולעדכון של כלי מסד נתונים. אתם יכולים לשתף את הכלים בין הסוכנים ולעדכן את הכלים בלי לפרוס מחדש את הסוכנים. ארגז הכלים כולל מגוון רחב של כלים למסדי נתונים כמו AlloyDB ל-PostgreSQL ולמסדי נתונים של צד שלישי כמו MongoDB. Google Cloud

מודלים של AI גנרטיבי: כדי לאפשר לסוכני AI להשתמש במודלים של AI גנרטיבי מבית Google, כמו Imagen ו-Veo, אפשר להשתמש בשרתי MCP עבור ממשקי API של מדיה גנרטיבית Google Cloud.

מוצרי אבטחה וכלים של Google: כדי לאפשר לסוכני ה-AI שלכם לגשת למוצרי אבטחה ולכלים של Google כמו Google Security Operations,‏ Google Threat Intelligence ו-Security Command Center, צריך להשתמש בשרתי MCP למוצרי אבטחה של Google.

כל Google Cloud המוצרים בארכיטקטורה מעקב: איסוף וניתוח רציפים של נתוני מעקב באמצעות Cloud Trace. נתוני מעקב מאפשרים לזהות ולאבחן במהירות שגיאות בתהליכי עבודה מורכבים של סוכנים. אפשר לבצע ניתוח מעמיק באמצעות תרשימים בכלי Trace Explorer. מידע נוסף זמין במאמר מעקב אחרי סוכן.

עקרונות והמלצות לשיפור התפעול שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Operational excellence ב-Well-Architected Framework.

הוזלת עלויות

בקטע הזה מוסבר איך לבצע אופטימיזציה של העלות של הגדרת טופולוגיה והפעלתה Google Cloud שבניתם באמצעות ארכיטקטורת ההפניה הזו.

רכיב שיקולים והמלצות לגבי עיצוב
Vertex AI

ניתוח וניהול עלויות: כדי לנתח ולנהל את העלויות של Vertex AI, מומלץ ליצור מדדי בסיס לשאילתות לשנייה (QPS) ולטוקנים לשנייה (TPS). לאחר מכן, עוקבים אחרי המדדים האלה אחרי הפריסה. ערך הבסיס עוזר גם בתכנון הקיבולת. לדוגמה, קו הבסיס עוזר לכם לקבוע מתי יכול להיות שיהיה צורך בהקצאת משאבים לפי התפוקה שנקבעה.

בחירת מודל: המודל שתבחרו לאפליקציית ה-AI ישפיע ישירות על העלויות ועל הביצועים. כדי לזהות את המודל שמספק איזון אופטימלי בין ביצועים לעלות בתרחיש השימוש הספציפי שלכם, מומלץ לבדוק מודלים באופן איטרטיבי. מומלץ להתחיל עם המודל הכי חסכוני ולעבור בהדרגה לאפשרויות חזקות יותר.

יצירת הנחיות חסכוניות: האורך של ההנחיות (קלט) והתשובות שנוצרות (פלט) משפיע ישירות על הביצועים והעלות. כתבו הנחיות קצרות וישירות שמספקות מספיק הקשר. כדאי לעצב את ההנחיות כך שהתשובות של המודל יהיו תמציתיות. לדוגמה, אפשר להוסיף ביטויים כמו "סכם ב-2 משפטים" או "ציין 3 נקודות עיקריות". מידע נוסף זמין במאמר בנושא שיטות מומלצות ליצירת הנחיות.

שמירת הקשר במטמון: כדי להפחית את העלות של בקשות שמכילות תוכן חוזר עם מספר גבוה של טוקנים של קלט, אפשר להשתמש בשמירת הקשר במטמון.

בקשות בכמות גדולה: כשזה רלוונטי, כדאי להשתמש בחיזוי בכמות גדולה. בקשות באצווה כרוכות בעלות נמוכה יותר מאשר בקשות רגילות.

Cloud Run

הקצאת משאבים: כשיוצרים שירות Cloud Run, אפשר לציין את כמות הזיכרון והמעבד (CPU) שיוקצו. מומלץ להתחיל עם הקצאות ברירת המחדל של המעבד והזיכרון, לעקוב אחרי השימוש במשאבים והעלות לאורך זמן ולשנות את ההקצאה לפי הצורך. מידע נוסף זמין במסמכים הבאים:

אופטימיזציה של התעריף: אם אתם יכולים לחזות את הדרישות שלכם לגבי מעבד וזיכרון, אתם יכולים לחסוך כסף באמצעות הנחות תמורת התחייבות לשימוש (CUD).

כל המוצרים בארכיטקטורה אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור נוסף של העלויות באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

כדי להעריך את העלות של המשאבים ב- Google Cloud , אתם יכולים להשתמש בGoogle Cloud מחשבון עלויות.

עקרונות והמלצות לאופטימיזציה של עלויות שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Cost optimization ב-Well-Architected Framework.

אופטימיזציה של הביצועים

בקטע הזה מפורטים שיקולים והמלצות לתכנון טופולוגיה ב- Google Cloud שעומדת בדרישות הביצועים של עומסי העבודה.

רכיב שיקולים והמלצות לגבי עיצוב
סוכנים

בחירת מודל: כשבוחרים מודלים למערכת AI אקטיבי, צריך לקחת בחשבון את היכולות הנדרשות למשימות שהסוכנים צריכים לבצע.

אופטימיזציה של הנחיות: כדי לשפר ולבצע אופטימיזציה של ביצועי ההנחיות במהירות ובקנה מידה גדול, וכדי לבטל את הצורך בשכתוב ידני, אפשר להשתמש בכלי לאופטימיזציה של הנחיות ב-Vertex AI. הכלי לאופטימיזציה עוזר לכם להתאים הנחיות בצורה יעילה למודלים שונים.

Vertex AI

בחירת מודל: המודל שתבחרו לאפליקציית ה-AI ישפיע ישירות על העלויות ועל הביצועים. כדי לזהות את המודל שמספק איזון אופטימלי בין ביצועים לעלות בתרחיש השימוש הספציפי שלכם, מומלץ לבדוק מודלים באופן איטרטיבי. מומלץ להתחיל עם המודל הכי חסכוני ולעבור בהדרגה לאפשרויות חזקות יותר.

הנדסת הנחיות: האורך של ההנחיות (קלט) והתשובות שנוצרות (פלט) משפיע ישירות על הביצועים והעלות. כתבו הנחיות קצרות וישירות שמספקות מספיק הקשר. כדאי לעצב את ההנחיות כך שהתשובות של המודל יהיו תמציתיות. לדוגמה, אפשר להוסיף ביטויים כמו "סכם ב-2 משפטים" או "ציין 3 נקודות עיקריות". מידע נוסף זמין במאמר בנושא שיטות מומלצות ליצירת הנחיות.

שמירת הקשר במטמון: כדי לצמצם את זמן האחזור של בקשות שמכילות תוכן חוזר עם מספר גבוה של טוקנים של קלט, כדאי להשתמש בשמירת הקשר במטמון.

Cloud Run

הקצאת משאבים: בהתאם לדרישות הביצועים, מגדירים את הזיכרון ואת המעבד שיוקצו לשירות Cloud Run. מידע נוסף זמין במאמרי העזרה הבאים:

לקבלת הנחיות נוספות לאופטימיזציה של הביצועים, אפשר לעיין בטיפים כלליים לפיתוח ב-Cloud Run.

כל המוצרים בארכיטקטורה אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור נוסף של הביצועים באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

עקרונות והמלצות לאופטימיזציה של ביצועים שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Performance optimization ב-Well-Architected Framework.

פריסה

כדי ללמוד איך ליצור ולפרוס מערכות AI עם כמה סוכנים, אפשר להשתמש בדוגמאות הקוד הבאות. דוגמאות הקוד האלה הן נקודות התחלה שפועלות במלואן, ומאפשרות לכם ללמוד ולנסות. כדי שהקוד יפעל בצורה אופטימלית בסביבות ייצור, צריך להתאים אותו לדרישות העסקיות והטכניות הספציפיות שלכם.

כדי לראות קוד לדוגמה שיעזור לכם להתחיל להשתמש ב-ADK יחד עם שרתי MCP, אפשר לעיין בכלי MCP.

המאמרים הבאים

שותפים ביצירת התוכן

מחבר: קומאר דהנגופל | מפתח פתרונות חוצי-מוצרים

תורמי תוכן אחרים: