מערכת AI עם סוכן יחיד באמצעות ADK ו-Cloud Run

Last reviewed 2025-12-09 UTC

במסמך הזה מוצגת ארכיטקטורת הפניה שתעזור לכם לתכנן מערכת AI עם סוכן יחיד ב- Google Cloud. מערכת הסוכן היחיד בארכיטקטורה הזו נוצרת באמצעות Agent Development Kit ‏ (ADK) והיא נפרסת ב-Cloud Run. אפשר גם לפרוס את הסוכן ב-Vertex AI Agent Engine או ב-Google Kubernetes Engine ‏ (GKE). הארכיטקטורה מתבססת על Model Context Protocol‏ (MCP), שמאפשר לסוכן לגשת למידע ממקורות שונים ולעבד אותו, כדי לספק תובנות עשירות בהקשר.

המסמך הזה מיועד לארכיטקטים, למפתחים ולאדמינים של אפליקציות AI. ההנחה היא שיש לכם הבנה בסיסית במושגים של AI, למידת מכונה (ML) ומודלים גדולים של שפה (LLM). ההנחה במסמך היא שיש לכם הבנה בסיסית של סוכני AI ומודלים של AI. הוא לא מספק הנחיות ספציפיות לעיצוב ולתכנות של סוכני AI.

בקטע פריסה של המסמך הזה מופיעות דוגמאות קוד שאפשר להשתמש בהן כדי ללמוד איך ליצור ולפרוס מערכות AI עם סוכן יחיד.

ארכיטקטורה

בתרשים הבא מוצגת ארכיטקטורה של מערכת AI עם סוכן יחיד שמוטמעת ב-Cloud Run:

ארכיטקטורה של סוכן יחיד שנפרסת ב-Cloud Run.

רכיבי ארכיטקטורה

ארכיטקטורת הדוגמה כוללת את הרכיבים הבאים:

רכיב תיאור
קצה קדמי המשתמשים יוצרים אינטראקציה עם ה-Agent דרך קצה קדמי, כמו ממשק צ'אט, שפועלת כשירות Cloud Run בלי שרת (serverless).
סוכן הסוכן מקבל בקשות ממשתמשים, מפרש את כוונת המשתמש, בוחר את הכלים המתאימים, ואז מסנתז מידע כדי לענות על שאילתות.
Agent runtime הסוכן נוצר באמצעות ADK והוא נפרס כשירות ללא שרת (serverless) ב-Cloud Run. אפשר גם לפרוס את הסוכן ב-Vertex AI Agent Engine או כאפליקציה בקונטיינר ב-GKE. מידע על בחירת זמן ריצה של סוכן זמין במאמר בחירת רכיבי ארכיטקטורת ה-AI האקטיבי של הסוכן.
ADK ערכת ה-ADK מספקת כלים ומסגרת לפיתוח, לבדיקה ולפריסה של סוכנים. ה-ADK מפשט את המורכבות של יצירת סוכנים ומאפשר למפתחי AI להתמקד בלוגיקה וביכולות של הסוכן. כשמפתחים סוכנים באמצעות ADK, אפשר להגדיר את הסוכנים כך שיגשו לכלים מובנים כמו חיפוש Google וישתמשו בהם.
מודל AI וזמן ריצה של מודל לצורך מילוי בקשות להסקת מסקנות, הסוכן בארכיטקטורה לדוגמה הזו משתמש במודל ה-AI של Gemini ב-Vertex AI.
ארגז הכלים של MCP ערכת הכלים של MCP למסדי נתונים מספקת כלים ספציפיים למסדי נתונים עבור הסוכן. הוא יכול להתמודד עם מורכבויות כמו איגום חיבורים ואימות.
לקוחות, שרתים וכלים של MCP MCP מאפשר גישה לכלים על ידי סטנדרטיזציה של האינטראקציה בין סוכנים לכלים. לכל צמד של סוכן וכלי, לקוח MCP שולח בקשות לשרת MCP שדרכו הסוכן ניגש לכלי כמו מערכת קבצים או API. לדוגמה, כלים חיצוניים כמו StackOverflow LangChain Tool ו-חיפוש Google Tool יכולים לספק נתונים והצמדה.
ניראות (observability) הסוכן מנוטר באמצעות Google Cloud Observability לצורך רישום ביומן, מעקב ויומני מעקב.

תהליך סוכני

בדוגמה של מערכת עם סוכן יחיד בארכיטקטורה הקודמת, התהליך הוא כזה:

  1. משתמש מזין הנחיה דרך ממשק קצה, כמו ממשק צ'אט, שפועל כשירות ללא שרת ב-Cloud Run.
  2. הקצה הקדמי מעביר את ההנחיה ל-Agent.
  3. הסוכן משתמש במודל ה-AI כדי להסיק מסקנות לגבי ההנחיה של המשתמש וליצור תשובה:
    • מודל ה-AI קובע באילו כלים להשתמש כדי לאסוף מידע לפי הקשר או כדי לבצע משימה.
    • הסוכן מבצע קריאות לכלים ומוסיף את התגובה להקשר שלו.
    • הנציג מבצע הארקה ואימות ביניים.

המוצרים שהשתמשו בהם

בארכיטקטורת ההפניה הזו נעשה שימוש במוצרים ובכלים הבאים Google Cloud ובקוד פתוח:

  • Cloud Run: פלטפורמת מחשוב ללא שרת שמאפשרת להריץ קונטיינרים ישירות על גבי התשתית הניתנת להרחבה של Google.
  • Gemini: משפחה של מודלים מולטי-מודאליים של AI שפותחו על ידי Google.
  • Vertex AI: פלטפורמה ללמידת מכונה שמאפשרת לאמן ולפרוס מודלים של למידת מכונה ואפליקציות מבוססות-AI, ולהתאים אישית מודלים גדולים של שפה (LLM) לשימוש באפליקציות מבוססות-AI.
  • Model Context Protocol‏ (MCP): תקן קוד פתוח לחיבור אפליקציות AI למערכות חיצוניות.
  • MCP Toolbox for Databases: שרת Model Context Protocol (MCP) עם קוד פתוח, שמאפשר לסוכני AI להתחבר למסדי נתונים בצורה מאובטחת על ידי ניהול של מורכבויות במסדי נתונים כמו איגום חיבורים, אימות ויכולת צפייה.
  • Google Cloud Observability: שירותי Observability, כולל Cloud Monitoring, ‏ Cloud Logging ו-Cloud Trace, שיעזרו לכם להבין את ההתנהגות, המצב והביצועים של האפליקציות שלכם.

תרחישים לדוגמה

בקטע הזה מתוארים תרחישי שימוש אפשריים לארכיטקטורה שמתוארת במסמך הזה.

טריאז' אוטומטי של דוחות על באגים

אתם יכולים להתאים את ארכיטקטורת ההפניה הזו כדי להפוך את תהליך המיון של דוחות על באגים שנכנסים לאוטומטי: להבין את הבעיה, לחפש כפילויות, לאסוף הקשר טכני רלוונטי ואז ליצור באג במערכת. סוכן מבוסס-AI יכול לשמש כעוזר חכם שיכול לבצע את הבדיקה הראשונית, וכך לאפשר למומחים אנושיים להתמקד בפתרון בעיות מורכבות יותר.

במקרה השימוש הזה, הארכיטקטורה מספקת את היתרונות הבאים:

  • זמני פתרון מהירים יותר: הסוכן מבצע אוטומטית את המחקר הראשוני ואת איסוף ההקשר, מה שיכול להפחית באופן משמעותי את הזמן שלוקח להקצות ולפתור כרטיסים לדיווח על באגים.
  • שיפור הדיוק והעקביות: הסוכן יכול לבצע חיפוש שיטתי בכמה מקורות נתונים (מסדי נתונים פנימיים, מאגרי קוד והאינטרנט הציבורי). היכולת הזו מספקת ניתוח מקיף ועקבי יותר ממה שאפשר לקבל במיון ידני.
  • צמצום עומס העבודה הידני: הסוכן יכול להעביר משימות חוזרות של תעדוף לצוותי התמיכה ב-IT וההנדסה, וכך לאפשר להם להתמקד בעבודה בעלת ערך גבוה יותר.

הארכיטקטורה הזו מתאימה לכל ארגון שמפתח תוכנה ורוצה לשפר את היעילות והאפקטיביות של תהליך פתרון הבאגים. מידע נוסף ואפשרויות פריסה זמינים במאמרים Software Bug Assistant - ADK Python Sample Agent ו-Tools Make an Agent: From Zero to Assistant with ADK.

שירות לקוחות

אתם יכולים להתאים את ארכיטקטורת ההפניה הזו כדי לספק ללקוחות חוויית קנייה חלקה ומותאמת אישית. סוכן וירטואלי מבוסס-AI יכול לספק שירות לקוחות, להמליץ על מוצרים, לנהל הזמנות ולתזמן שירותים, וכך לאפשר לנציגים אנושיים להתמקד במשימות אחרות.

במקרה השימוש הזה, הארכיטקטורה מספקת את היתרונות הבאים:

  • הגדלת המכירות ומבצעים: הסוכן יכול לעזור להגדיל את המכירות על ידי הצעת מוצרים, שירותים ומבצעים. ההצעות של הנציג מבוססות על ההזמנה הנוכחית של הלקוח ומכירות רלוונטיות, על היסטוריית ההזמנות של הלקוח ועל הפריטים שנמצאים בעגלת הקניות שלו.

  • ניהול הזמנות ותזמון: הנציג יכול לשפר את היעילות ולצמצם את החיכוך עם הלקוח על ידי ניהול התוכן של עגלת הקניות של הלקוח ומתן אפשרות לתזמון עצמי של שירותים.

  • צמצום עומס העבודה הידני: הסוכן הדיגיטלי מטפל בפניות כלליות, בהזמנות ובתזמון, וכך מאפשר לנציגי שירות לקוחות אנושיים להתמקד בבעיות מורכבות יותר של לקוחות.

הארכיטקטורה הזו אידיאלית לכל ארגון קמעונאי שרוצה לשפר את חוויית הלקוח, להגדיל את המכירות ולפשט את ניהול ההזמנות והתזמון. מידע נוסף ואפשרויות פריסה זמינים במאמר בנושא סוכן שירות לקוחות של Cymbal Home & Garden.

חיזוי של סדרות זמנים

אתם יכולים להתאים את ארכיטקטורת ההפניה הזו כדי לחזות תוצאות, כמו חיזוי ביקוש, חיזוי דפוסי תנועה או ניתוח וחיזוי של כשלים במכונות. סוכן מבוסס-AI יכול לנתח נתונים בזמן אמת, מגמות היסטוריות ואירועים קרובים. הסוכן יכול להשתמש בניתוחים האלה כדי לחזות תוצאות לתקופה מסוימת. התחזיות האלה יכולות לעזור לכם לתכנן ולצמצם את הזמן שמוקדש על ידי אנליסטים אנושיים של נתונים.

תרחיש השימוש הזה יכול להועיל לארגונים במקרים רבים, כמו:

  • ניהול מלאי: באמצעות ניתוח מתקדם בשילוב עם נתוני מכירות היסטוריים ומגמות שוק, הסוכן יכול לעזור לכם לתכנן הזמנות של מלאי חדש כדי להתכונן לעליות או לירידות בביקוש מצד הלקוחות.
  • מסלולי נסיעה: הסוכן יכול לעזור לחסוך זמן ולהפחית את עלויות הנסיעה של ספקי משלוחים ושירותים. הוא עושה זאת על ידי ניתוח של דפוסי תנועה בזמן אמת ושל נתונים היסטוריים, וגם של אירועים כמו עבודות בנייה או חסימות כבישים.
  • מניעת הפסקות זמניות בשירות: הסוכן יכול לעזור לכם לזהות את הגורם העיקרי להפסקות זמניות בשירות שהתרחשו בעבר, וכך למנוע הפסקות זמניות פוטנציאליות בשירות. הכלי יכול גם לעזור לחזות מצבי כשל פוטנציאליים בעתיד, כדי שתוכלו לטפל בבעיה לפני שהיא תהפוך לבעיה.

הארכיטקטורה הזו מתאימה לכל ארגון שצריך להסתגל לדפוסים משתנים על סמך מגמות קיימות. הוא גם אידיאלי לארגונים שהלקוחות שלהם יכולים להפיק תועלת מתובנות פרואקטיביות שיעזרו להם לתכנן את העתיד. מידע נוסף על אפשרויות הפריסה זמין במאמר Time Series Forecasting Agent with Google's ADK and MCP Toolbox.

אחזור מסמכים

אפשר להתאים את ארכיטקטורת ההפניה הזו לשימוש ב-Vertex AI RAG Engine וליצור סוכן לניהול אחזור נתונים הקשרי. סוכן לאחזור מסמכים יכול לאחזר נתונים רלוונטיים ממערך מסמכים שנבחר בקפידה כדי לספק תשובות עובדתיות עם ציטוטים של חומר המקור.

בעזרת סוכן לאחזור מסמכים, תוכלו לוודא שהלקוחות והמשתמשים הפנימיים יקבלו תשובות מושכלות לשאלות שלהם, עם הקשר רלוונטי. ההטמעה הזו יכולה לעזור לצמצם את הטעויות וחוסר הדיוקים, כי היא מבטיחה שהתשובות יתבססו על המידע שאימתתם.

ארכיטקטורה של אחזור מסמכים מתאימה במיוחד למאגרי מידע על מדיניות ותהליכים, תשתית טכנית, יכולות מוצר ותיעוד אחר שמבוסס על עובדות. מידע על פיתוח סוכן לאחזור מסמכים שמבוסס על יצירה עם אחזור משופר (RAG) זמין במאמר סוכן לאחזור מסמכים.

חלופות עיצוב

בקטע הזה מוצגות גישות עיצוב חלופיות שאפשר לשקול כשפורסים סוכן AI ב- Google Cloud.

Agent runtime

באדריכלות שמתוארת במסמך הזה, הסוכן והכלים שלו נפרסים ב-Cloud Run. אפשר גם להשתמש ב-GKE או ב-Vertex AI Agent Engine כזמן ריצה חלופי. למידע על איך בוחרים סביבת זמן ריצה של סוכן, ראו סביבת זמן ריצה של סוכן ב"בחירת רכיבי הארכיטקטורה של AI אקטיבי".

זמן הריצה של מודל AI

בארכיטקטורה שמתוארת במסמך הזה, זמן הריצה של מודל ה-AI הוא Vertex AI. אפשר גם להשתמש ב-Cloud Run או ב-GKE כסביבת ריצה חלופית. מידע על בחירת זמן ריצה של מודל זמין במאמר זמן ריצה של מודל בקטע 'בחירת רכיבי ארכיטקטורת ה-AI האקטיבי של הסוכן'.

שיקולים בתכנון

בקטע הזה מוסבר איך להשתמש בארכיטקטורת ההפניה הזו כדי לפתח ארכיטקטורה שעונה על הדרישות הספציפיות שלכם מבחינת אבטחה, מהימנות, עלות, יעילות תפעולית וביצועים.

עיצוב המערכת

בקטע הזה אנחנו מספקים הנחיות שיעזרו לכם לבחור Google Cloud אזורים לפריסה ולבחור Google Cloud מוצרים וכלים מתאימים. Google Cloud

בחירת אזור

כשבוחרים Google Cloud אזורים לאפליקציות ה-AI, כדאי להביא בחשבון את הגורמים הבאים:

כדי לבחור מיקומים מתאימים לאפליקציות, אפשר להשתמש בכלים הבאים: Google Cloud

  • Google Cloud כלי לבחירת אזור: כלי אינטראקטיבי מבוסס-אינטרנט לבחירת האזור האופטימלי Google Cloud ליישומים ולנתונים שלכם על סמך גורמים כמו טביעת רגל פחמנית, עלות וזמן אחזור.
  • Cloud Location Finder API: ממשק API ציבורי שמאפשר למצוא באופן פרוגרמטי מיקומי פריסה ב- Google Cloud, ב-Google Distributed Cloud ובספקי ענן אחרים.

תכנון סוכנים

בקטע הזה מפורטות המלצות כלליות לעיצוב סוכני AI. הנחיות מפורטות לגבי כתיבת קוד ולוגיקה של נציגים לא כלולות במסמך הזה.

התמקדות בעיצוב המלצות
הגדרה ועיצוב של סוכנים
  • הגדירו בבירור את היעד העסקי של מערכת ה-AI האקטיבי ואת המשימה שכל סוכן מבצע.
  • בוחרים תבנית עיצוב של סוכן שהכי מתאימה לדרישות שלכם.
  • אפשר להשתמש ב-ADK כדי ליצור, לפרוס ולנהל ביעילות את הארכיטקטורה של הסוכן.
אינטראקציות עם נציג
  • תכננו את הסוכנים שפונים לבני אדם בארכיטקטורה כך שיתמכו באינטראקציות בשפה טבעית.
  • מוודאים שכל סוכן מעביר ללקוחות התלויים בו את הפעולות והסטטוס שלו בצורה ברורה.
  • תכננו את הסוכנים כך שיזהו ויטפלו בשאילתות מעורפלות ובאינטראקציות מורכבות.
הקשר, כלים ונתונים
  • חשוב לוודא שיש לסוכנים מספיק הקשר כדי לעקוב אחרי אינטראקציות מרובות ופרמטרים של סשנים.
  • תארו בצורה ברורה את המטרה, הטיעונים והשימוש בכלי שהסוכנים יכולים להשתמש בהם.
  • חשוב לוודא שהתשובות של הסוכנים מבוססות על מקורות נתונים אמינים כדי לצמצם את התופעה של הזיות.
  • מיישמים לוגיקה לטיפול במצבים שבהם אין התאמה, למשל כשמזינים הנחיה בנושא לא קשור.

זיכרון ואחסון סשן

ארכיטקטורת הדוגמה שמוצגת במסמך הזה לא כוללת אחסון בזיכרון או אחסון של סשנים. בסביבת ייצור, אפשר לשפר את התשובות ולהוסיף התאמה אישית על ידי שילוב של מצב וזיכרון בסוכן.

  • Session: סשן הוא רצף השיחה בין משתמש לבין הנציג, מהאינטראקציה הראשונית ועד לסיום הדיאלוג.
  • מצב: מצב הוא הנתונים שהסוכן משתמש בהם ואוסף אותם במהלך סשן ספציפי. נתוני המצב שנאספים כוללים את היסטוריית ההודעות שהמשתמש והסוכן החליפו ביניהם, את התוצאות של כל קריאות הכלים ומשתנים אחרים שהסוכן צריך כדי להבין את ההקשר של השיחה.

ערכת ה-ADK יכולה לעקוב אחרי סשנים בזיכרון לטווח קצר באמצעות האובייקט Session והמאפיינים state. ערכת ה-ADK תומכת גם בזיכרון לטווח ארוך בסשנים של אותו משתמש, כולל באמצעות Memory Bank. כדי לאחסן את מצב הסשן, אפשר גם להשתמש בשירותים כמו Memorystore for Redis.

מידע על אפשרויות הזיכרון של הסוכן זמין במאמר בנושא בחירת רכיבי ארכיטקטורת ה-AI האקטיבי של הסוכן.

אבטחה

בקטע הזה מתוארים שיקולים והמלצות לתכנון טופולוגיה ב- Google Cloud שעומדת בדרישות האבטחה של עומס העבודה.

רכיב שיקולים והמלצות לגבי עיצוב
סוכנים

סוכני AI יוצרים סיכוני אבטחה ייחודיים וקריטיים, ששיטות אבטחה קונבנציונליות ודטרמיניסטיות לא יכולות לצמצם באופן מספק. ‫Google ממליצה על גישה שמשלבת את היתרונות של אמצעי בקרה דטרמיניסטיים לאבטחה עם הגנות דינמיות שמבוססות על נימוקים. הגישה הזו מבוססת על שלושה עקרונות מרכזיים: פיקוח אנושי, אוטונומיה מוגדרת בקפידה של הסוכן ויכולת צפייה. בהמשך מופיעות המלצות ספציפיות שתואמות לעקרונות הבסיסיים האלה.

פיקוח אנושי: לפעמים מערכת AI אוטונומית עלולה להיכשל או לא לפעול כמצופה. לדוגמה, המודל עשוי ליצור תוכן לא מדויק או שהסוכן עשוי לבחור כלים לא מתאימים. במערכות AI אקטיבי שחיוניות לעסק, כדאי לשלב תהליך של האדם שבתהליך כדי לאפשר למנהלים אנושיים לעקוב אחרי הסוכנים, לבטל את הפעולות שלהם ולהשהות אותם. לדוגמה, משתמשים אנושיים יכולים לבדוק את הפלט של הסוכנים, לאשר או לדחות את הפלט ולספק הנחיות נוספות לתיקון שגיאות או לקבלת החלטות אסטרטגיות. הגישה הזו משלבת את היעילות של מערכות AI אקטיבי עם החשיבה הביקורתית והמומחיות בתחום של משתמשים אנושיים.

בקרת גישה לסוכנים: אפשר להגדיר הרשאות לסוכנים באמצעות אמצעי בקרה לניהול זהויות והרשאות גישה (IAM). צריך להעניק לכל נציג רק את ההרשאות שהוא צריך כדי לבצע את המשימות שלו ולתקשר עם כלים ועם נציגים אחרים. הגישה הזו עוזרת לצמצם את ההשפעה הפוטנציאלית של פרצת אבטחה, כי לסוכן שנפרץ תהיה גישה מוגבלת לחלקים אחרים במערכת. מידע נוסף זמין במאמרים הגדרת הזהות וההרשאות של הסוכן וניהול הגישה לסוכנים שנפרסו.

ניטור: אפשר לנטר את התנהגות ה-Agent באמצעות יכולות מקיפות של מעקב, שמאפשרות לראות כל פעולה שה-Agent מבצע, כולל תהליך החשיבה הרציונלית, בחירת הכלים ונתיבי ההרצה. מידע נוסף זמין במאמרים בנושא רישום סוכן ב-Vertex AI Agent Engine ורישום ב-ADK.

מידע נוסף על אבטחת סוכני AI זמין במאמר בנושא בטיחות ואבטחה של סוכני AI.

Vertex AI

אחריות משותפת: האבטחה היא אחריות משותפת. ‫Vertex AI מאבטח את התשתית הבסיסית ומספק כלים ואמצעי אבטחה שיעזרו לכם להגן על הנתונים, הקוד והמודלים שלכם. אתם אחראים להגדיר את השירותים בצורה נכונה, לנהל את אמצעי בקרת הגישה ולאבטח את האפליקציות. מידע נוסף זמין במאמר אחריות משותפת ב-Vertex AI.

אמצעי אבטחה: ‏ Vertex AI תומך ב Google Cloud אמצעי אבטחה שבהם אפשר להשתמש כדי לעמוד בדרישות שלכם בנושא מיקום הנתונים, מפתחות הצפנה בניהול הלקוח (CMEK), אבטחת רשת באמצעות VPC Service Controls וAccess Transparency. מידע נוסף זמין במאמרי העזרה הבאים:

בטיחות: מודלים של AI עשויים להפיק תשובות מזיקות, לפעמים בתגובה להנחיות זדוניות.

  • כדי לשפר את הבטיחות ולצמצם את הסיכון לשימוש לרעה במערכת ה-AI האגנטית, אפשר להגדיר מסנני תוכן שישמשו כמחסומים מפני תשומות ותשובות מזיקות. מידע נוסף זמין במאמר בנושא מסנני בטיחות ותוכן.
  • כדי לבדוק בקשות ותגובות של היקש ולסנן אותן מפני איומים כמו החדרת הנחיות ותוכן פוגעני, אפשר להשתמש ב-הגנה מוגברת על המודל. ‫הגנה מוגברת על המודל עוזר למנוע קלט זדוני, לוודא את בטיחות התוכן, להגן על מידע אישי רגיש, לשמור על תאימות ולאכוף את כללי המדיניות בנושא בטיחות ואבטחה באופן עקבי.

גישה למודלים: אתם יכולים להגדיר מדיניות ארגונית כדי להגביל את הסוגים והגרסאות של מודלים של AI שאפשר להשתמש בהם ב Google Cloud פרויקט. מידע נוסף זמין במאמר בנושא שליטה בגישה למודלים ב-Model Garden.

הגנה על נתונים: כדי לגלות ולהסיר פרטי זיהוי של מידע אישי רגיש בהנחיות ובתשובות וגם בנתוני יומן, אפשר להשתמש ב-Cloud Data Loss Prevention API. מידע נוסף זמין בסרטון הבא: הגנה על מידע אישי רגיש באפליקציות AI.

MCP כשמגדירים את ה-Agent-ים לשימוש ב-MCP, חשוב לוודא שהגישה לנתונים ולכלים חיצוניים מאושרת, להטמיע אמצעי בקרה על פרטיות כמו הצפנה, להחיל מסננים כדי להגן על מידע אישי רגיש ולעקוב אחרי האינטראקציות של ה-Agent-ים. מידע נוסף זמין במאמר בנושא MCP ואבטחה.
A2A

אבטחת תעבורה: פרוטוקול A2A מחייב שימוש ב-HTTPS לכל התקשורת בין אפליקציות בסביבות ייצור, ומומלץ להשתמש ב-Transport Layer Security‏ (TLS) בגרסה 1.2 ומעלה.

אימות: פרוטוקול A2A מעביר את האימות למנגנוני אינטרנט סטנדרטיים כמו כותרות HTTP ולתקנים כמו OAuth2 ו-OpenID Connect. כל נציג מפרסם את דרישות האימות בכרטיס הנציג שלו. מידע נוסף זמין במאמר בנושא אימות A2A.

Cloud Run

אבטחת Ingress (בשביל שירות הקצה הקדמי): כדי לשלוט בגישה לאפליקציה, משביתים את כתובת ה-URL run.app שמוגדרת כברירת מחדל בשירות הקצה הקדמי של Cloud Run ומגדירים מאזן עומסים חיצוני אזורי של אפליקציות. בנוסף לאיזון העומסים של התנועה הנכנסת לאפליקציה, מאזן העומסים מטפל בניהול אישורי SSL. כדי להוסיף הגנה, אפשר להשתמש במדיניות האבטחה של Google Cloud Armor כדי לספק סינון בקשות, הגנה מפני מתקפות DDoS והגבלת קצב של יצירת בקשות לשירות.

אימות משתמשים:

  • משתמשים בתוך הארגון: כדי לאמת גישה של משתמשים פנימיים לשירות הקצה הקדמי של Cloud Run, משתמשים בשרת proxy לאימות זהויות (IAP). כשמשתמש מנסה לקבל גישה למשאב שמאובטח באמצעות IAP, האימות ובדיקת ההרשאות מתבצעים על ידי IAP.
  • משתמשים מחוץ לארגון: כדי לאמת את הגישה של משתמשים חיצוניים לשירות הקצה הקדמי, צריך להשתמש ב-Identity Platform או ב-אימות ב-Firebase. כדי לנהל את הגישה של משתמשים חיצוניים, צריך להגדיר את האפליקציה כך שתטפל בתהליך כניסה ותבצע קריאות מאומתות ל-API של שירות Cloud Run.

מידע נוסף זמין במאמר אימות משתמשים.

אבטחת קובצי אימג' של קונטיינרים: כדי לוודא שרק קובצי אימג' מורשים של קונטיינרים נפרסים ב-Cloud Run, אפשר להשתמש ב- Binary Authorization. כדי לזהות ולצמצם סיכוני אבטחה בקובצי אימג' של קונטיינרים, אפשר להשתמש ב-Artifact Analysis כדי להריץ באופן אוטומטי סריקות לאיתור נקודות חולשה. מידע נוסף זמין במאמר סקירה כללית על סריקת קונטיינרים.

מיקום נתונים: Cloud Run עוזר לכם לעמוד בדרישות של מיקום נתונים. פונקציות Cloud Run פועלות באזור שנבחר.

לקבלת הנחיות נוספות בנושא אבטחת קונטיינרים, אפשר לעיין בטיפים כלליים לפיתוח ב-Cloud Run.

כל המוצרים בארכיטקטורה

הצפנת נתונים: כברירת מחדל, Google Cloud מצפין נתונים באחסון באמצעות Google-owned and Google-managed encryption keys. כדי להגן על הנתונים של הסוכנים באמצעות מפתחות הצפנה שאתם שולטים בהם, אתם יכולים להשתמש במפתחות CMEK שאתם יוצרים ומנהלים ב-Cloud KMS. מידע על Google Cloud שירותים שתואמים ל-Cloud KMS זמין במאמר שירותים תואמים.

צמצום הסיכון לזליגת נתונים: כדי לצמצם את הסיכון לזליגת נתונים, צריך ליצור מתחם היקפי של VPC Service Controls מסביב לתשתית. ‫VPC Service Controls תומך בכל השירותים של ארכיטקטורת ההפניה הזו. Google Cloud

בקרת גישה: כשמגדירים הרשאות למשאבים בטופולוגיה, חשוב לפעול לפי העיקרון של הרשאות מינימליות.

אבטחת סביבת הענן: אפשר להשתמש בכלים ב-Security Command Center כדי לזהות נקודות חולשה, לזהות איומים ולצמצם אותם, להגדיר ולפרוס עמדת אבטחה ולייצא נתונים לניתוח נוסף.

אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור האבטחה באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

עוד המלצות בנושא אבטחה

אמינות

בקטע הזה מפורטים שיקולים והמלצות לתכנון, לבנייה ולהפעלה של תשתית אמינה לפריסה ב- Google Cloud.

רכיב שיקולים והמלצות לגבי עיצוב
סוכן

סימולציה של כשלים: לפני שפורסים את מערכת ה-AI האקטיבי בסביבת ייצור, כדאי לאמת אותה באמצעות סימולציה של סביבת ייצור. זיהוי בעיות והתנהגויות לא צפויות ופתרון שלהן.

התאמה לעומס אופקית: כדי להבטיח זמינות גבוהה ועמידות בפני תקלות, מומלץ להפעיל כמה מופעים של אפליקציית הסוכן מאחורי מאזן עומסים. הגישה הזו יכולה גם לעזור לצמצם את זמן האחזור ואת פסק הזמן על ידי חלוקת הבקשות בין המופעים. חלק מהסביבות של סוכנים מטפלות באיזון עומסים באופן אוטומטי, כמו התאמה אוטומטית לעומס של מספר המכונות בשירותי Cloud Run.

התאוששות מהפסקות שירות: כדי לוודא שהסוכן יוכל לטפל בהפעלות מחדש בצורה חלקה ולשמור על ההקשר, צריך להפריד את המצב מזמן הריצה. כדי להטמיע אפליקציית סוכן כזו בלי שמירת מצב, צריך להשתמש במאגר נתונים חיצוני כמו מסד נתונים או מטמון מבוזר. לדוגמה, אפשר להשתמש ב-Memory Bank, ב-Memorystore for Redis או בשירות מסד נתונים כמו Cloud SQL.

טיפול בשגיאות: כדי לאפשר אבחון ופתרון של שגיאות, צריך להטמיע רישום ביומן, טיפול בחריגים ומנגנונים לניסיון חוזר.

Vertex AI

ניהול מכסות: ‏Vertex AI תומך במכסה משותפת דינמית (DSQ) למודלים של Gemini. התכונה DSQ עוזרת לנהל באופן גמיש בקשות לתשלום לפי שימוש, ומבטלת את הצורך לנהל את המכסה באופן ידני או לבקש הגדלות של המכסה. DSQ מקצה באופן דינמי את המשאבים הזמינים למודל ולאזור מסוימים בין לקוחות פעילים. ב-DSQ, אין מכסות מוגדרות מראש ללקוחות פרטיים.

תכנון הקיבולת: אם מספר הבקשות למודל חורג מהקיבולת שהוקצתה, מוחזר קוד השגיאה 429. עבור עומסי עבודה שחיוניים לעסק ודורשים תפוקה גבוהה באופן עקבי, אפשר להזמין תפוקה באמצעות הקצאת משאבים לפי התפוקה שנקבעה.

זמינות של נקודת קצה של מודל: אם אפשר לשתף נתונים בכמה אזורים או מדינות, אפשר להשתמש בנקודת קצה גלובלית בשביל המודל.

Cloud Run

עמידות בפני הפסקות זמניות בתשתית: Cloud Run הוא שירות אזורי. הוא מאחסן נתונים באופן סינכרוני בכמה אזורים בתוך אזור מסוים, ומבצע איזון עומסים אוטומטי של התנועה בין האזורים. אם מתרחשת הפסקה זמנית בשירות באזור, Cloud Run ממשיך לפעול והנתונים לא אובדים. אם מתרחשת הפסקה זמנית בשירות באזור, השירות מפסיק לפעול עד ש-Google פותרת את ההפסקה הזמנית בשירות.

התאמה אופקית לעומס: שירותי Cloud Run מטפלים בהתאמה אוטומטית לעומס של מכונות בשבילכם. התאמה אוטומטית לעומס עוזרת לוודא שהמופעים יכולים לטפל בכל הבקשות הנכנסות, האירועים וניצול המעבד שנדרשים כדי להבטיח זמינות גבוהה.

כל המוצרים בארכיטקטורה

אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור האבטחה באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא איתור המלצות ב-Active Assist.

עקרונות והמלצות בנושא מהימנות שספציפיים לעומסי עבודה של AI ו-ML מופיעים במאמר AI and ML perspective: Reliability (נקודת מבט על AI ו-ML: מהימנות) ב-Well-Architected Framework.

תפעול

בקטע הזה מתוארים הגורמים שכדאי לקחת בחשבון כשמשתמשים בארכיטקטורת ההפניה הזו כדי לעצב טופולוגיה של Google Cloud שאפשר להפעיל ביעילות.

רכיב שיקולים והמלצות לגבי עיצוב
סוכן

ניפוי באגים וניתוח: מטמיעים רישום ביומן במבנה מוגדר באפליקציית הסוכן. רישום ביומן ומעקב מאפשרים לכם לתעד מידע חשוב בפורמט מובנה, כמו הכלים שהופעלו, הקלט והפלט של הסוכן והחביון של כל שלב.

Vertex AI

מעקב באמצעות יומנים: כברירת מחדל, יומנים של סוכנים שנכתבים לזרמי stdout ו-stderr מנותבים אל Cloud Logging. לרישום מתקדם ביומן, אפשר לשלב את כלי רישום היומן של Python עם Logging. אם אתם צריכים שליטה מלאה ביומנים וביומנים מובנים, אתם יכולים להשתמש בלקוח Logging. מידע נוסף זמין במאמרים רישום סוכן ביומן וכניסה ל-ADK.

הערכה מתמשכת: חשוב לבצע באופן קבוע הערכה איכותית של הפלט של הסוכנים ושל המסלול או השלבים שהסוכנים נקטו כדי ליצור את הפלט. כדי להטמיע הערכת סוכן, אפשר להשתמש בשירות ההערכה של AI גנרטיבי או בשיטות ההערכה שנתמכות ב-ADK.

Cloud Run

תקינות וביצועים: אפשר לעקוב אחרי שירותי Cloud Run באמצעות Google Cloud Observability. כדאי להגדיר התראות ב-Cloud Monitoring כדי לקבל הודעה על בעיות פוטנציאליות, כמו עלייה בשיעורי השגיאות, חביון גבוה או שימוש לא תקין במשאבים.

מסדי נתונים

תקינות וביצועים: אפשר לעקוב אחרי מסד הנתונים באמצעות Google Cloud Observability. כדאי להגדיר התראות ב-Monitoring כדי לקבל הודעה על בעיות פוטנציאליות, כמו עלייה בשיעורי השגיאות, חביון גבוה או שימוש לא תקין במשאבים.

MCP

כלים למסדי נתונים: כדי לנהל ביעילות כלים למסדי נתונים עבור סוכני ה-AI שלכם, ולוודא שהסוכנים מטפלים בצורה מאובטחת במורכבויות כמו איגום חיבורים ואימות, אתם יכולים להשתמש בערכת הכלים MCP למסדי נתונים. הוא מספק מיקום מרכזי לאחסון ולעדכון של כלי מסד נתונים. אתם יכולים לשתף את הכלים בין סוכנים ולעדכן את הכלים בלי לפרוס מחדש את הסוכנים. ארגז הכלים כולל מגוון רחב של כלים למסדי נתונים כמו AlloyDB ל-PostgreSQL ולמסדי נתונים של צד שלישי כמו MongoDB. Google Cloud

מודלים של AI גנרטיבי: כדי לאפשר לסוכני AI להשתמש במודלים של AI גנרטיבי מבית Google, כמו Imagen ו-Veo, אפשר להשתמש בשרתי MCP עבור Google Cloud ממשקי API של מדיה גנרטיבית.

מוצרי אבטחה וכלי אבטחה של Google: כדי לאפשר לסוכני ה-AI שלכם לגשת למוצרי אבטחה ולכלי אבטחה של Google כמו Google Security Operations,‏ Google Threat Intelligence ו-Security Command Center, צריך להשתמש בשרתי MCP למוצרי אבטחה של Google.

כל Google Cloud המוצרים בארכיטקטורה

מעקב: איסוף וניתוח מתמשכים של נתוני מעקב באמצעות Trace. נתוני מעקב מאפשרים לזהות ולאבחן במהירות בעיות של זמן אחזור בתהליכי עבודה מורכבים של סוכנים. אתם יכולים לבצע ניתוח מעמיק באמצעות תרשימים בדף Trace explorer במסוף Google Cloud . מידע נוסף זמין במאמר מעקב אחרי סוכן.

עקרונות והמלצות למצוינות תפעולית שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Operational excellence ב-Well-Architected Framework.

הוזלת עלויות

בקטע הזה מוסבר איך לבצע אופטימיזציה של העלות של הגדרת טופולוגיה של Google Cloud והפעלתה, שאתם בונים באמצעות ארכיטקטורת ההפניה הזו.

רכיב שיקולים והמלצות לגבי עיצוב
Vertex AI

ניתוח וניהול עלויות: כדי לנתח ולנהל את העלויות של Vertex AI, מומלץ ליצור מדדי בסיס לשאילתות לשנייה (QPS) ולטוקנים לשנייה (TPS). לאחר מכן, עוקבים אחרי המדדים האלה אחרי הפריסה. ערך הבסיס עוזר גם בתכנון הקיבולת. לדוגמה, ערך הבסיס עוזר לכם לקבוע מתי יכול להיות שיהיה צורך בהקצאת משאבים לפי התפוקה שנקבעה.

בחירת מודל: המודל שתבחרו לאפליקציית ה-AI ישפיע ישירות על העלויות ועל הביצועים. כדי לזהות את המודל שמספק איזון אופטימלי בין ביצועים לעלות לתרחיש השימוש הספציפי שלכם, מומלץ לבדוק מודלים באופן איטרטיבי. מומלץ להתחיל עם המודל הכי חסכוני ולעבור בהדרגה לאפשרויות חזקות יותר.

יצירת הנחיות חסכוניות: האורך של ההנחיות (קלט) והתשובות שנוצרות (פלט) משפיע ישירות על הביצועים והעלות. כדאי לכתוב הנחיות קצרות וישירות שמספקות מספיק הקשר. כדאי לעצב את ההנחיות כך שהתשובות מהמודל יהיו תמציתיות. לדוגמה, אפשר להוסיף ביטויים כמו "סכם ב-2 משפטים" או "ציין 3 נקודות עיקריות". מידע נוסף זמין במאמר בנושא שיטות מומלצות ליצירת הנחיות.

שמירת הקשר במטמון: כדי להפחית את העלות של בקשות שמכילות תוכן חוזר עם מספר גבוה של טוקנים של קלט, אפשר להשתמש בשמירת הקשר במטמון.

בקשות רבות בבת אחת: כשזה רלוונטי, כדאי להשתמש בחיזויים רבים בבת אחת. בקשות באצווה כרוכות בעלות נמוכה יותר מאשר בקשות רגילות.

Cloud Run

הקצאת משאבים: כשיוצרים שירות Cloud Run, אפשר לציין את כמות הזיכרון והמעבד שיוקצו לו. מתחילים עם הקצאות ברירת המחדל של המעבד (CPU) והזיכרון. עוקבים אחרי השימוש במשאבים והעלות לאורך זמן, ומשנים את ההקצאה לפי הצורך. מידע נוסף זמין במאמרי העזרה הבאים:

אופטימיזציה של התעריף: אם אתם יכולים לחזות את הדרישות שלכם לגבי מעבד וזיכרון, אתם יכולים לחסוך כסף באמצעות הנחות תמורת התחייבות לשימוש (CUD).

כל המוצרים בארכיטקטורה אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור נוסף של העלויות באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

כדי להעריך את העלות של המשאבים ב- Google Cloud , אפשר להשתמש בGoogle Cloud מחשבון עלויות.

עקרונות והמלצות לאופטימיזציה של עלויות שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Cost optimization ב-Well-Architected Framework.

אופטימיזציה של הביצועים

בקטע הזה מפורטים שיקולים והמלצות לתכנון טופולוגיה ב- Google Cloud שעומדת בדרישות הביצועים של עומסי העבודה.

רכיב שיקולים והמלצות לגבי עיצוב
סוכנים

בחירת מודל: כשבוחרים מודלים למערכת AI אקטיבי, צריך לקחת בחשבון את היכולות הנדרשות למשימות שהסוכנים צריכים לבצע.

אופטימיזציה של הנחיות: כדי לשפר ולאופטימיזציה את הביצועים של ההנחיות במהירות ובקנה מידה גדול, וכדי להימנע מהצורך בשכתוב ידני, אפשר להשתמש בכלי לאופטימיזציה של הנחיות ב-Vertex AI. הכלי לאופטימיזציה עוזר לכם להתאים הנחיות בצורה יעילה למודלים שונים.

Vertex AI

בחירת מודל: המודל שתבחרו לאפליקציית ה-AI ישפיע ישירות על העלויות ועל הביצועים. כדי לזהות את המודל שמספק איזון אופטימלי בין ביצועים לעלות לתרחיש השימוש הספציפי שלכם, מומלץ לבדוק מודלים באופן איטרטיבי. מומלץ להתחיל עם המודל הכי חסכוני ולעבור בהדרגה לאפשרויות חזקות יותר.

הנדסת הנחיות: האורך של ההנחיות (קלט) והתשובות שנוצרות (פלט) משפיע ישירות על הביצועים והעלות. כדאי לכתוב הנחיות קצרות וישירות שמספקות מספיק הקשר. כדאי לעצב את ההנחיות כך שהתשובות מהמודל יהיו תמציתיות. לדוגמה, אפשר להוסיף ביטויים כמו "סכם ב-2 משפטים" או "ציין 3 נקודות עיקריות". מידע נוסף זמין במאמר בנושא שיטות מומלצות ליצירת הנחיות.

שמירת הקשר במטמון: כדי לצמצם את זמן האחזור של בקשות שמכילות תוכן חוזר עם מספר גבוה של טוקנים של קלט, כדאי להשתמש בשמירת הקשר במטמון.

Cloud Run

הקצאת משאבים: בהתאם לדרישות הביצועים, מגדירים את הזיכרון ואת המעבד שיוקצו לשירות Cloud Run. מידע נוסף זמין במאמרי העזרה הבאים:

לקבלת הנחיות נוספות לאופטימיזציה של הביצועים, אפשר לעיין בטיפים כלליים לפיתוח ב-Cloud Run.

כל המוצרים בארכיטקטורה אופטימיזציה אחרי הפריסה: אחרי שפורסים את האפליקציה ב- Google Cloud, אפשר לקבל המלצות לשיפור הביצועים באמצעות Active Assist. בודקים את ההמלצות ומיישמים אותן בהתאם לסביבה שלכם. מידע נוסף זמין במאמר בנושא המלצות ב-Active Assist.

עקרונות והמלצות לאופטימיזציה של ביצועים שספציפיים לעומסי עבודה של AI ו-ML מפורטים במאמר AI and ML perspective: Performance optimization ב-Well-Architected Framework.

פריסה

אין פריסה אוטומטית לארכיטקטורת ההפניה הזו. אפשר להיעזר בדוגמאות הקוד הבאות כדי ליצור ארכיטקטורה של סוכן יחיד:

כאן אפשר למצוא קוד לדוגמה שיעזור לכם להתחיל להשתמש ב-ADK יחד עם שרתי MCP.

בדוגמאות הקוד הבאות אפשר לראות עוד מערכות AI עם סוכן יחיד. דוגמאות הקוד האלה הן נקודות התחלה פונקציונליות מלאות ללמידה ולניסויים. כדי שהקוד יפעל בצורה אופטימלית בסביבות ייצור, צריך להתאים אותו לדרישות העסקיות והטכניות הספציפיות שלכם.

  • חוויית קנייה מותאמת אישית: הצגת המלצות מותאמות אישית למוצרים של מותג, מוכר או זירת מסחר ספציפיים באינטרנט.
  • ניהול אירועי אבטחה: אימות של אסימון וזהות משתמש קצה על בסיס כל בקשה באמצעות העברת זהות דינמית.
  • עיבוד הזמנות: עיבוד ואחסון של הזמנות, ותיאום של אישור באימייל עם בדיקה אנושית מותנית לכמויות הזמנה שצוינו.
  • הנדסת נתונים: פיתוח צינורות עיבוד נתונים של Dataform, פתרון בעיות בצינורות עיבוד נתונים וניהול הנדסת נתונים משאילתות SQL מורכבות ועד לשינוי נתונים ותלות בנתונים.
  • אחזור מסמכים: שימוש ב-RAG כדי לשלוח שאילתות למסמכים שמעלים ל-Vertex AI RAG Engine ולקבל תשובות עם ציטוטים של מסמכים וקוד.

המאמרים הבאים

שותפים ביצירת התוכן