במסמך הזה מוצגת ארכיטקטורה ברמה גבוהה של מערכת AI עם כמה סוכנים שפרוסה ב-Cloud Run. המערכת מנתחת נתונים מולטימודליים שונים ומפיקה סיווג ברמת מהימנות גבוהה. הגישה הזו מאמתת צלבים מדיה מקוטעת על ידי התאמת נתונים בזמן אמת לנתוני אמת היסטוריים, כדי להפיק תובנות מבוססות וניתנות לאימות.
קהל היעד של המסמך הזה כולל אדריכלים, מפתחים ואדמינים שיוצרים ומנהלים אפליקציות ותשתיות AI בענן. ההנחה היא שיש לכם ידע בסיסי בנושא סוכני AI ומודלים של AI. המסמך לא מספק הנחיות ספציפיות לתכנון ולקידוד של סוכני AI.
בקטע פריסה במסמך הזה מופיעות דוגמאות קוד שאפשר להשתמש בהן כדי ללמוד איך ליצור ולפרוס מערכות AI עם כמה סוכנים.
ארכיטקטורה
בתרשים הבא מוצגת הארכיטקטורה של מערכת AI מרובת סוכנים שמשתמשת בתבנית עיצוב של סוכנים מקבילים כדי לתאם ניתוח עצמאי של נתונים מולטי-מודאליים, ולהפיק סיווג יחיד.
הארכיטקטורה מציגה את זרימת הנתונים הבאה:
- אפליקציית האינטרנט שולחת בקשה לסוכן הבסיסי כדי לנתח קבוצה של נתונים מרובי-אופנים לצורך סיווג. סוכן הבסיס הוא סוכן מתאם שמקבל בקשות ונפרס בשירות Cloud Run.
- סוכן הבסיס מטפל בבקשה באופן הבא:
- הסוכן הראשי יוזם
before_agent_callbackכדי לאסוף הגדרות סביבה, לאמת את קלט של משתמשים ולשמור נתיבי משאבים במצב סשן משותף. לכל הסוכנים המשניים יש גישה למצב הסשן המשותף, כך שלא צריך לבצע קריאות מיותרות כדי לאחזר נתוני מצב, והחביון הכולל קטן יותר. - הסוכן הראשי משתמש ב-Gemini ב-Vertex AI כדי לפרש את בקשת המשתמש ולחלק את המשימות לסוכני משנה מיוחדים שפועלים במקביל.
- הסוכן הראשי יוזם
- כל סוכן משנה מתמחה בתחום מסוים ומבצע את המשימות הבאות באופן עצמאי:
- סוכני המשנה לניתוח תמונות וסרטונים מתקשרים עם שרתי Model Context Protocol (MCP) מותאמים אישית כדי לבצע את הפעולות הבאות:
- אחזור נתונים לא מעובדים ולא מובנים שמאוחסנים בקטגוריה של Cloud Storage.
- שולחים בקשה ל-Gemini לפרש את נתוני הקלט, לסווג את הנתונים ולחשב את רמת הביטחון.
- Gemini שולח את הסיווג המוצע ואת רמת הביטחון בחזרה לשרת ה-MCP המותאם אישית.
- שרת ה-MCP המותאם אישית מעביר את התגובה בחזרה לסוכן המשנה.
- סוכן המשנה לניתוח נתונים מובְנים מתאם את הניתוח על ידי השלמת המשימות הבאות:
- מתקשר עם שרת BigQuery MCP כדי לאחזר נתונים מובְנים והקשריים (כמו רשומות היסטוריות, יומני אירועים או קריאות של חיישנים) שמאוחסנים במערך נתונים של BigQuery.
- הכלי לניתוח נתונים מובנים שולח בקשה ל-Gemini כדי לפרש את נתוני הקלט, לסווג את הנתונים ולחשב רמת מהימנות.
- Gemini שולח את הסיווג המוצע ורמת הוודאות בחזרה לסוכן המשנה.
- סוכני המשנה לניתוח תמונות וסרטונים מתקשרים עם שרתי Model Context Protocol (MCP) מותאמים אישית כדי לבצע את הפעולות הבאות:
- כל סוכן משנה שולח בחזרה לסוכן הבסיסי את הסיווג המוצע ואת רמת הביטחון.
- סוכן הבסיס משתמש ב-Gemini כדי לסכם את התוצאות של סוכני המשנה המיוחדים, וכך ליצור סיווג יחיד ברמת מהימנות גבוהה.
- אם רוב הסיווגים מסוכני המשנה המומחים תואמים, סוכן הבסיס שולח את הסיווג התואם לאפליקציית האינטרנט.
- אם סוכני המשנה לא מספקים סיווג תואם, סוכן הבסיס בוחר את הסיווג עם רמת הסמך הגבוהה ביותר ושולח אותו לאפליקציית האינטרנט.
המוצרים שהשתמשו בהם
ארכיטקטורת ההפניה הזו משתמשת במוצרים ובכלים הבאים Google Cloud :
- Cloud Run: פלטפורמת מחשוב ללא שרת שמאפשרת להריץ קונטיינרים ישירות על גבי התשתית הניתנת להרחבה של Google.
- Vertex AI: פלטפורמה ללמידת מכונה שמאפשרת לאמן ולפרוס מודלים של למידת מכונה ואפליקציות מבוססות-AI, ולהתאים אישית מודלים של שפה גדולה (LLM) לשימוש באפליקציות מבוססות-AI.
- Gemini: משפחה של מודלים מולטי-מודאליים של AI שפותחו על ידי Google.
- BigQuery: מחסן נתונים ארגוני שעוזר לכם לנהל ולנתח את הנתונים באמצעות תכונות מובנות כמו למידת מכונה, ניתוח גיאוספציאלי ובינה עסקית.
- Cloud Storage: מאגר אובייקטים ללא הגבלה בעלות נמוכה, לשימוש עם סוגים שונים של נתונים. אפשר לגשת לנתונים מתוך Google Cloudומחוץ לו, והם משוכפלים במיקומים שונים כדי ליצור יתירות.
- שרתי Google Cloud MCP: שירותים מרוחקים שמנוהלים על ידי Google ומיישמים את Model Context Protocol (MCP) כדי לספק לאפליקציות מבוססות-AI גישה למוצרים ולשירותים של Google ו-Google Cloud.
- Model Context Protocol (MCP): תקן קוד פתוח לחיבור אפליקציות AI למערכות חיצוניות.
- ערכה לפיתוח סוכנים (ADK): קבוצה של כלים וספריות לפיתוח, לבדיקה ולפריסה של סוכני AI.
מידע על בחירת רכיבים חלופיים למערכת AI אקטיבי, כולל מסגרת, זמן ריצה של סוכנים, כלים, זיכרון ודפוסי עיצוב, זמין במאמר בחירת רכיבי הארכיטקטורה של AI אקטיבי.
תרחיש שימוש
הארכיטקטורה הזו מיועדת לתרחישי שימוש שבהם מתבצעת סינתזה של נתונים מולטי-מודאליים מגוונים למשימות סיווג וזיהוי. כדי לשפר את הדיוק והמדרגיות, הארכיטקטורה משתמשת במערכת AI מרובת סוכנים במקום בגישה מונוליטית של סוכן יחיד. דפוס העיצוב הזה מספק הוראות ממוקדות, מונע הנחיות סותרות, מאפשר שימוש במערכות כלים קטנות יותר לקבלת החלטות מהירה יותר ותומך בעדכונים עצמאיים, מה שמוביל לתוצאות חזקות ומתוחכמות יותר.
הנה כמה דוגמאות לתרחישי שימוש בארכיטקטורה שמתוארת במסמך הזה:
- אבחון רפואי: אפשר לספק הערכות אבחוניות מקיפות באמצעות פריסת סוכנים ייעודיים לניתוח עצמאי של תמונות רפואיות, תסמינים של מטופלים ותוצאות בדיקות מעבדה. מערכת ה-AI מסכמת את הממצאים האלה על סמך ערך סף מהימנות שנקבע, כדי לספק תובנות מבוססות וניתנות לאימות לרופאים.
- זיהוי הונאות: כדי לזהות הונאות פוטנציאליות ולסמן אותן, אפשר לפרוס סוכנים שינתחו באופן עצמאי דפוסי התנהגות של משתמשים ונתוני עסקאות, כמו קבלות סרוקות וחשבוניות של מוֹכרים. באמצעות השוואה בין ראיות חזותיות ממסמכים לבין פעילות ברשת הדיגיטלית, המערכת מזהה אי-התאמות ומסמנת עסקאות שבהן סוכן יחיד מזהה אינדיקטור חשוד.
- עיבוד מסמכים: אפשר להטמיע סוכנים ייעודיים לזיהוי תווים אופטי (OCR), לסיווג מסמכים ולשליפת נתונים כדי לבצע אוטומציה של סיווג ושליפה של מידע ממסמכים. כדי לתמוך בעיבוד ברמת מהימנות גבוהה, מערכת ה-AI דורשת שכל הסוכנים יסכימו על הפלט.
- בקרת איכות: אפשר לסווג את איכות המוצר או לזהות אנומליות באמצעות פריסת סוכנים מיוחדים לבדיקה חזותית, לניתוח נתוני חיישנים ולבדיקת מפרטים. המערכת קובעת אם המוצר עבר את הבדיקה או לא, על סמך סף מהימנות שנקבע מראש בין הסוכנים.
שיקולים לגבי העיצוב
כדי להטמיע את הארכיטקטורה הזו בסביבת ייצור, כדאי לפעול לפי ההמלצות הבאות:
- אבטחת סוכנים: כדי להגביל את היכולת של סוכן לבצע פעולות מסוכנות, צריך ליצור זהות סוכן ולאחר מכן לאבטח את הגישה לשרתי MCP באמצעות מאפיינים של ניהול זהויות והרשאות גישה (IAM). על ידי יישום העיקרון של הרשאות מינימליות, תוכלו לוודא שמערכת ה-AI האקטיבי שלכם תפעל בצורה צפויה ולמנוע גישת קריאה-כתיבה לא מכוונת למשאבי הייצור שלכם.
- אבטחת תעבורת נכנסת: כדי לשלוט בגישה לאפליקציה, משביתים את כתובת ה-URL שמוגדרת כברירת מחדל ב-run.app של שירות Cloud Run בחזית העורפית ומגדירים מאזן עומסים חיצוני אזורי של אפליקציות. בנוסף לאיזון העומסים של התנועה הנכנסת לאפליקציה, מאזן העומסים מטפל בניהול אישורי SSL. כדי להוסיף שכבת הגנה, אפשר להשתמש בכללי מדיניות האבטחה של Google Cloud Armor כדי לספק סינון בקשות, הגנה מפני מתקפות DDoS והגבלת קצב של יצירת בקשות לשירות.
- אבטחת קובצי אימג' של קונטיינרים: כדי לוודא שרק קובצי אימג' מורשים של קונטיינרים נפרסים ב-Cloud Run, צריך להשתמש ב-Binary Authorization. כדי לזהות סיכוני אבטחה בתמונות של קונטיינרים ולצמצם אותם, אפשר להריץ באופן אוטומטי סריקות של נקודות חולשה באמצעות Artifact Analysis. מידע נוסף זמין במאמר סקירה כללית על סריקת קונטיינרים.
- יצירת הנחיות חסכוניות: האורך של ההנחיות (הקלט) והתשובות שנוצרות (הפלט) משפיע ישירות על הביצועים והעלות. כדאי לכתוב הנחיות קצרות וישירות שמספקות הקשר מספיק. למידע נוסף, אפשר לעיין בשיטות מומלצות לעיצוב הנחיות.
- עלויות אחסון: כדי לשלוט בעלויות האחסון, אפשר לבחור בסוג האחסון Standard ולהפעיל את התכונות ניהול מחזור חיים של אובייקטים וסיווג אוטומטי. התכונות האלה עוזרות לכם לייעל את העלויות על ידי העברה או מחיקה אוטומטית של נתונים בין סוגי אחסון שונים, על סמך דפוסי הגישה או הכללים שהגדרתם.
- אבטחת אחסון: Cloud Storage תומך בשתי שיטות לשליטה בגישת המשתמשים לקטגוריות ולאובייקטים: IAM ורשימות של בקרת גישה (ACL). ברוב המקרים מומלץ להשתמש ב-IAM, שמאפשר לתת הרשאות ברמת הקטגוריה והפרויקט. מידע נוסף זמין במאמר סקירה כללית על בקרת גישה.
- הקצאת משאבים: בהתאם לדרישות הביצועים, מגדירים את מגבלות הזיכרון ומגבלות המעבד שיוקצו לשירות Cloud Run. לקבלת הנחיות נוספות לאופטימיזציה של הביצועים, אפשר לעיין במאמר טיפים כלליים לפיתוח ב-Cloud Run.
מידע על גורמי עיצוב ושיטות מומלצות, והמלצות לגבי בנייה ופריסה של מערכת AI מרובת סוכנים, זמין במאמר מערכת AI מרובת סוכנים ב- Google Cloud.
פריסה
כדי לפרוס הטמעה לדוגמה של הארכיטקטורה הזו, אפשר לנסות את שיעור Codelab בנושא Way Back Home, רמה 1.
המאמרים הבאים
- איך מארחים סוכני AI ב-Cloud Run
- איך מפתחים ופורסים שרת MCP מרוחק ב-Cloud Run
- איך בוחרים את רכיבי הארכיטקטורה של AI אקטיבי
- (סרטון) צפייה בפודקאסט Agent Factory על יצירת כלים מותאמים אישית לסוכנים.
- עולם תוכן מורחב: מדריכים לארכיטקטורת AI אקטיבי
- סקירה כללית של עקרונות והמלצות בנושא ארכיטקטורה שספציפיים לעומסי עבודה של AI ו-ML ב- Google Cloudזמינה בפרספקטיבה של AI ו-ML ב-Well-Architected Framework.
- לדוגמאות נוספות של ארכיטקטורות, תרשימים ושיטות מומלצות, עיינו במאמר Cloud Architecture Center.
שותפים ביצירת התוכן
מחבר: סמנתה הי | כותבת טכנית
תורמי תוכן אחרים:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Andrey Shakirov | Solutions Architect, Google Cloud
- Ayo Adedeji | Developer Relations Engineer
- Christina Lin | Developer Relations Engineer Manager
- קומאר דהנגופאל | מפתח פתרונות חוצי-מוצרים
- ריאן פיי | מנהל מוצר, Google Cloud