במאמר הזה מוצגת ארכיטקטורה ברמה גבוהה של מערכת AI מרובת סוכנים שפרוסה ב-Cloud Run, שמנתחת נתונים מולטימודליים שונים ומפיקה סיווג ברמת מהימנות גבוהה. הגישה הזו מאמתת צולבות מדיה מפוצלת על ידי התאמת נתונים בזמן אמת לנתוני אמת היסטוריים, כדי להפיק תובנות מבוססות שניתן לאמת.
המסמך הזה מיועד לארכיטקטים, למפתחים ולמנהלים שיוצרים ומנהלים תשתית ואפליקציות של AI בענן. ההנחה במסמך הזה היא שיש לכם הבנה בסיסית של סוכני AI ומודלים של AI. במסמך לא מופיעות הנחיות ספציפיות לעיצוב ולתכנות של סוכני AI.
בקטע פריסה במסמך הזה מופיעות דוגמאות לקוד שאפשר להשתמש בהן כדי ללמוד איך לבנות ולפרוס מערכות AI מרובות-סוכנים.
ארכיטקטורה
בתרשים הבא מוצגת הארכיטקטורה של מערכת ה-AI מרובת הסוכנים, שמשתמשת בתבנית עיצוב של סוכנים מקבילים כדי לתאם ניתוח עצמאי של נתונים מולטי-מודאליים, ולהפיק סיווג יחיד.
הארכיטקטורה מציגה את זרימת הנתונים הבאה:
- אפליקציית האינטרנט שולחת בקשה לסוכן הבסיסי כדי לנתח קבוצה של נתונים מולטי-מודאליים לצורך סיווג. סוכן הבסיס הוא סוכן מתאם שמקבל בקשות ונפרס בשירות Cloud Run.
- סוכן הבסיס מטפל בבקשה באופן הבא:
- הסוכן הראשי יוזם
before_agent_callbackכדי לאסוף הגדרות סביבה, לאמת את קלט של משתמשים ולשמור נתיבי משאבים במצב סשן משותף. לכל הסוכנים המשניים יש גישה למצב הסשן המשותף, כך שלא צריך לבצע קריאות מיותרות כדי לאחזר נתוני מצב, והחביון הכולל קטן יותר. - הסוכן הראשי משתמש ב-Gemini ב-Vertex AI כדי לפרש את הבקשה של המשתמש ולהפיץ משימות לסוכני משנה מיוחדים שפועלים במקביל.
- הסוכן הראשי יוזם
- כל סוכן משנה מתמחה בתחום מסוים ומבצע את המשימות הבאות באופן עצמאי:
- סוכני המשנה לניתוח תמונות וסרטונים פועלים באינטראקציה עם שרתי Model Context Protocol (MCP) מותאמים אישית כדי לבצע את הפעולות הבאות:
- אחזור נתונים גולמיים לא מובנים שמאוחסנים בקטגוריה של Cloud Storage.
- שולחים בקשה ל-Gemini לפרש את נתוני הקלט, לסווג את הנתונים ולחשב את רמת הביטחון.
- Gemini שולח את הסיווג המוצע ואת רמת הביטחון בחזרה לשרת ה-MCP המותאם אישית.
- שרת ה-MCP המותאם אישית מעביר את התגובה בחזרה לסוכן המשנה.
- סוכן המשנה לניתוח נתונים מובְנים מתאם את הניתוח על ידי ביצוע המשימות הבאות:
- מתקשר עם שרת BigQuery MCP כדי לאחזר נתונים מובְנים והקשריים (כמו רשומות היסטוריות, יומני אירועים או קריאות של חיישנים) שמאוחסנים במערך נתונים של BigQuery.
- הכלי לניתוח נתונים מובנים שולח בקשה ל-Gemini כדי לפרש את נתוני הקלט, לסווג את הנתונים ולחשב רמת מהימנות.
- Gemini שולח את הסיווג המוצע ואת רמת הוודאות בחזרה לסוכן המשנה.
- סוכני המשנה לניתוח תמונות וסרטונים פועלים באינטראקציה עם שרתי Model Context Protocol (MCP) מותאמים אישית כדי לבצע את הפעולות הבאות:
- כל סוכן משנה שולח בחזרה לסוכן הבסיסי את הסיווג המוצע ואת רמת הביטחון.
- הסוכן הראשי משתמש ב-Gemini כדי לסכם את התוצאות של סוכני המשנה המיוחדים, וכך ליצור סיווג יחיד ברמת מהימנות גבוהה.
- אם רוב הסיווגים מסוכני המשנה המומחים תואמים, סוכן הבסיס שולח את הסיווג התואם לאפליקציית האינטרנט.
- אם סוכני המשנה לא מספקים סיווג תואם, סוכן הבסיס בוחר את הסיווג עם רמת הסמך הגבוהה ביותר ושולח אותו לאפליקציית האינטרנט.
המוצרים שהשתמשו בהם
ארכיטקטורת ההפניה הזו כוללת את המוצרים והכלים הבאים: Google Cloud
- Cloud Run: פלטפורמת מחשוב ללא שרת שמאפשרת להריץ קונטיינרים ישירות על גבי התשתית הניתנת להרחבה של Google.
- Vertex AI: פלטפורמה ללמידת מכונה שמאפשרת לאמן ולפרוס מודלים של למידת מכונה ואפליקציות מבוססות-AI, ולהתאים אישית מודלים גדולים של שפה (LLM) לשימוש באפליקציות מבוססות-AI.
- Gemini: משפחה של מודלים מולטי-מודאליים של AI שפותחו על ידי Google.
- BigQuery: מחסן נתונים ארגוני שעוזר לכם לנהל ולנתח את הנתונים באמצעות תכונות מובנות כמו למידת מכונה, ניתוח גיאוספציאלי ובינה עסקית.
- Cloud Storage: מאגר אובייקטים ללא הגבלה בעלות נמוכה, לשימוש עם סוגים שונים של נתונים. אפשר לגשת לנתונים מתוך Google Cloudומחוץ לה, והם משוכפלים במיקומים שונים כדי ליצור יתירות.
- השרתים של Google Cloud MCP: שירותים מרוחקים שמנוהלים על ידי Google ומיישמים את Model Context Protocol (MCP) כדי לספק לאפליקציות AI גישה למוצרים ולשירותים של Google ו-Google Cloud.
- Model Context Protocol (MCP): תקן קוד פתוח לחיבור אפליקציות AI למערכות חיצוניות.
- ערכת פיתוח סוכנים (ADK): קבוצה של כלים וספריות לפיתוח, לבדיקה ולפריסה של סוכני AI.
מידע על בחירת רכיבים חלופיים למערכת AI אקטיבי, כולל מסגרת, זמן ריצה של סוכנים, כלים, זיכרון ודפוסי עיצוב, זמין במאמר בחירת רכיבי הארכיטקטורה של מערכת AI אקטיבי.
תרחיש לדוגמה
הארכיטקטורה הזו מיועדת לתרחישי שימוש שבהם מתבצעת סינתזה של נתונים מגוונים ממקורות שונים לצורך משימות סיווג וזיהוי. כדי לשפר את הדיוק ואת יכולת ההתאמה, הארכיטקטורה משתמשת במערכת AI מרובת סוכנים במקום בגישה מונוליתית של סוכן יחיד. דפוס העיצוב הזה מספק הוראות ממוקדות, מונע הנחיות סותרות, מאפשר להשתמש בקבוצות קטנות יותר של כלים כדי לקבל החלטות מהר יותר, ותומך בעדכונים עצמאיים, מה שמוביל לתוצאות חזקות ומתוחכמות יותר.
הנה כמה דוגמאות לתרחישי שימוש בארכיטקטורה שמתוארת במסמך הזה:
- אבחון רפואי: תוכלו לספק הערכות אבחון מקיפות באמצעות פריסת סוכנים מיוחדים לניתוח עצמאי של תמונות רפואיות, תסמינים של מטופלים ותוצאות של בדיקות מעבדה. מערכת ה-AI מסכמת את הממצאים האלה על סמך סף מהימנות שנקבע, כדי לספק לרופאים תובנות מעוגנות וניתנות לאימות.
- זיהוי הונאות: כדי לזהות הונאות פוטנציאליות ולסמן אותן, אפשר לפרוס סוכנים שינתחו באופן עצמאי דפוסי התנהגות של משתמשים ונתוני עסקאות, כמו קבלות סרוקות וחשבוניות של מוֹכרים. המערכת משווה בין ראיות ויזואליות ממסמכים לבין פעילות ברשת הדיגיטלית, מזהה אי-התאמות ומסמנת עסקאות שבהן סוכן יחיד מזהה אינדיקטור חשוד.
- עיבוד מסמכים: אפשר לבצע אוטומציה של סיווג מידע ושליפת מידע ממסמכים באמצעות פריסת סוכנים ייעודיים לזיהוי תווים אופטי (OCR), לסיווג מסמכים ולשליפת נתונים. כדי לתמוך בעיבוד ברמת מהימנות גבוהה, מערכת ה-AI דורשת שכל הסוכנים יסכימו על הפלט.
- בקרת איכות: אפשר לסווג את איכות המוצר או לזהות אנומליות באמצעות פריסת סוכנים ייעודיים לבדיקה חזותית, לניתוח נתוני חיישנים ולבדיקת מפרטים. המערכת קובעת אם הסוכן עבר או נכשל על סמך סף מהימנות שנקבע בין הסוכנים.
שיקולים בתכנון
כדי להטמיע את הארכיטקטורה הזו בסביבת ייצור, כדאי לפעול לפי ההמלצות הבאות:
- אבטחת הסוכן: כדי להגביל את היכולת של הסוכן לבצע פעולות מסוכנות, צריך ליצור זהות סוכן ולאחר מכן לאבטח את הגישה לשרתי ה-MCP באמצעות מאפיינים של ניהול זהויות והרשאות גישה (IAM). יישום העיקרון של הרשאות מינימליות יכול לעזור לכם לוודא שמערכת ה-AI האגנטית מתנהגת בצורה צפויה ולמנוע גישת קריאה-כתיבה לא מכוונת למשאבי הייצור שלכם.
- אבטחת Ingress: כדי לשלוט בגישה לאפליקציה, משביתים את כתובת ה-URL שמוגדרת כברירת מחדל ב-run.app של שירות Cloud Run בחלק הקדמי, ומגדירים מאזן עומסים חיצוני אזורי של אפליקציות (ALB). בנוסף לאיזון העומסים של התנועה הנכנסת לאפליקציה, מאזן העומסים מטפל בניהול אישורי SSL. כדי להוסיף הגנה, אפשר להשתמש בכללי מדיניות האבטחה של Google Cloud Armor כדי לספק סינון בקשות, הגנה מפני מתקפות DDoS והגבלת קצב של יצירת בקשות עבור השירות.
- אבטחת קובץ אימג' של קונטיינר: כדי לוודא שרק קובצי אימג' מורשים של קונטיינרים נפרסים ב-Cloud Run, צריך להשתמש ב-Binary Authorization. כדי לזהות סיכוני אבטחה בתמונות של קונטיינרים ולצמצם אותם, אפשר להריץ באופן אוטומטי סריקות של נקודות חולשה באמצעות Artifact Analysis. מידע נוסף זמין במאמר סקירה כללית על סריקת קונטיינרים.
- יצירת הנחיות חסכוניות: האורך של ההנחיות (קלט) והתשובות שנוצרות (פלט) משפיע ישירות על הביצועים והעלות. כדאי לכתוב הנחיות קצרות וישירות שמספקות הקשר מספק. מידע נוסף זמין במאמר בנושא שיטות מומלצות לעיצוב הנחיות.
- עלויות אחסון: כדי לשלוט בעלויות האחסון, אפשר לבחור בסוג האחסון Standard ולהפעיל את ניהול מחזור חיים של אובייקטים ואת הסיווג האוטומטי. התכונות האלה עוזרות לכם לייעל את העלויות על ידי העברה או מחיקה אוטומטית של נתונים בין סוגי אחסון, על סמך דפוסי הגישה או הכללים שהגדרתם.
- אבטחת אחסון: Cloud Storage תומך בשתי שיטות לשליטה בגישת המשתמשים לקטגוריות ולאובייקטים: IAM ורשימות של בקרת גישה (ACL). ברוב המקרים מומלץ להשתמש ב-IAM, שמאפשר להעניק הרשאות ברמת הקטגוריה והפרויקט. מידע נוסף זמין במאמר סקירה כללית על בקרת גישה.
- הקצאת משאבים: בהתאם לדרישות הביצועים, מגדירים את מגבלות הזיכרון ואת מגבלות המעבד שיוקצו לשירות Cloud Run. הנחיות נוספות לאופטימיזציה של הביצועים זמינות במאמר בנושא טיפים כלליים לפיתוח ב-Cloud Run.
מידע על גורמי עיצוב ושיטות מומלצות, והמלצות לגבי בנייה ופריסה של מערכת AI מרובת סוכנים, זמין במאמר מערכת AI מרובת סוכנים ב- Google Cloud.
פריסה
כדי לפרוס הטמעה לדוגמה של הארכיטקטורה הזו, אפשר לנסות את ה-Codelab Way Back Home Level 1.
המאמרים הבאים
- איך מארחים סוכני AI ב-Cloud Run
- איך יוצרים ופורסים שרת MCP מרוחק ב-Cloud Run
- איך בוחרים את רכיבי הארכיטקטורה של ה-AI האגנטי
- (סרטון) כדאי לצפות בפודקאסט Agent Factory על יצירת כלים מותאמים אישית לסוכנים.
- עולם תוכן מורחב: מדריכים לאדריכלות AI אקטיבי
- סקירה כללית של עקרונות והמלצות לארכיטקטורה שספציפיים לעומסי עבודה של AI ו-ML ב- Google Cloudזמינה בפרספקטיבת ה-AI וה-ML ב-Well-Architected Framework.
- לדוגמאות נוספות של ארכיטקטורות, תרשימים ושיטות מומלצות, עיינו במאמר Cloud Architecture Center.
שותפים ביצירת התוכן
מחבר: סמנתה הי | כותבת טכנית
תורמי תוכן אחרים:
- אמינה מנסור | ראש צוות הערכות של Cloud Platform
- Andrey Shakirov | Solutions Architect, Google Cloud
- Ayo Adedeji | מהנדס קשרי מפתחים
- Christina Lin | Developer Relations Engineer Manager
- קומאר דהנגופאל | מפתח פתרונות חוצי-מוצרים
- ריאן פיי | מנהל מוצר, Google Cloud