‫Google משתמשת בטכנולוגיית AI כדי לתרגם תוכן לשפה המועדפת עליך. בתרגומים כאלו עשויות להיות שגיאות.

תרחיש שימוש ב-AI אקטיבי: הפעלת סטרימינג דו-כיווני מולטי-מודאלי בזמן אמת

Last reviewed 2026-04-06 UTC

במסמך הזה מוצגת ארכיטקטורה ברמה גבוהה של מערכת AI עם כמה סוכנים, שפועלת בשידור חי ובשני הכיוונים ב- Google Cloud. המערכת עוזרת למשתמשים להשלים משימות טכניות, כמו הרכבת רכיבים מורכבים, אבחון תקלות בציוד או ניווט בהליכי תיקון מורכבים. מערכת ה-AI האקטיבי מספקת הנחיות טכניות מבוססות וניטור אוטומטי של בטיחות באמצעות זרם רציף ודו-כיווני של נתונים מולטי-מודאליים.

המסמך הזה מיועד לארכיטקטים, למפתחים ולמנהלים שבונים ומנהלים תשתית ואפליקציות של AI בענן. ההנחה במסמך הזה היא שיש לכם הבנה בסיסית של סוכני AI ומודלים של AI. במסמך לא מופיעות הנחיות ספציפיות לעיצוב ולתכנות של סוכני AI.

בקטע פריסה של המסמך הזה מפורטות דוגמאות קוד שאפשר להשתמש בהן כדי ללמוד איך ליצור ולפרוס מערכות AI עם כמה סוכנים.

ארכיטקטורה

הדיאגרמה הבאה מציגה מבט כללי על ארכיטקטורה שמשתמשת במערכת AI מרובת סוכנים כדי לאפשר סטרימינג של נתונים מולטי-מודאליים בשידור חי ובשני הכיוונים:

ארכיטקטורה ברמה גבוהה של מערכת AI מרובת סוכנים שמאפשרת סטרימינג דו-כיווני של נתונים מולטי-מודאליים.

הארכיטקטורה בתרשים שלמעלה כוללת שני תהליכי עבודה: הדרכה טכנית ומעקב אחר בטיחות.

תהליך העבודה של ההדרכה הטכנית מאפשר למשתמשים לקבל פתרונות בזמן אמת לשאלות טכניות מורכבות. בתהליך העבודה הזה נעשה שימוש במודל Gemini Live כדי לעבד סטרימינג מולטימודאלי ולתאם עם סוכן משנה כדי לאחזר פרטי המוצר מבוססים ממסד הידע.
תהליך העבודה של ניטור הבטיחות מספק זיהוי אוטומטי של סכנות כדי להבטיח את בטיחות המשתמשים במהלך הליכים טכניים. בתהליך העבודה הזה נעשה שימוש ב-Gemini כדי לנתח קטעי וידאו בשידור חי, לזהות סיכונים פוטנציאליים ולהפעיל אזהרות מיידיות דרך לוח הבקרה של הלקוח.

בכרטיסיות הבאות מוצגים תרשימי ארכיטקטורה שמציגים את ההנחיות הטכניות ואת תהליכי העבודה של ניטור הבטיחות:

תהליך העבודה של הנחיות טכניות

התרשים הבא מציג ארכיטקטורה מפורטת של תהליך עבודה להדרכה טכנית.

ארכיטקטורה שמציגה את תהליך העבודה של ההנחיות הטכניות.

בתרשים שלמעלה מוצג זרימת הנתונים הבאה:

משתמש מתחיל סשן על ידי שליחת שאלה טכנית בדיבור דרך לוח הבקרה של הלקוח. לדוגמה, טכנאי יכול לכוון את המצלמה שלו אל לוח בקרה ולשאול: "עזרה, מה המשמעות של נורית השגיאה האדומה המהבהבת הזו?"
לוח הבקרה של הלקוח יוצר חיבור WebSocket קבוע בין הקצה הקדמי לבין שרת הבק-אנד.
הודעות WebSocket אורזות את נתוני המולטימדיה הגולמיים באובייקטים של Blob. רכיב LiveRequestQueue של ערכת פיתוח הסוכנים (ADK) מעביר באופן רציף את נתוני הקלט לסוכן השולח.
הסוכן של המוקדנית מזהה פקודות קוליות או חזותיות שדורשות הדרכה טכנית, ושולח את זרם הקלט אל מודל Gemini Live.
מודל Gemini Live מחפש בנתונים הגולמיים כדי לזהות אירועים. אירועים הם מילות מפתח אודיו, כמו "הרכבה" או "עזרה", או רמזים חזותיים, כמו תנועות ידיים.

‫Gemini בודק כל אירוע כדי לקבוע אם הוא רלוונטי לשאלה של המשתמש. לדוגמה, יכול להיות שמחוות ידיים או מילות מילוי לא יהיו רלוונטיות, ולכן Gemini לא יעבד את האירועים האלה.
לכל אירוע רלוונטי, Gemini מפעיל קריאה לפונקציה כדי להעריך אם נדרש הקשר נוסף. בהתאם לצורך בהקשר נוסף, Gemini או סוכן ארכיטקט שולחים תשובה בחזרה לסוכן השולח.
1. אם הוא צריך עוד הקשר, Gemini מחפש את כרטיס הסוכן של האדריכל כדי להבין איך לבנות את הבקשה.
2. ‫Gemini שולח בקשה מובנית לסוכן השולח. הבקשה מכילה פרטי אירוע, כמו סוג המוצר, מספר הדגם, סוג האירוע ומאפיינים.
3. סוכן השליחה משתמש בפרוטוקול Agent2Agent‏ (A2A) כדי לשלוח את הבקשה המובנית לסוכן הארכיטקט.
4. הסוכן הארכיטקט שולח את השאילתה דרך מחבר חיבור לרשת (VPC) מאפליקציית serverless . המחבר מאפשר לסוכן לגשת באופן מאובטח למשאבים ברשת הענן הווירטואלי הפרטי (VPC) שמשמשת למשאבי האחסון בארכיטקטורה הזו.
5. מחבר הגישה ל-VPC ללא שרתים פועל עם הנתונים שבמטמון שמאוחסנים ב- Memorystore for Redis Cluster. אם הנתונים לא זמינים בשכבת המטמון, סוכן הארכיטקט מקיים אינטראקציה עם מופעי Compute Engine שמארחים את בסיס הידע.
6. הסוכן של הארכיטקט מקבל את פרטי המוצר ממטמון הנתונים או ממסד הידע. סוכן הארכיטקט שולח את פרטי המוצר אל Gemini כדי ליצור תשובה. לדוגמה, "קוד שגיאה 3B: תקלה במאוורר פעולה מומלצת: בדיקה אם יש חסימות".
7. הסוכן הארכיטקט שולח את פרטי המוצר בחזרה לסוכן השולח.
אם לא צריך עוד הקשר, Gemini יוצר תשובה לבקשת המשתמש ישירות.
סוכן השליחה מקבל את התשובה מ-Gemini או מסוכן הארכיטקטורה, והוא יוצר תשובה מרובת-אופנים:
1. משתמש במודל Gemini Live ובפונקציה ADK run_live כדי ליצור תשובה מולטי-מודאלית שמכילה את הפתרון הטכני.
2. התגובה מאוחסנת כאובייקט Blob.
3. הפתרון הטכני נשלח דרך מאגר הנתונים הזמני של הסטרימינג ודרך חיבור WebSocket מתמשך, כדי להעביר את הפתרון הטכני ללוח הבקרה של הלקוח.
לוח הבקרה של הלקוח מחלץ את נתוני Blob מהפתרון הטכני כדי לספק הדרכה מיידית עם קריינות, ומעדכן את ממשק המשתמש עם תמלילים רלוונטיים. לולאת הבקשה מסתיימת בזמן שזרם דו-כיווני פעיל נשמר.

תהליך העבודה של ניטור הבטיחות

בתרשים הבא מוצגת ארכיטקטורה מפורטת של תהליך עבודה לניטור בטיחות.

בתרשים שלמעלה מוצג זרימת הנתונים הבאה:

מרכז הבקרה של הלקוח יוצר חיבור קבוע של WebSocket בין הקצה הקדמי לבין שרת הבק-אנד כדי לצפות בשידור החי של הווידאו. חבילות ההודעות של WebSocket אורזות את נתוני המולטימדיה הגולמיים האלה באובייקטים מסוג Blob ושולחות אותם באופן רציף למאגר הזמני של הסטרימינג, באמצעות רכיב LiveRequestQueue של ADK.
מאגר הנתונים הזמני של הסטרימינג מפנה את נתוני הקלט לכלי סטרימינג שפועל בלולאה רציפה ברקע כדי לזהות סכנות בפריים של הסרטון.
כלי הסטרימינג שולח את פריים הווידאו האחרון ממאגר הנתונים הזמני של הסטרימינג אל Gemini.
‫Gemini בוחן את הפריימים של הסרטון כדי לזהות סכנות, כמו אור חזק או אדים.
- אם לא מזוהה סכנה, לא קורה כלום.
- אם מזוהה סכנה, Gemini יוצר תגובה מולטי-מודאלית שמכילה את סוג הסכנה, המאפיינים שלה והמיקום שלה, ושומר אותה כאובייקט Blob. ‫Gemini שולח את התשובה עם אזהרת הסכנה בחזרה לכלי הסטרימינג.
הכלי לסטרימינג מעביר את התגובה לאזהרה על הסכנה למאגר הזמני של הסטרימינג.
מאגר הנתונים הזמני של הסטרימינג משתמש בחיבור WebSocket הקבוע כדי להעביר את הפתרון הטכני ללוח הבקרה של הלקוח.
לוח הבקרה של הלקוח מחלץ את נתוני Blob מהפתרון הטכני כדי לספק הדרכה מיידית עם קריינות, ומעדכן את ממשק המשתמש עם תמלילים רלוונטיים. כך מסתיים לולאת הבקשות, והזרם הדו-כיווני נשאר פעיל.

המוצרים שהשתמשו בהם

ארכיטקטורת העזר הזו משתמשת במוצרים ובכלים הבאים: Google Cloud

‫ Cloud Run: פלטפורמת מחשוב ללא שרת שמאפשרת להריץ קונטיינרים ישירות על גבי התשתית הניתנת להרחבה של Google.
‫ Gemini : משפחה של מודלים מולטי-מודאליים של AI שפותחו על ידי Google.

‫Gemini Enterprise Agent Platform: פלטפורמה מקיפה שמאפשרת ליצור, להרחיב, לנהל ולבצע אופטימיזציה של סוכני AI ברמה שמתאימה לארגונים.
‫Agent Development Kit (ADK): ערכה של כלים וספריות לפיתוח, לבדיקה ולפריסה של סוכני AI.
פרוטוקול Agent2Agent‏ (A2A): פרוטוקול פתוח שמאפשר תקשורת ופעולה הדדית בין סוכנים, ללא קשר לשפת התכנות ולזמן הריצה שלהם.
חיבור לרשת (VPC) מאפליקציית serverless: שירות שמאפשר לסביבות serverless להתחבר למשאבים ברשת של ענן וירטואלי פרטי (VPC).
ענן וירטואלי פרטי (VPC): מערכת וירטואלית שמספקת פונקציונליות של רשתות גלובליות וניתנות להרחבה עבור עומסי העבודה שלכם ב- Google Cloud . ‫VPC כולל קישור בין רשתות VPC שכנות (peering),‏ Private Service Connect, גישה לשירותים פרטיים ו-VPC משותף.
‫ Memorystore for Redis Cluster: שירות מאגרי נתונים בזיכרון מנוהל באופן מלא ל-Redis.
‫ Compute Engine: שירות מחשוב מאובטח וניתן להתאמה אישית שמאפשר ליצור ולהריץ מכונות וירטואליות בתשתית של Google.

מידע על בחירת רכיבים חלופיים למערכת ה-AI האגנטית, כולל מסגרת, זמן ריצה של סוכן, כלים, זיכרון ודפוסי עיצוב, אפשר למצוא במאמר בחירת רכיבי הארכיטקטורה של ה-AI האגנטי.