במסמך הזה מוצגת ארכיטקטורה ברמה גבוהה ליישום תהליכי עבודה של ניתוח נתונים בענן משולב באמצעות סוכני AI. המסמך מיועד ל-Cloud Architects, למהנדסי מערכות מידע ולמדעני נתונים שרוצים להשתמש ב-AI אקטיבי כדי לבצע ניתוח נתונים בתהליכי עבודה במאגרי נתונים מסוג Data Lake מרובי עננים (multi-cloud), במחסני נתונים (data warehouse) מובְנים ובמאגרי נתונים לא מובְנים. ההנחה במסמך הזה היא שיש לכם הבנה בסיסית במושגים של AI אקטיבי, בניתוח נתונים ובארכיטקטורת ענן.
בקטע פריסה במסמך הזה יש שיעור Codelab שבו אפשר ללמוד איך ליצור פתרון אנליטי מבוסס-סוכן.
ארכיטקטורה
התרשים הבא מציג ארכיטקטורה של פתרון ניתוח מבוסס-סוכן, שמפיק תובנות עסקיות מנתונים מובנים ולא מובנים שמופצים בין כמה מאגרי נתונים וספקי שירותי ענן.
הרכיבים בארכיטקטורה הזו מאורגנים בשכבות הבאות:
פעולות של משתמשים ושל AI אקטיבי
- סביבת פיתוח אג'נטית: אנשי מקצוע בתחום הנתונים, כמו מהנדסי נתונים ומדעני נתונים, שולחים בקשות בשפה טבעית באחת מהשיטות הבאות:
- סביבת פיתוח בעזרת סוכני AI כמו Google Antigravity IDE או Microsoft Visual Studio Code.
- סוכן CLI כמו Gemini CLI, Claude Code או Codex.
- Google Cloud Data Agent Kit extension: התוסף מאפשר לסוכנים לגשת לנתונים מהימנים ב-Google Cloud על ידי טעינת מיומנויות מתאימות וחיבור לשרתי MCP מרוחקים עבור שירותי Google Cloud .
- מודל בסיסי: כדי ליצור תובנות עסקיות מהקשר ומהנתונים המהימנים, סביבת הפיתוח מבוססת על מודל בסיסי, כמו מודל ממשפחת Gemini. המודל משתמש במיומנויות המתאימות מתוסף Data Agent Kit ובכלים הנדרשים של שרת MCP כדי ליישם תהליכי עבודה מורכבים של ניתוח נתונים.
- סביבת פיתוח אג'נטית: אנשי מקצוע בתחום הנתונים, כמו מהנדסי נתונים ומדעני נתונים, שולחים בקשות בשפה טבעית באחת מהשיטות הבאות:
תהליכי עבודה ב-Analytics
- Lakehouse for Apache Iceberg: Lakehouse מספק קטלוג מטא-נתונים מאוחד עם ביצועים גבוהים, שמשלב את פורמט הטבלה הפתוח Apache Iceberg עם אחסון ברמה ארגונית ב- Google Cloud.
- Managed Service for Apache Spark: זהו רכיב הליבה לעיבוד נתונים בארכיטקטורה. התכונה Lightning Engine של Managed Service for Apache Spark תומכת בעיבוד נתונים ללא שרת (serverless) בביצועים גבוהים, במצב אצווה ובמצב אינטראקטיבי. משימות עיבוד הנתונים של Spark משתמשות במטא-נתונים מקטלוג Iceberg ב-Lakehouse, קוראות נתונים מובנים מ-BigQuery ומבצעות קריאות ללא העתקה ממקורות חיצוניים כמו Amazon S3.
- Knowledge Catalog: הסוכן משתמש ב-Knowledge Catalog כדי לבצע סריקות חכמות של נתונים לא מובְנים ב-Cloud Storage, לחלץ מטא-נתונים סמנטיים ולבנות גרף הקשר.
מאגרי נתונים מהימנים
- נתונים ב-Google Cloud: BigQuery משמש כמחסן מרכזי לנתונים מובנים, כולל נתונים מובנים שחולצו מנתונים לא מובנים ב-Cloud Storage.
- נתונים ממקורות חיצוניים: בארכיטקטורה מוצגים מקורות נתונים חיצוניים, כמו נתונים בקטגוריות של Amazon S3 ומטא-נתונים ב-Databricks Unity Catalog. Cross-Cloud Interconnect מספק קישוריות ייעודית ברוחב פס גבוה בין Google Cloudלבין ספקי שירותי ענן אחרים.
המוצרים שהשתמשו בהם
הארכיטקטורה כוללת את השימוש ב Google Cloud המוצרים והכלים הבאים:
- Google Cloud Data Agent Kit: תוספים לסוכנים שמאפשרים למדעני נתונים, למהנדסי נתונים ולמפתחי אפליקציות נתונים לנהל את כל מחזור החיים של הנתונים מתוך סביבות הפיתוח המועדפות שלהם.
- BigQuery: מחסן נתונים ארגוני שעוזר לכם לנהל ולנתח את הנתונים באמצעות תכונות מובנות כמו למידת מכונה, ניתוח גיאוגרפי ובינה עסקית.
- Managed Service for Apache Spark: שירות מנוהל שמריץ עומסי עבודה של Apache Spark batch בתשתית מחשוב מנוהלת.
- Lakehouse for Apache Iceberg: מנוע אחסון עתיר ביצועים שמאפשר ליצור אגמי נתונים פתוחים ומספק ממשק מאוחד לניתוח נתונים מתקדם ול-AI.
- Knowledge Catalog: שירות מבוסס-AI שמספק קטלוג מאוחד של נכסי נתונים עם מטא-נתונים חכמים ויכולות ניהול.
- Gemini: משפחה של מודלים מולטי-מודאליים של AI שפותחו על ידי Google.
- Cloud Storage: מאגר אובייקטים ללא הגבלה בעלות נמוכה, לשימוש עם סוגים שונים של נתונים. אפשר לגשת לנתונים מתוך Google Cloudומחוץ לו, והם משוכפלים במיקומים שונים כדי ליצור יתירות.
- Cross-Cloud Interconnect: שירות שמספק קישוריות ייעודית עם רוחב פס גבוה וזמן אחזור נמוך בין Google Cloud לבין ספקי שירותי ענן אחרים.
- שרתי Google Cloud MCP: שירותים מרוחקים שמנוהלים על ידי Google ומיישמים את Model Context Protocol (MCP) כדי לספק לאפליקציות מבוססות-AI גישה למוצרים ולשירותים של Google ושל Google Cloud .
תרחישים לדוגמה
הארכיטקטורה שמתוארת במסמך הזה מתאימה לתרחישי השימוש הבאים:
- ניתוח נתונים בענן מרובה ספקים: אפשר לשלוח שאילתות ולנתח נתונים שמופצים ב- Google Cloud ובספקי שירותי ענן אחרים ביעילות, בלי להעביר קבצים או לבנות צינורות מורכבים של חילוץ, טרנספורמציה וטעינה (ETL). לדוגמה, מנהל שיווק ברשת קמעונאית גלובלית יכול לנתח את היעילות של קמפיינים שיווקיים על ידי שילוב של נתוני מועדון לקוחות ב-Amazon S3 עם נתוני פעולות שיווקיות ב-BigQuery.
- גילוי נתונים חכם: שימוש בהנחיות בשפה טבעית ובסוכני AI כדי לגלות, לשלוח שאילתות ולעבד מערכי נתונים מאוחדים בסביבות שונות. לדוגמה, מומחה לרכש יכול לקבוע את הסיבות הנפוצות לשיבושים בשרשרת האספקה על סמך נתונים מובנים במערכת לניהול שרשרת אספקה (SCM), בשילוב עם תובנות מתקשורת לא מובנית באימייל ומדוחות הערכת נזקים.
- חילוץ נתונים מובנים ממקורות לא מובנים: סריקה של נפחים גדולים של נתונים לא מובנים, הסקת מטא-נתונים סמנטיים ואחסון של נתונים מובנים ב-BigQuery לצורך ניתוח בהמשך. לדוגמה, מנהל תפעול יכול לנתח ביעילות הוצאות על ידי חילוץ נתונים מובְנים מאלפי חשבוניות שמאוחסנות בפורמט לא מובְנה, כמו קובצי PDF.
פריסה
כדי ללמוד איך ליצור פתרון ניתוח מבוסס-סוכנים באמצעות התוסף Data Agent Kit, אפשר לעיין ב-Codelab Raw data to forecasting in seconds with AI agents. ב-Codelab הזה נסביר איך התוסף Data Agent Kit מאפשר לכם לנתח נתונים ביעילות מתוך סביבת הפיתוח המועדפת שלכם לסוכנים. כל נתוני הדוגמה שמשמשים ב-codelab מאוחסנים ב-Google Cloud.
המאמרים הבאים
- כאן מוסבר איך התוסף Data Agent Kit מאפשר להשתמש במחברות לצורך טרנספורמציה וניתוח של נתונים.
- תרחישים לדוגמה לשימוש ב-Knowledge Catalog
- Lakehouse
- Lightning Engine מאפשר להאיץ את עומסי העבודה (workload) של Apache Spark.
- איך משתמשים ב-Knowledge Catalog כשכבת ניהול וסוכן ל-BigQuery
- לדוגמאות נוספות של ארכיטקטורות, תרשימים ושיטות מומלצות, עיינו במאמר Cloud Architecture Center.
שותפים ביצירת התוכן
מחבר: קומאר דהנגופל | מפתח פתרונות חוצי-מוצרים
תורמי תוכן אחרים:
- Abirami Sukumaran | Staff Developer Advocate
- Arti Prasad | Technical Writer
- בראד מירו | אחראי/ת קשרי מפתחים בכיר/ה
- Matthew Rahmann | Senior Product Manager
- Ranadip Chatterjee | Solutions Engineer
- Remigiusz Samborski | Lead Developer Relations Engineer