אתם יכולים ליצור כלי אוטומציה או להפעיל מערכת הפעלה מלאה למחשב שולחני (OS) במאגר של Cloud Run כדי לאפשר לסוכני AI לגלוש באינטרנט ולחלץ ממנו מידע, וגם לבצע פעולות אוטומטיות באמצעות קליקים בעכבר וקלט מהמקלדת.
יצירת כלים לדפדפן ב-Cloud Run
כדי ליצור כלי לדפדפן ב-Cloud Run, אפשר להשתמש באחת מהגישות הבאות:
- דפדפן ללא ממשק משתמש לביצוע משימות יעיל ורחב היקף
- מערכת הפעלה מלאה למחשב לתרחישים מורכבים שדורשים אינטראקציית אדם-מחשב
כדי לאפשר לסוכן ה-AI לנווט באינטרנט, צריך להתקין את Chromium במאגר Cloud Run ולהעניק את ההרשאות הנדרשות לסוכן כדי לגשת ל-Chromium. ב-Cloud Run יש תמיכה מובנית בסטרימינג של נתונים מהדפדפן בחזרה לסוכן או למשתמש הקצה.
Headless Chrome
אפשר להגדיר אוטומציה של משימות נפוצות בדפדפן באופן פרוגרמטי באמצעות Chrome ללא ממשק משתמש. אפשר להשתמש ב-Chrome ללא ממשק משתמש במקרים הבאים:
- גירוד נתונים באינטרנט ומיצוי נתונים בקנה מידה גדול
- שליחות של טפסים
- בדיקות ממשק משתמש
- יצירת קובצי PDF או צילומי מסך של דפי אינטרנט
אפשר להטמיע Chrome ללא GUI באמצעות הספריות הבאות:
ספריות API ברמה גבוהה כמו Puppeteer או Playwright: אפשר להשתמש בספריות האלה כדי לשלוט בדפדפן, לספק הוראות לדפדפן להיכנס לאתר, לחלץ תוכן ולהעביר אותו למודל AI לסיכום או לחילוץ נתונים מובנה.
פרוטוקול כלי הפיתוח ל-Chrome: מספק API יציב שמשמש את כלי הפיתוח ל-Chrome. ה-API הזה חושף את כל התכונות של הדפדפן באופן פרוגרמטי. הסוכן שולט בפעולות כמו קליקים בעכבר ומאחזר את התוצאות כטקסט או כנתוני פיקסלים בצורה של צילום מסך.
מערכת הפעלה למחשב עם סטרימינג של מחשוב ברשת וירטואלית (VNC)
הטמעה של מערכת הפעלה מלאה למחשב במיכל Cloud Run לתהליכים מורכבים, כמו:
- העלאה או הורדה אוטומטית של קבצים
- אינטראקציה עם תוספים לדפדפן או עם אפליקציות אחרות למחשב
- בדיקת תהליכים מורכבים שעוברים המשתמשים, שכוללים גרירה ושחרור ותנועות מורכבות אחרות של העכבר
הגישה הזו מאפשרת להריץ מערכת הפעלה מלאה למחשב ב-Cloud Run ולהזרים את התוצאות בחזרה דרך Websockets.
כשמתקינים את דפדפן Chromium הרגיל במחשב, הסוכן יוצר אינטראקציה עם מערכת ההפעלה כמו בן אדם, ואז מאחזר את הגדרות הפיקסלים של המחשב.