שימוש בסוכן מדע הנתונים של Colab Enterprise עם BigQuery

הסוכן למדע הנתונים (DSA) ל-Colab Enterprise ול-BigQuery מאפשר לכם לבצע אוטומציה של ניתוח נתונים ראשוני, לבצע משימות של למידת מכונה ולספק תובנות, והכול בתוך מחברת Colab Enterprise.

לפני שמתחילים

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. מפעילים את ממשקי ה-API של BigQuery,‏ Gemini for Google Cloud,‏ Dataform ו-Compute Engine.

    תפקידים שנדרשים להפעלת ממשקי API

    כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

    הפעלת ממשקי ה-API

    בפרויקטים חדשים, BigQuery API מופעל באופן אוטומטי.

אם אתם משתמשים מתחילים ב-Colab Enterprise ב-BigQuery, תוכלו לעיין בשלבי ההגדרה בדף יצירת מחברות.

מגבלות

  • ה-Data Science Agent זמין רק בסביבת Colab Enterprise.
  • הסוכן Data Science Agent תומך במקורות הנתונים הבאים:
    • קובצי CSV
    • טבלאות ב-BigQuery
  • הקוד שנוצר על ידי Data Science Agent פועל רק בסביבת זמן הריצה של הנוטבוק.
  • החיפוש של טבלאות BigQuery באמצעות הפונקציה @mention מוגבל לפרויקט הנוכחי. משתמשים בבורר הטבלאות כדי לחפש בפרויקטים.
  • הפונקציה @mention מחפשת רק טבלאות ב-BigQuery. כדי לחפש קובצי נתונים שאפשר להעלות, משתמשים בסמל +.
  • ‫PySpark ב-Data Science Agent יוצר רק קוד של Managed Service for Apache Spark 4.0. ה-DSA יכול לעזור לכם לשדרג ל-Managed Service for Apache Spark 4.0, אבל משתמשים שזקוקים לגרסאות קודמות לא צריכים להשתמש ב-Data Science Agent.
  • אין תמיכה במפתחות הצפנה בניהול הלקוח (CMEK).

מתי כדאי להשתמש ב-Data Science Agent

הסוכן למדעי הנתונים עוזר לכם במשימות שונות, החל מניתוח נתונים לצורך גילוי תובנות ועד ליצירת תחזיות וחיזויים באמצעות למידת מכונה. אפשר להשתמש ב-DSA כדי:

  • עיבוד נתונים בהיקף נרחב: אפשר להשתמש ב-BigQuery ML, ב-BigQuery DataFrames או ב-Managed Service for Apache Spark כדי לבצע עיבוד נתונים מבוזר במערכי נתונים גדולים. כך תוכלו לנקות, לשנות ולנתח ביעילות נתונים גדולים מדי שלא נכנסים לזיכרון במחשב יחיד.
  • יצירת תוכנית: יצירה ושינוי של תוכנית להשלמת משימה מסוימת באמצעות כלים נפוצים כמו Python,‏ SQL,‏ Managed Service for Apache Spark ו-BigQuery DataFrames.
  • ניתוח נתונים: ניתוח מערך נתונים כדי להבין את המבנה שלו, לזהות בעיות פוטנציאליות כמו ערכים חסרים וחריגים, ולבדוק את הפיזור של משתנים מרכזיים באמצעות Python או SQL.
  • ניקוי נתונים: ניקוי הנתונים. לדוגמה, אפשר להסיר נקודות נתונים שהן חריגות.
  • ארגון נתונים: המרת תכונות קטגוריות לייצוגים מספריים באמצעות טכניקות כמו קידוד one-hot או קידוד תוויות, או באמצעות כלי ההמרה של תכונות ב-BigQuery ML. ליצור תכונות חדשות לניתוח.
  • ניתוח נתונים: ניתוח הקשרים בין משתנים שונים. חישוב מתאמים בין תכונות מספריות ובדיקת התפלגויות של תכונות קטגוריות. מחפשים דפוסים ומגמות בנתונים.
  • המחשת נתונים: יצירת המחשות כמו היסטוגרמות, תרשימי קופסה, תרשימי פיזור ותרשימי עמודות שמייצגים את ההתפלגויות של משתנים בודדים ואת הקשרים ביניהם. אפשר גם ליצור תרשימים ב-Python לטבלאות שמאוחסנות ב-BigQuery.
  • הנדסת תכונות: הנדסת תכונות חדשות מקבוצת נתונים שעברה ניקוי.
  • פיצול נתונים: פיצול של מערך נתונים שעבר הנדסה למערכי נתונים של אימון, אימות ובדיקה.
  • אימון מודל: אפשר לאמן מודל באמצעות נתוני האימון ב-pandas DataFrame (‏X_train, y_train), ב-BigQuery DataFrames, ב-PySpark DataFrame או באמצעות הצהרת BigQuery ML CREATE MODEL עם טבלאות BigQuery.
  • אופטימיזציה של מודל: אופטימיזציה של מודל באמצעות קבוצת נתונים לתיקוף. כדאי לבדוק מודלים חלופיים כמו DecisionTreeRegressor ו-RandomForestRegressor ולהשוות את הביצועים שלהם.
  • הערכת המודל: הערכת ביצועי המודל בקבוצת נתוני בדיקה באמצעות pandas DataFrame,‏ BigQuery DataFrames או PySpark DataFrame. אפשר גם להעריך את איכות המודל ולהשוות בין מודלים באמצעות פונקציות להערכת מודלים של BigQuery ML למודלים שאומנו באמצעות BigQuery ML.
  • הסקת מסקנות לגבי מודלים: ביצוע הסקת מסקנות לגבי מודלים שאומנו ב-BigQuery ML, מודלים שיובאו ומודלים מרוחקים באמצעות פונקציות להסקת מסקנות ב-BigQuery ML. אפשר גם להשתמש בשיטה model.predict() של BigFrames או בטרנספורמציות של PySpark כדי ליצור תחזיות.

שימוש ב-Data Science Agent ב-BigQuery

בשלבים הבאים מוסבר איך להשתמש בסוכן Data Science ב-BigQuery.

  1. יוצרים או פותחים מחברת Colab Enterprise.

  2. אופציונלי: תוכלו להפנות לנתונים באחת מהדרכים הבאות:

    • מעלים קובץ CSV או משתמשים בסמל + בהנחיה כדי לחפש קבצים זמינים.
    • בוחרים טבלה אחת או יותר ב-BigQuery באמצעות בורר הטבלאות מהפרויקט הנוכחי או מפרויקטים אחרים שיש לכם גישה אליהם.
    • כדי להפנות לשם של טבלה ב-BigQuery בהנחיה, צריך להשתמש בפורמט הבא: project_id:dataset.table.
    • מקלידים את הסמל @ כדי לחפש שם של טבלה ב-BigQuery באמצעות הפונקציה @mention.
  3. כותבים הנחיה שמתארת את ניתוח הנתונים שרוצים לבצע או את אב הטיפוס שרוצים ליצור. ההתנהגות שמוגדרת כברירת מחדל ב-Data Science Agent היא יצירת קוד Python באמצעות ספריות קוד פתוח כמו sklearn, כדי לבצע משימות מורכבות של למידת מכונה. כדי להשתמש בכלי ספציפי, צריך לכלול את מילות המפתח הבאות בהנחיה:

    • אם רוצים להשתמש ב-BigQuery ML, צריך לכלול את מילת המפתח SQL.
    • אם רוצים להשתמש ב-BigQuery DataFrames, צריך לציין את מילות המפתח BigFrames או BigQuery DataFrames.
    • אם רוצים להשתמש ב-PySpark, צריך לכלול את מילות המפתח Apache Spark או PySpark.

    אפשר להיעזר בהנחיות לדוגמה.

  4. בוחרים מודל. מודל ברירת המחדל הוא Gemini 3.0 Flash.

  5. שולחים את ההנחיה ובודקים את התוצאות.

ניתוח של קובץ CSV

כדי לנתח קובץ CSV באמצעות Data Science Agent ב-BigQuery, צריך לבצע את השלבים הבאים.

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, מרחיבים את הפרויקט ואז לוחצים על מחברות.

  3. לוחצים על תיקיית Notebook חדשה > תיקיית Notebook ריקה.

    אפשרות נוספת: בסרגל הכרטיסיות, לוחצים על החץ לתפריט הנפתח arrow_drop_down לצד הסמל add_box הוספה, ואז על מחברת > מחברת ריקה.

  4. לוחצים על לחצן הנצנוץ הפעלה או השבתה של Gemini ב-Colab כדי לפתוח את תיבת הדו-שיח של הצ'אט.

  5. מעלים את קובץ ה-CSV.

    1. בתיבת הדו-שיח של הצ'אט, לוחצים על הוספה ל-Gemini > העלאה.

    2. אם צריך, מאשרים את חשבון Google.

    3. מאתרים את קובץ ה-CSV ולוחצים על פתיחה.

  6. אפשרות נוספת היא להקליד את הסמל + בהנחיה כדי לחפש קבצים זמינים להעלאה.

  7. כותבים את ההנחיה בחלון הצ'אט. לדוגמה: Identify trends and anomalies in this file.

  8. בוחרים מודל. מודל ברירת המחדל הוא Gemini 3.0 Flash.

  9. לוחצים על שליחה. התוצאות יופיעו בחלון הצ'אט.

  10. אפשר לבקש מהנציג לשנות את התוכנית, או להפעיל אותה בלחיצה על אישור והפעלה. במהלך הפעלת התוכנית, קוד וטקסט שנוצרו יופיעו במחברת. לוחצים על ביטול כדי להפסיק.

ניתוח טבלאות ב-BigQuery

כדי לנתח טבלה ב-BigQuery, בוחרים טבלה אחת או יותר בבורר הטבלאות, מציינים הפניה לטבלה בהנחיה או מחפשים טבלה באמצעות הסמל @.

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, מרחיבים את הפרויקט ואז לוחצים על מחברות.

  3. לוחצים על תיקיית Notebook חדשה > תיקיית Notebook ריקה.

    אפשרות נוספת: בסרגל הכרטיסיות, לוחצים על החץ לתפריט הנפתח arrow_drop_down לצד הסמל add_box הוספה, ואז על מחברת > מחברת ריקה.

  4. לוחצים על לחצן הנצנוץ הפעלה או השבתה של Gemini ב-Colab כדי לפתוח את תיבת הדו-שיח של הצ'אט.

  5. כותבים את ההנחיה בחלון הצ'אט.

  6. אפשר לציין את הנתונים שלכם באחת מהדרכים הבאות:

    1. בוחרים טבלה אחת או יותר באמצעות בורר הטבלאות:

      1. לוחצים על הוספה ל-Gemini > טבלאות BigQuery.

      2. בחלון BigQuery tables (טבלאות BigQuery), בוחרים טבלה אחת או יותר בפרויקט. אפשר לחפש טבלאות בפרויקטים ולסנן טבלאות באמצעות סרגל החיפוש.

    2. אפשר לכלול שם של טבלה ב-BigQuery ישירות בהנחיה. לדוגמה: "תעזור לי לבצע חקירה וניתוח נתונים ולקבל תובנות לגבי הנתונים בטבלה הזו: project_id:dataset.table."

      מחליפים את מה שכתוב בשדות הבאים:

      • project_id: מזהה הפרויקט
      • dataset: שם מערך הנתונים שמכיל את הטבלה שאתם מנתחים
      • table: שם הטבלה שאתם מנתחים
    3. מקלידים @ כדי לחפש טבלה ב-BigQuery בפרויקט הנוכחי.

  7. בוחרים מודל. מודל ברירת המחדל הוא Gemini 3.0 Flash.

  8. לוחצים על שליחה.

    התוצאות יופיעו בחלון הצ'אט.

  9. אפשר לבקש מהנציג לשנות את התוכנית, או להפעיל אותה בלחיצה על אישור והפעלה. במהלך הפעלת התוכנית, קוד וטקסט שנוצרו יופיעו במחברת. כדי לבצע שלבים נוספים בתוכנית, יכול להיות שתצטרכו ללחוץ שוב על אישור והפעלה. לוחצים על ביטול כדי להפסיק.

הנחיות לדוגמה

לא משנה כמה ההנחיה שבה אתם משתמשים מורכבת, Data Science Agent יוצר תוכנית שאפשר לשפר כדי שתתאים לצרכים שלכם.

בדוגמאות הבאות אפשר לראות את סוגי ההנחיות שאפשר להשתמש בהן עם DSA.

הודעות Python

קוד Python נוצר כברירת מחדל, אלא אם משתמשים במילת מפתח ספציפית בהנחיה, כמו BigQuery ML או SQL.

  • ‫"Investigate and fill missing values by using the k-Nearest Neighbors (KNN) machine learning algorithm."
  • ‫"Create a plot of salary by experience level. משתמשים בעמודה experience_level כדי לקבץ את המשכורות, ויוצרים תרשים קופסה לכל קבוצה שמציג את הערכים מהעמודה salary_in_usd".
  • ‫"Use the XGBoost algorithm to make a model for determining the class variable of a particular fruit. מפצלים את הנתונים למערכי נתונים לאימון ולבדיקה כדי ליצור מודל ולקבוע את רמת הדיוק שלו. תצור מטריצת בלבול כדי להציג את התחזיות בכל אחת מהכיתות, כולל כל התחזיות שנכונות ושגויות".
  • "תחזית target_variable מ-filename.csv לששת החודשים הבאים".

הנחיות ל-SQL ול-BigQuery ML

  • ‫"Create and evaluate a classification model on bigquery-public-data.ml_datasets.census_adult_income using BigQuery SQL."
  • ‫"Using SQL, forecast the future traffic of my website for the next month based on bigquery-public-data.google_analytics_sample.ga_sessions_*. לאחר מכן, יוצרים תרשים של הערכים ההיסטוריים והתחזיתיים".
  • "תקבץ לקוחות דומים יחד כדי ליצור קמפיינים שיווקיים ממוקדים באמצעות מודל KMeans ופונקציות SQL של BigQuery ML. שימוש בשלוש תכונות לאשכולות. לאחר מכן, יוצרים סדרה של תרשימי פיזור דו-ממדיים כדי להציג את התוצאות באופן חזותי. צריך להשתמש בטבלה bigquery-public-data.ml_datasets.census_adult_income."
  • ‫"Generate text embeddings in BigQuery ML using the review content in bigquery-public-data.imdb.reviews."

רשימה של מודלים נתמכים ומשימות של למידת מכונה זמינה במאמרי העזרה של BigQuery ML.

הנחיות ל-DataFrame

  • ‫"Create a pandas DataFrame for the data in project_id:dataset.table. מנתחים את הנתונים כדי למצוא ערכי null, ואז יוצרים תרשים של ההתפלגות של כל עמודה באמצעות סוג התרשים. בתרשימי כינור כדאי להשתמש כשרוצים להציג ערכים שנמדדו, ובתרשימי עמודות כשרוצים להציג קטגוריות".
  • ‫"Read filename.csv and construct a DataFrame. מריצים ניתוח ב-DataFrame כדי לקבוע מה צריך לעשות עם הערכים. לדוגמה, האם יש ערכים חסרים שצריך להחליף או להסיר, או שורות כפולות שצריך לטפל בהן. השתמש בקובץ הנתונים כדי לקבוע את התפלגות הכסף שהושקע בדולר ארה"ב לפי מיקום העיר. צריך ליצור תרשים עמודות של 20 התוצאות המובילות, שבו התוצאות מוצגות בסדר יורד לפי מיקום לעומת סכום ההשקעה הממוצע (USD)."
  • ‫"Create and evaluate a classification model on project_id:dataset.table using BigQuery DataFrames."
  • "תצור מודל לחיזוי סדרות זמנים ב-project_id:dataset.table באמצעות BigQuery DataFrames, ותציג את הערכות המודל".
  • "צור תרשים של נתוני המכירות בשנה האחרונה בטבלת project_id:dataset.table ב-BigQuery באמצעות BigQuery DataFrames".
  • "תמצא את התכונות שיכולות לחזות בצורה הכי טובה את מיני הפינגווינים מהטבלה bigquery-public_data.ml_datasets.penguins באמצעות BigQuery DataFrames".

הנחיות ל-PySpark

  • ‫"Create and evaluate a classification model on project_id:dataset.table using Managed Service for Apache Spark."
  • "תקבץ לקוחות דומים כדי ליצור קמפיינים לטירגוט שוק, אבל קודם תבצע צמצום ממדים באמצעות מודל PCA. תשתמש ב-PySpark כדי לעשות את זה בטבלה project_id:dataset.table".

השבתה של Gemini ב-BigQuery

כדי להשבית את Gemini ב-BigQuery עבור פרויקט Google Cloud , אדמין צריך להשבית את Gemini for Google Cloud API. השבתת שירותים

כדי להשבית את Gemini ב-BigQuery עבור משתמש ספציפי, אדמין צריך לבטל את התפקיד משתמש ב-Gemini ב-Google Cloud (roles/cloudaicompanion.user) עבור אותו משתמש. ראו ביטול תפקיד יחיד ב-IAM.

תמחור

התמחור של Data Science Agent מבוסס על נתוני הקלט והפלט. מידע נוסף זמין במאמר איך התמחור ב-BigQuery עובד.

אזורים נתמכים

כדי לראות את האזורים הנתמכים של סוכן מדע הנתונים של Colab Enterprise, אפשר לעיין במאמר בנושא מיקומים.