מבוא ל-BigQuery DataFrames
BigQuery DataFrames היא קבוצה של ספריות Python בקוד פתוח שמאפשרות לכם לנצל את היתרונות של עיבוד נתונים ב-BigQuery באמצעות ממשקי API מוכרים של Python. BigQuery DataFrames מספק מסגרת נתונים (DataFrame) ב-Python שמבוססת על מנוע BigQuery, ומיישם את ממשקי ה-API של pandas ו-scikit-learn על ידי העברת העיבוד ל-BigQuery באמצעות המרה ל-SQL. כך תוכלו להשתמש ב-BigQuery כדי לבחון ולעבד טרה-בייט של נתונים, וגם לאמן מודלים של למידת מכונה (ML), והכול באמצעות ממשקי API של Python.
בתרשים הבא מתואר תהליך העבודה של BigQuery DataFrames:

היתרונות של BigQuery DataFrames
הספרייה BigQuery DataFrames מאפשרת:
- הספרייה מציעה יותר מ-750 ממשקי API של pandas ו-scikit-learn שהוטמעו באמצעות המרות SQL שקופות ל-BigQuery ול-BigQuery ML APIs.
- דוחה את ההרצה של שאילתות כדי לשפר את הביצועים.
- הרחבת טרנספורמציות של נתונים באמצעות פונקציות Python שהוגדרו על ידי המשתמש, כדי לאפשר לכם לעבד נתונים ב- Google Cloud. הפונקציות האלה נפרסות אוטומטית כפונקציות מרוחקות של BigQuery.
- הוא משתלב עם Vertex AI כדי לאפשר לכם להשתמש במודלים של Gemini ליצירת טקסט.
רישוי
הספרייה BigQuery DataFrames מופצת עם רישיון Apache-2.0.
BigQuery DataFrames מכיל גם קוד שמקורו בחבילות הבאות של צד שלישי:
פרטים נוספים זמינים בספרייה third_party/bigframes_vendored במאגר BigQuery DataFrames ב-GitHub.
מכסות ומגבלות
- המכסות של BigQuery חלות על BigQuery DataFrames, כולל רכיבי חומרה, תוכנה ורשת.
- יש תמיכה בחלק מממשקי ה-API של pandas ו-scikit-learn. מידע נוסף זמין במאמר ממשקי API נתמכים של pandas.
- כחלק מניקוי הסשן, צריך לנקות באופן מפורש את כל פונקציות Cloud Run שנוצרו אוטומטית. מידע נוסף זמין במאמר ממשקי API נתמכים של pandas.
תמחור
- BigQuery DataFrames הוא קבוצה של ספריות Python בקוד פתוח שזמינות להורדה ללא עלות נוספת.
- השימוש ב-BigQuery DataFrames כרוך בעלויות משלו, כי הוא מתבסס על BigQuery, על פונקציות Cloud Run, על Vertex AI ועל שירותים אחרים שלGoogle Cloud .
- במהלך שימוש רגיל, BigQuery DataFrames מאחסן נתונים זמניים, כמו תוצאות ביניים, בטבלאות BigQuery. כברירת מחדל, הטבלאות האלה נשמרות למשך שבעה ימים, ותחויבו על הנתונים שמאוחסנים בהן. הטבלאות נוצרות במערך הנתונים
_anonymous_בפרויקט Google Cloud שצוין באפשרותbf.options.bigquery.project.
המאמרים הבאים
- אפשר לנסות את המדריך לתחילת העבודה עם BigQuery DataFrames.
- איך מתקינים את BigQuery DataFrames
- איך יוצרים תרשימים באמצעות BigQuery DataFrames
- כך משתמשים במתאם
dbt-bigquery.