מערכי נתונים ציבוריים ב-BigQuery

מערך נתונים ציבורי הוא כל מערך נתונים שמאוחסן ב-BigQuery וזמין לציבור הרחב דרך התוכנית של Google Cloud למערכי נתונים ציבוריים. מערכי הנתונים הציבוריים הם מערכי נתונים שמתארחים ב-BigQuery כדי שתוכלו לגשת אליהם ולשלב אותם באפליקציות שלכם. ‫Google משלמת על האחסון של מערכי הנתונים האלה ומספקת גישה ציבורית לנתונים באמצעות פרויקט. התשלום הוא רק על השאילתות שמריצים על הנתונים. ה-1TB‎ הראשון בכל חודש ניתן בחינם, בכפוף לפרטי התמחור של השאילתות.

מערכי נתונים ציבוריים זמינים לניתוח באמצעות שאילתות SQL מדור קודם או GoogleSQL. כשמריצים שאילתות על מערכי נתונים ציבוריים, צריך להשתמש בשם טבלה מוגדר במלואו, לדוגמה bigquery-public-data.bbc_news.fulltext. אם הארגון שלכם מגביל את הגישה לנתונים, למשל באמצעות גבולות אבטחה, יכול להיות שתצטרכו לפנות לאדמין כדי לקבל הרשאה לגשת למערכי נתונים ציבוריים.

אפשר לגשת למערכי נתונים ציבוריים ב-BigQuery באמצעות Google Cloud המסוף, באמצעות כלי שורת הפקודה של BigQuery, או באמצעות ביצוע קריאות ל-API בארכיטקטורת REST של BigQuery באמצעות מגוון של ספריות לקוח כמו Java,‏ ‎.NET או Python. אפשר גם לצפות במערכי נתונים ציבוריים ולהריץ עליהם שאילתות באמצעות BigQuery Sharing (לשעבר Analytics Hub), פלטפורמה להחלפת נתונים שעוזרת לכם לגלות ספריות נתונים ולגשת אליהן.

כברירת מחדל, אי אפשר לגשת למערכי נתונים ציבוריים מתוך מתחם היקפי של VPC Service Controls. אין הסכם רמת שירות (SLA) לתוכנית של מערכי נתונים ציבוריים.

מעבר אל 'שיתוף' (Analytics Hub)

כדי לקבל פרטים נוספים על כל מערך נתונים, אפשר ללחוץ על השם של מערך הנתונים בקטע Datasets (מערכי נתונים) ב-Cloud Marketplace.

מעבר אל Datasets ב-Cloud Marketplace

לפני שמתחילים

כדי להתחיל להשתמש במערך נתונים ציבורי ב-BigQuery, צריך ליצור פרויקט או לבחור פרויקט קיים. הטרה-בייט הראשון של נתונים שעוברים עיבוד בכל חודש הוא בחינם, כך שאפשר להתחיל להריץ שאילתות במערכי נתונים ציבוריים בלי להפעיל חיוב. אם אתם מתכוונים לחרוג מהתוכנית בחינם, אתם צריכים גם להפעיל את החיוב.

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. ‫BigQuery מופעל באופן אוטומטי בפרויקטים חדשים. כדי להפעיל את BigQuery בפרויקט קיים,

    מפעילים את BigQuery API.

    תפקידים שנדרשים להפעלת ממשקי API

    כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

    להפעלת ה-API

מיקומים של מערכי נתונים ציבוריים

כל מערך נתונים ציבורי מאוחסן במיקום ספציפי כמו US או EU. נכון לעכשיו, טבלאות הדוגמה של BigQuery מאוחסנות במיקום US במספר אזורים. כששולחים שאילתה לטבלת דוגמה, צריך לספק את הדגל --location=US בשורת הפקודה, לבחור ב-US כמיקום העיבוד במסוףGoogle Cloud , או לציין את המאפיין location בקטע jobReference של משאב העבודה כשמשתמשים ב-API. מכיוון שטבלאות הדוגמה מאוחסנות בארה"ב, אי אפשר לכתוב תוצאות של שאילתות על טבלאות דוגמה בטבלה באזור אחר, ואי אפשר לבצע הצטרפות של טבלאות דוגמה לטבלאות באזור אחר.

גישה למערכי נתונים ציבוריים במסוף Google Cloud

אפשר לגשת למערכי נתונים ציבוריים במסוףGoogle Cloud בשיטות הבאות:

כדי לדעת מתי עודכנה לאחרונה טבלת נתונים, עוברים לקטע פרטים של הטבלה, כמו שמתואר במאמר קבלת מידע על טבלאות, ומסתכלים בשדה השינוי האחרון.

מערכי נתונים ציבוריים אחרים

יש עוד הרבה מערכי נתונים ציבוריים שאפשר להריץ עליהם שאילתות. חלק מהם מתארחים גם ב-Google, אבל הרבה יותר מתארחים אצל צדדים שלישיים. מערכי נתונים אחרים כוללים:

שיתוף מערך נתונים עם הציבור

אתם יכולים לשתף כל אחד ממערכי הנתונים שלכם עם הציבור על ידי שינוי אמצעי בקרת הגישה של מערך הנתונים כך שגישה תתאפשר ל'כל המשתמשים המאומתים'. מידע נוסף על הגדרת אמצעים לבקרת גישה למערכי נתונים זמין במאמר שליטה בגישה למערכי נתונים.

כשמשתפים מערך נתונים עם הציבור:

  • החיוב על אחסון מתבצע בחשבון לחיוב שמצורף לפרויקט שמכיל את מערך הנתונים ששותף באופן ציבורי.
  • החיובים על שאילתות חלים על החשבון לחיוב שמצורף לפרויקט שבו מופעלות משימות השאילתה.

מידע נוסף על התמחור ב-BigQuery

טבלאות לדוגמה

בנוסף למערכי הנתונים הציבוריים, ב-BigQuery יש מספר מוגבל של טבלאות לדוגמה שאפשר להריץ עליהן שאילתות. הטבלאות האלה נמצאות ב מערך הנתונים bigquery-public-data:samples.

הדרישות להרצת שאילתות בטבלאות לדוגמה של BigQuery זהות לדרישות להרצת שאילתות במערכי נתונים ציבוריים.

מערך הנתונים bigquery-public-data:samples כולל את הטבלאות הבאות:

שם תיאור
gsod מכיל מידע על מזג האוויר שנאסף על ידי NOAA, כמו כמויות משקעים ומהירויות רוח מסוף 1929 עד תחילת 2010.
github_nested כולל ציר זמן של פעולות כמו בקשות משיכה ותגובות במאגרי GitHub עם סכימה מקוננת. נוצר בספטמבר 2012.
github_timeline הטבלה מכילה ציר זמן של פעולות כמו בקשות משיכה ותגובות במאגרי GitHub עם סכימה שטוחה. נוצר במאי 2012.
natality תיאור של כל הלידות בארצות הברית שנרשמו ב-50 המדינות, במחוז קולומביה ובניו יורק סיטי בין 1969 ל-2008.
shakespeare מכיל אינדקס מילים של יצירות שייקספיר, עם מספר הפעמים שכל מילה מופיעה בכל מאגר.
trigrams מכיל טריגרמות בשפה האנגלית מדגימה של יצירות שפורסמו בין 1520 ל-2008.
wikipedia המאגר מכיל את היסטוריית העריכות המלאה של כל המאמרים בוויקיפדיה עד אפריל 2010.

יצירת קשר

אם יש לכם שאלות לגבי תוכנית מערכי הנתונים הציבוריים של BigQuery, אתם יכולים לפנות אלינו בכתובת bq-public-data@google.com.

המאמרים הבאים

במאמר מדריך למתחילים לשימוש במסוף מוסבר איך לשלוח שאילתה לטבלה בקבוצת נתונים ציבורית. Google Cloud