מערכי נתונים ציבוריים ב-BigQuery
מערך נתונים ציבורי הוא כל מערך נתונים שמאוחסן ב-BigQuery וזמין לציבור הרחב דרך התוכנית של Google Cloud למערכי נתונים ציבוריים. מערכי הנתונים הציבוריים הם מערכי נתונים שמתארחים ב-BigQuery כדי שתוכלו לגשת אליהם ולשלב אותם באפליקציות שלכם. Google משלמת על האחסון של מערכי הנתונים האלה ומספקת גישה ציבורית לנתונים באמצעות פרויקט. התשלום הוא רק על השאילתות שמריצים על הנתונים. ה-1TB הראשון בכל חודש ניתן בחינם, בכפוף לפרטי התמחור של השאילתות.
מערכי נתונים ציבוריים זמינים לניתוח באמצעות שאילתות SQL מדור קודם או GoogleSQL. כשמריצים שאילתות על מערכי נתונים ציבוריים, צריך להשתמש בשם טבלה מוגדר במלואו, לדוגמה bigquery-public-data.bbc_news.fulltext. אם הארגון שלכם מגביל את הגישה לנתונים, למשל באמצעות גבולות אבטחה, יכול להיות שתצטרכו לפנות לאדמין כדי לקבל הרשאה לגשת למערכי נתונים ציבוריים.
אפשר לגשת למערכי נתונים ציבוריים ב-BigQuery באמצעות Google Cloud המסוף, באמצעות כלי שורת הפקודה של BigQuery, או באמצעות ביצוע קריאות ל-API בארכיטקטורת REST של BigQuery באמצעות מגוון של ספריות לקוח כמו Java, .NET או Python. אפשר גם לצפות במערכי נתונים ציבוריים ולהריץ עליהם שאילתות באמצעות BigQuery Sharing (לשעבר Analytics Hub), פלטפורמה להחלפת נתונים שעוזרת לכם לגלות ספריות נתונים ולגשת אליהן.
כברירת מחדל, אי אפשר לגשת למערכי נתונים ציבוריים מתוך מתחם היקפי של VPC Service Controls. אין הסכם רמת שירות (SLA) לתוכנית של מערכי נתונים ציבוריים.
מעבר אל 'שיתוף' (Analytics Hub)
כדי לקבל פרטים נוספים על כל מערך נתונים, אפשר ללחוץ על השם של מערך הנתונים בקטע Datasets (מערכי נתונים) ב-Cloud Marketplace.
מעבר אל Datasets ב-Cloud Marketplace
לפני שמתחילים
כדי להתחיל להשתמש במערך נתונים ציבורי ב-BigQuery, צריך ליצור פרויקט או לבחור פרויקט קיים. הטרה-בייט הראשון של נתונים שעוברים עיבוד בכל חודש הוא בחינם, כך שאפשר להתחיל להריץ שאילתות במערכי נתונים ציבוריים בלי להפעיל חיוב. אם אתם מתכוונים לחרוג מהתוכנית בחינם, אתם צריכים גם להפעיל את החיוב.
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
- BigQuery מופעל באופן אוטומטי בפרויקטים חדשים.
כדי להפעיל את BigQuery בפרויקט קיים,
מפעילים את BigQuery API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידים
מיקומים של מערכי נתונים ציבוריים
כל מערך נתונים ציבורי מאוחסן במיקום ספציפי כמו US או EU. נכון לעכשיו, טבלאות הדוגמה של BigQuery מאוחסנות במיקום US במספר אזורים.
כששולחים שאילתה לטבלת דוגמה, צריך לספק את הדגל --location=US בשורת הפקודה, לבחור ב-US כמיקום העיבוד במסוףGoogle Cloud , או לציין את המאפיין location בקטע jobReference של משאב העבודה כשמשתמשים ב-API. מכיוון שטבלאות הדוגמה מאוחסנות בארה"ב, אי אפשר לכתוב תוצאות של שאילתות על טבלאות דוגמה בטבלה באזור אחר, ואי אפשר לבצע הצטרפות של טבלאות דוגמה לטבלאות באזור אחר.
גישה למערכי נתונים ציבוריים במסוף Google Cloud
אפשר לגשת למערכי נתונים ציבוריים במסוףGoogle Cloud בשיטות הבאות:
בחלונית Explorer, צופים בפרויקט
bigquery-public-data. מידע נוסף זמין במאמר בנושא פתיחה של מערך נתונים ציבורי.אפשר להשתמש בתכונה 'שיתוף' כדי לצפות במערכי נתונים ציבוריים ולהירשם אליהם.
כדי לדעת מתי עודכנה לאחרונה טבלת נתונים, עוברים לקטע פרטים של הטבלה, כמו שמתואר במאמר קבלת מידע על טבלאות, ומסתכלים בשדה השינוי האחרון.
מערכי נתונים ציבוריים אחרים
יש עוד הרבה מערכי נתונים ציבוריים שאפשר להריץ עליהם שאילתות. חלק מהם מתארחים גם ב-Google, אבל הרבה יותר מתארחים אצל צדדים שלישיים. מערכי נתונים אחרים כוללים:
- קבוצת נתונים של צילומי רנטגן של בית החזה מ-NIH
- מערך הנתונים The Cancer Imaging Archive (TCIA)
- מערך נתונים של הערות לגבי גרסאות לרוב המוצרים של Google Cloud שזמינים לכולם.
שיתוף מערך נתונים עם הציבור
אתם יכולים לשתף כל אחד ממערכי הנתונים שלכם עם הציבור על ידי שינוי אמצעי בקרת הגישה של מערך הנתונים כך שגישה תתאפשר ל'כל המשתמשים המאומתים'. מידע נוסף על הגדרת אמצעים לבקרת גישה למערכי נתונים זמין במאמר שליטה בגישה למערכי נתונים.
כשמשתפים מערך נתונים עם הציבור:
- החיוב על אחסון מתבצע בחשבון לחיוב שמצורף לפרויקט שמכיל את מערך הנתונים ששותף באופן ציבורי.
- החיובים על שאילתות חלים על החשבון לחיוב שמצורף לפרויקט שבו מופעלות משימות השאילתה.
מידע נוסף על התמחור ב-BigQuery
טבלאות לדוגמה
בנוסף למערכי הנתונים הציבוריים, ב-BigQuery יש מספר מוגבל של טבלאות לדוגמה שאפשר להריץ עליהן שאילתות. הטבלאות האלה נמצאות ב
מערך הנתונים bigquery-public-data:samples.
הדרישות להרצת שאילתות בטבלאות לדוגמה של BigQuery זהות לדרישות להרצת שאילתות במערכי נתונים ציבוריים.
מערך הנתונים bigquery-public-data:samples כולל את הטבלאות הבאות:
| שם | תיאור |
|---|---|
gsod |
מכיל מידע על מזג האוויר שנאסף על ידי NOAA, כמו כמויות משקעים ומהירויות רוח מסוף 1929 עד תחילת 2010. |
github_nested |
כולל ציר זמן של פעולות כמו בקשות משיכה ותגובות במאגרי GitHub עם סכימה מקוננת. נוצר בספטמבר 2012. |
github_timeline |
הטבלה מכילה ציר זמן של פעולות כמו בקשות משיכה ותגובות במאגרי GitHub עם סכימה שטוחה. נוצר במאי 2012. |
natality |
תיאור של כל הלידות בארצות הברית שנרשמו ב-50 המדינות, במחוז קולומביה ובניו יורק סיטי בין 1969 ל-2008. |
shakespeare |
מכיל אינדקס מילים של יצירות שייקספיר, עם מספר הפעמים שכל מילה מופיעה בכל מאגר. |
trigrams |
מכיל טריגרמות בשפה האנגלית מדגימה של יצירות שפורסמו בין 1520 ל-2008. |
wikipedia |
המאגר מכיל את היסטוריית העריכות המלאה של כל המאמרים בוויקיפדיה עד אפריל 2010. |
יצירת קשר
אם יש לכם שאלות לגבי תוכנית מערכי הנתונים הציבוריים של BigQuery, אתם יכולים לפנות אלינו בכתובת bq-public-data@google.com.
המאמרים הבאים
במאמר מדריך למתחילים לשימוש במסוף מוסבר איך לשלוח שאילתה לטבלה בקבוצת נתונים ציבורית. Google Cloud