טעינה של נתונים והרצת שאילתות
כדי להתחיל לעבוד עם BigQuery, צריך ליצור מערך נתונים, לטעון נתונים לטבלה ולהריץ שאילתה על הטבלה.
לחצו על תראו לי איך כדי לקרוא הסבר מפורט על המשימה ישירות במסוף Google Cloud :
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
מפעילים את BigQuery API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידיםבפרויקטים חדשים, BigQuery API מופעל באופן אוטומטי.
- אופציונלי: מפעילים חיוב בפרויקט. גם אם אתם לא רוצים להפעיל חיוב או לספק כרטיס אשראי, השלבים שבמסמך הזה עדיין רלוונטיים. BigQuery מספק לכם ארגז חול לביצוע השלבים. מידע נוסף זמין במאמר בנושא הפעלת ארגז החול של BigQuery.
התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות ליצירת מערך נתונים, ליצירת טבלה, לטעינת נתונים ולשאילתת נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:
-
הפעלת משימות טעינה ומשימות שאילתה:
BigQuery Job User (
roles/bigquery.jobUser) -
יצירת מערך נתונים, יצירת טבלה, טעינת נתונים לטבלה והרצת שאילתה בטבלה:
כלי עריכת הנתונים של BigQuery (
roles/bigquery.dataEditor)
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
יצירת מערך נתונים ב-BigQuery
משתמשים במסוף Google Cloud כדי ליצור מערך נתונים לאחסון הנתונים. יוצרים את מערך הנתונים במיקום רב-אזורי בארה"ב. מידע על אזורים ומספר אזורים ב-BigQuery זמין במאמר מיקומים.
- במסוף Google Cloud , פותחים את הדף BigQuery. כניסה לדף BigQuery
- בחלונית הימנית, לוחצים על כלי הניתוחים.
- בחלונית
Explorer , לוחצים על שם הפרויקט. - לוחצים על הצגת פעולות.
- לוחצים על יצירת מערך נתונים.
- בדף Create dataset, מבצעים את הפעולות הבאות:
- בשדה Dataset ID (מזהה מערך הנתונים), מזינים
babynames. - בקטע Location type, בוחרים באפשרות Multi-region ואז בוחרים באפשרות US (multiple regions in United States). מערכי הנתונים הציבוריים מאוחסנים במיקום
usעם מספר אזורים. כדי לפשט את התהליך, כדאי לאחסן את מערך הנתונים באותו מיקום. - משאירים את שאר הגדרות ברירת המחדל כמו שהן ולוחצים על
יצירת מערך נתונים .
הורדת הקובץ שמכיל את נתוני המקור
הקובץ שאתם מורידים מכיל כ-7 MB של נתונים על שמות פופולריים לתינוקות. הוא ניתן על ידי מינהל הביטוח הלאומי בארה"ב.מידע נוסף על הנתונים זמין במאמר Background information for popular names (מידע כללי על שמות פופולריים) באתר של Social Security Administration (המינהל לביטוח לאומי).
כדי להוריד את הנתונים של רשות הביטוח הלאומי בארה"ב, פותחים את כתובת ה-URL הבאה בכרטיסייה חדשה בדפדפן:
https://www.ssa.gov/OACT/babynames/names.zipמחזירים את הקובץ למקומו.
מידע נוסף על סכימת מערך הנתונים זמין בקובץ
NationalReadMe.pdfשבקובץ ה-ZIP.כדי לראות איך הנתונים נראים, פותחים את הקובץ
yob2024.txt. הקובץ הזה מכיל ערכים מופרדים בפסיקים של שם, מין שנקבע בלידה ומספר הילדים עם השם הזה. בקובץ אין שורת כותרת.חשוב לשים לב למיקום של קובץ
yob2024.txtכדי שתוכלו למצוא אותו מאוחר יותר.
טעינת נתונים לטבלה
לאחר מכן, טוענים את הנתונים לטבלה חדשה.
- בחלונית הימנית, לוחצים על כלי הניתוחים.
- בחלונית
Explorer , מרחיבים את שם הפרויקט. - לוחצים על Datasets (מערכי נתונים), ואז לצד מערך הנתונים babynames לוחצים על View actions (הצגת פעולות) ובוחרים באפשרות Open (פתיחה).
- לוחצים על יצירת טבלה.
אלא אם צוין אחרת, צריך להשתמש בערכי ברירת המחדל לכל ההגדרות.
- בדף Create table, מבצעים את הפעולות הבאות:
- בקטע מקור, באפשרות
יצירת טבלה מ , בוחרים באפשרות העלאה מהרשימה. - בשדה בחירת קובץ, לוחצים על עיון.
- עוברים אל קובץ
yob2024.txtהמקומי ופותחים אותו, ואז לוחצים על פתיחה. - מהרשימה
File format , בוחרים באפשרות CSV. - בקטע יעד, בשדה
טבלה , מזיניםnames_2024. - בקטע Schema, לוחצים על המתג
Edit as text ומדביקים את הגדרת הסכימה הבאה בשדה הטקסט: - לוחצים על
יצירת טבלה .מחכים עד ש-BigQuery ייצור את הטבלה ויטען את הנתונים.
name:string,assigned_sex_at_birth:string,count:integerתצוגה מקדימה של נתוני הטבלה
כדי לראות תצוגה מקדימה של נתוני הטבלה:
- בחלונית הימנית, לוחצים על כלי הניתוחים.
- בחלונית
Explorer , מרחיבים את הפרויקט ולוחצים על Datasets (מערכי נתונים). - לוחצים על מערך הנתונים
babynamesובוחרים את הטבלהnames_2024. - לוחצים על הכרטיסייה
תצוגה מקדימה . ב-BigQuery מוצגות כמה שורות ראשונות מהטבלה.
שאילתות על נתונים בטבלה
לאחר מכן, מריצים שאילתה על הטבלה.
- לצד הכרטיסייה names_2024, לוחצים על האפשרות SQL query (שאילתת SQL). תיפתח כרטיסייה חדשה של כלי העריכה.
- בעורך השאילתות, מדביקים את השאילתה הבאה. השאילתה הזו מאחזרת את חמשת השמות הפופולריים ביותר לתינוקות שנולדו בארה"ב ב-2024, שהוגדרו כזכרים בלידה.
SELECT name, count FROM `babynames.names_2024` WHERE assigned_sex_at_birth = 'M' ORDER BY count DESC LIMIT 5; - לוחצים על
הפעלה . התוצאות מוצגות בקטע Query results.
הצלחתם להריץ שאילתה על טבלה במערך נתונים ציבורי ואז לטעון את נתוני הדוגמה ל-BigQuery באמצעות Google Cloud המסוף.
הסרת המשאבים
כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם בדף הזה, פועלים לפי השלבים הבאים:
- נכנסים לדף BigQuery במסוף Google Cloud . כניסה לדף BigQuery
- בחלונית הימנית, לוחצים על כלי הניתוחים.
- בחלונית Explorer, לוחצים על Datasets ואז על מערך הנתונים
babynamesשיצרתם. - מרחיבים את האפשרות View actions (הצגת פעולות) ולוחצים על Delete (מחיקה).
- בתיבת הדו-שיח מחיקת מערך נתונים, מאשרים את פקודת המחיקה: מקלידים את המילה
deleteולוחצים על מחיקה.
המאמרים הבאים
- מידע נוסף על טעינת נתונים ל-BigQuery זמין במאמר מבוא לטעינת נתונים.
- מידע נוסף על שאילתות נתונים זמין במאמר סקירה כללית על ניתוח הנתונים ב-BigQuery.
- במאמר טעינת נתוני JSON מקוננים וחוזרים מוסבר איך לטעון קובץ JSON עם נתונים מקוננים וחוזרים.
- מידע נוסף על גישה ל-BigQuery באופן פרוגרמטי זמין במאמר בנושא API בארכיטקטורת REST או בדף בנושא ספריות לקוח של BigQuery.