Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שימוש בזיהוי אוטומטי של סכימה

זיהוי אוטומטי של סכימות

זיהוי אוטומטי של סכימה מאפשר ל-BigQuery להסיק את הסכימה של נתונים בפורמט CSV,‏ JSON או Google Sheets. זיהוי סכימה אוטומטי זמין כשטוענים נתונים ל-BigQuery וכשמבצעים שאילתה על מקור נתונים חיצוני.

כשהזיהוי האוטומטי מופעל, BigQuery מסיק את סוג הנתונים של כל עמודה. מערכת BigQuery בוחרת קובץ אקראי במקור הנתונים וסורקת עד 500 השורות הראשונות של הנתונים כדי להשתמש בהן כמדגם מייצג. לאחר מכן, BigQuery בודק כל שדה ומנסה להקצות לו סוג נתונים על סמך הערכים במדגם. אם כל השורות בעמודה ריקות, המערכת תזהה אוטומטית את סוג הנתונים של העמודה כ-STRING.

אם לא מפעילים זיהוי אוטומטי של סכימה לנתוני CSV,‏ JSON או Google Sheets, צריך לספק את הסכימה באופן ידני כשיוצרים את הטבלה.

אין צורך להפעיל זיהוי אוטומטי של סכימה עבור קובצי Avro,‏ Parquet,‏ ORC,‏ Firestore export או Datastore export. הפורמטים האלה הם בעלי תיאור עצמי, ולכן BigQuery מסיק באופן אוטומטי את סכימת הטבלה מנתוני המקור. בקבצים מסוג Parquet,‏ Avro ו-Orc, אפשר לספק סכימה מפורשת כדי לבטל את הסכימה שהמערכת הסיקה.

אפשר לראות את הסכימה שזוהתה עבור טבלה בדרכים הבאות:

משתמשים במסוף Google Cloud .
משתמשים בפקודה bq show של כלי שורת הפקודה של bq.

כש-BigQuery מזהה סכימות, יכול להיות שבמקרים נדירים הוא ישנה שם של שדה כדי שיתאים לתחביר של GoogleSQL.

מידע על המרות של סוגי נתונים מפורט במאמרים הבאים:

המרת סוגי נתונים כשמטעינים נתונים מ-Datastore
המרת סוגי נתונים כשמטעינים נתונים מ-Firestore
המרות של קובצי Avro
המרות בפורמט Parquet
המרות של ORC

טעינת נתונים באמצעות זיהוי אוטומטי של סכימה

כדי להפעיל זיהוי אוטומטי של סכימה כשמעלים נתונים, אפשר להשתמש באחת מהגישות הבאות:

במסוף Google Cloud , בקטע Schema, מסמנים את האפשרות Schema and input parameters לצד Auto detect.
בכלי שורת הפקודה של BigQuery, משתמשים בפקודה bq load עם הפרמטר --autodetect.

כשזיהוי אוטומטי של סכימה מופעל, BigQuery מנסה באופן אוטומטי להסיק את הסכימה של קובצי CSV ו-JSON. הלוגיקה של הזיהוי האוטומטי מסיקה את סוגי השדות של הסכימה על ידי קריאה של עד 500 השורות הראשונות של הנתונים. אם מציינים את הדגל --skip_leading_rows, המערכת מדלגת על השורות המובילות. סוגי השדות מבוססים על השורות עם הכי הרבה שדות. לכן, הזיהוי האוטומטי אמור לפעול כמצופה כל עוד יש לפחות שורת נתונים אחת עם ערכים בכל עמודה או שדה.

לא נעשה שימוש בזיהוי אוטומטי של סכימה בקובצי Avro, בקובצי Parquet, בקובצי ORC, בקובצי ייצוא של Firestore או בקובצי ייצוא של Datastore. כשאתם טוענים את הקבצים האלה ל-BigQuery, סכימת הטבלה מאוחזרת באופן אוטומטי מנתוני המקור שמתארים את עצמם.

כדי להשתמש בזיהוי אוטומטי של סכימה כשמעלים נתוני JSON או CSV:

המסוף

נכנסים לדף BigQuery במסוף Google Cloud .

כניסה ל-BigQuery
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets (מערכי נתונים) ואז לוחצים על מערך הנתונים.
בחלונית הפרטים, לוחצים על יצירת טבלה.
בדף Create table, בקטע Source:
- בשדה Create table from, בוחרים את סוג המקור.
- בשדה המקור, מחפשים את הקובץ או את הקטגוריה של Cloud Storage, או מזינים את URI של Cloud Storage. שימו לב: אי אפשר לכלול כמה מזהי URI במסוף Google Cloud , אבל יש תמיכה בתווים כלליים. הקטגוריה של Cloud Storage צריכה להיות באותו מיקום כמו מערך הנתונים שמכיל את הטבלה שאתם יוצרים.
- בקטע פורמט קובץ, בוחרים באפשרות CSV או JSON.
בדף יצירת טבלה, בקטע יעד:
- בשדה Dataset name (שם קבוצת הנתונים), בוחרים את קבוצת הנתונים המתאימה.
- בשדה Table name (שם הטבלה), מזינים את שם הטבלה שיוצרים.
- מוודאים שסוג הטבלה מוגדר לטבלה מקורית.
לוחצים על יצירת טבלה.

BQ

מריצים את הפקודה bq load עם הפרמטר --autodetect.

(אופציונלי) מציינים את הדגל --location ומגדירים את הערך למיקום.

הפקודה הבאה טוענת קובץ באמצעות זיהוי אוטומטי של סכימה:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

מחליפים את מה שכתוב בשדות הבאים:

‫LOCATION: שם המיקום. הדגל --location הוא אופציונלי. לדוגמה, אם אתם משתמשים ב-BigQuery באזור טוקיו, צריך להגדיר את הערך של הדגל ל-asia-northeast1. אפשר להגדיר ערך ברירת מחדל למיקום באמצעות הקובץ ‎.bigqueryrc.
‫FORMAT: NEWLINE_DELIMITED_JSON או CSV.
‫DATASET: מערך הנתונים שמכיל את הטבלה שאליה טוענים את הנתונים.
‫TABLE: שם הטבלה שאליה טוענים את הנתונים.
‫PATH_TO_SOURCE: הוא המיקום של קובץ ה-CSV או ה-JSON.

דוגמאות:

מזינים את הפקודה הבאה כדי לטעון את myfile.csv מהמחשב המקומי לטבלה בשם mytable שמאוחסנת במערך נתונים בשם mydataset.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

מזינים את הפקודה הבאה כדי לטעון את myfile.json מהמחשב המקומי לטבלה בשם mytable שמאוחסנת במערך נתונים בשם mydataset.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json