הדרישות לגבי נתוני המקור

לייבוא בכמות גדולה, Feature Store (גרסה קודמת) של Vertex AI יכול לייבא נתונים מטבלאות ב-BigQuery או מקבצים ב-Cloud Storage.

  • משתמשים בטבלה ב-BigQuery אם רוצים לייבא את כל מערך הנתונים ולא צריך מסנני מחיצות.

  • אם אתם צריכים לייבא קבוצת משנה ספציפית של מערך הנתונים, אתם יכולים להשתמש בתצוגה של BigQuery. האפשרות הזו חוסכת זמן ומאפשרת לייבא בחירות ספציפיות מתוך מערך הנתונים כולו, כולל כמה טבלאות שנוצרו מהנתונים.

  • הנתונים בקבצים שמייבאים מ-Cloud Storage צריכים להיות בפורמט AVRO או CSV.

בייבוא באמצעות סטרימינג, מציינים בבקשת ה-API את ערכי המאפיינים לייבוא. הדרישות האלה לגבי נתוני המקור לא חלות. מידע נוסף מופיע במאמרי העזרה של writeFeatureValues API.

כל פריט (או שורה) חייב לעמוד בדרישות הבאות:

  • צריכה להיות עמודה למזהי ישויות, והערכים צריכים להיות מסוג STRING. העמודה הזו מכילה את מזהי הישויות שעבורן מופיעים ערכי התכונות.

  • סוגי הערכים בנתוני המקור צריכים להיות זהים לסוגי הערכים בתכונה של היעד במאגר התכונות. לדוגמה, ערכים בוליאניים צריכים להיות מיובאים למאפיין מסוג BOOL.

  • לכל העמודות צריך להיות שם עמודה מסוג STRING. אין הגבלות על השם של הכותרות.

    • בטבלאות וב-BigQuery, כותרת העמודה היא שם העמודה.
    • ב-AVRO, כותרת העמודה מוגדרת על ידי סכימת AVRO שמשויכת לנתונים הבינאריים.
    • בקובצי CSV, כותרת העמודה היא השורה הראשונה.
  • אם אתם מספקים עמודה של חותמות זמן ליצירת תכונות, אתם צריכים להשתמש באחד מהפורמטים הבאים של חותמות זמן:

    • בטבלאות ובמבצעים של BigQuery, חותמות הזמן צריכים להיות בעמודה TIMESTAMP.
    • ב-Avro, חותמות הזמן צריכות להיות מסוג long וסוג לוגי timestamp-micros.
    • בקבצים בפורמט CSV, חותמות הזמן צריכות להיות בפורמט RFC 3339.
  • קובצי CSV לא יכולים לכלול סוגי נתונים של מערכים. אפשר להשתמש ב-Avro או ב-BigQuery במקום זאת.

  • בסוגי מערכים, אי אפשר לכלול ערך null במערך. אבל אפשר לכלול מערך ריק.

חותמות זמן של ערכי מאפיינים

לייבוא באצווה, Vertex AI Feature Store (מהדור הקודם) דורש חותמות זמן שסופקו על ידי המשתמש עבור ערכי התכונות המיובאים. אפשר לציין חותמת זמן מסוימת לכל ערך או לציין את אותה חותמת זמן לכל הערכים:

  • אם חותמות הזמן של ערכי התכונות שונות, צריך לציין את חותמות הזמן בעמודה בנתוני המקור. לכל שורה צריך להיות חותמת זמן משלה שמציינת מתי נוצר ערך התכונה. בבקשת הייבוא, מציינים את שם העמודה כדי לזהות את עמודת חותמת הזמן.
  • אם חותמת הזמן של כל ערכי התכונות זהה, אפשר לציין אותה כפרמטר בבקשת הייבוא. אפשר גם לציין את חותמת הזמן בעמודה בנתוני המקור, שבה לכל שורה יש את אותה חותמת זמן.

אזור גיאוגרפי לאחסון נתונים

אם נתוני המקור נמצאים ב-BigQuery או ב-Cloud Storage, מערך הנתונים או הקטגוריה של המקור צריכים להיות באותו אזור או באותו מיקום במספר אזורים כמו מאגר התכונות. לדוגמה, מאגר פיצ'רים ב-us-central1 יכול לייבא נתונים רק מקטגוריות של Cloud Storage או ממערכי נתונים ב-BigQuery שנמצאים ב-us-central1 או במיקום במספר אזורים בארה"ב. אי אפשר לייבא נתונים מ-us-east1, למשל. בנוסף, אין תמיכה בנתוני מקור מקטגוריות באזורים כפולים.

המאמרים הבאים