כדי להתחיל להציג תכונות אונליין באמצעות Vertex AI Feature Store, צריך להגדיר את מקור נתוני התכונות ב-BigQuery באופן הבא:
יוצרים טבלה ב-BigQuery או תצוגה מפורטת באמצעות נתוני התכונות. כדי לטעון נתוני תכונות לטבלה או לתצוגה ב-BigQuery, אפשר ליצור מערך נתונים ב-BigQuery באמצעות הנתונים, ליצור טבלה ב-BigQuery ואז לטעון את נתוני התכונות ממערך הנתונים לטבלה.
אחרי שטוענים את נתוני התכונות לטבלה או לתצוגה ב-BigQuery, צריך להפוך את מקור הנתונים הזה לזמין ל-Vertex AI Feature Store למילוי בקשה באופן מיידי. יש שתי דרכים לחבר את מקור הנתונים למשאבי מילוי בקשה באופן מיידי, כמו חנויות וירטואליות ומופעים של תצוגת תכונות:
רושמים את מקור הנתונים על ידי יצירת קבוצות של תכונות ותכונות: אפשר לשייך קבוצות של תכונות ותכונות למופעים של תצוגת תכונות בחנות וירטואלית. אפשר לעצב את הנתונים באחת מהדרכים הבאות:
כדי לעצב את הנתונים כסדרת זמן, צריך לכלול עמודה של חותמות זמן של מאפיינים. מאגר התכונות של Vertex AI מספק רק את ערכי התכונות העדכניים ביותר לכל מזהה ישות ייחודי, על סמך חותמת הזמן של התכונה בעמודה הזו.
עיצוב הנתונים בלי לכלול עמודות של חותמות זמן של תכונות. Vertex AI Feature Store מנהל את חותמות הזמן ומציג רק את ערכי התכונות האחרונים לכל מזהה ייחודי של ישות.
מידע על יצירת קבוצות תכונות זמין במאמר יצירת קבוצת תכונות. כאן אפשר לקבל מידע על יצירת תכונות בקבוצת תכונות.
הצגת תכונות ישירות ממקור הנתונים בלי ליצור קבוצות תכונות ותכונות: אפשר לציין את ה-URI של מקור הנתונים בתצוגת התכונות. שימו לב שבתרחיש הזה, אי אפשר לעצב את הנתונים כסדרת זמן או לכלול נתונים היסטוריים במקור BigQuery. בכל שורה צריך להיות ערך ייחודי של מזהה, עם הערכים העדכניים של התכונות שמתאימים לו. אין תמיכה בכמה מופעים של אותו מזהה ישות בשורות שונות.
מכיוון ש-Vertex AI Feature Store מאפשר לכם לשמור נתוני תכונות ב-BigQuery ולספק תכונות ממקור הנתונים של BigQuery, אין צורך לייבא או להעתיק את התכונות למאגר אופליין.
הנחיות להכנת מקורות נתונים
כדי להבין את הסכימה והאילוצים בזמן הכנת מקור הנתונים ב-BigQuery, חשוב לפעול בהתאם להנחיות הבאות:
מקור הנתונים צריך לכלול את העמודות הבאות:
עמודות של מזהי ישויות: מקור הנתונים צריך לכלול לפחות עמודה אחת של מזהי ישויות עם ערכים של
stringאוint. שם ברירת המחדל של העמודה הזו הואentity_id. אפשר גם להשתמש בשם אחר לעמודה הזו. הגודל של כל ערך בעמודה הזו צריך להיות קטן מ-4KB.שימו לב שאפשר גם להגדיר רשומה של תכונה על ידי בניית מזהה הישות באמצעות תכונות מכמה עמודות. במקרה כזה, אפשר לכלול במקור הנתונים כמה עמודות של מזהי ישויות. השם של כל עמודה של מזהה ישות ב-SAML חייב להיות ייחודי. אם אתם רושמים את מקור הנתונים על ידי יצירת קבוצות תכונות, צריך להגדיר את עמודות מזהה הישות לכל קבוצת תכונות. אחרת, אם משייכים את מקור הנתונים ישירות לתצוגת מאפיינים, צריך להגדיר את תצוגות המאפיינים כדי לציין את העמודות של מזהה הישות.
שימו לב שאפשר לכלול כמה עמודות של מזהים במקור נתונים. בתרחיש כזה, השם של כל עמודה של מזהה ישות חייב להיות ייחודי. אתם יכולים להגדיר את קבוצות התכונות או את תצוגות התכונות כדי ליצור את מזהה הישות באמצעות הערכים מכל עמודה של רשומת תכונה.
עמודת חותמת הזמן של התכונה: אופציונלי. אם רשמתם את מקור הנתונים באמצעות קבוצות של תכונות ותכונות, ואתם צריכים לעצב את הנתונים כסדרת זמן, אתם צריכים לכלול עמודה של חותמת זמן של התכונה. העמודה של חותמת הזמן מכילה ערכים מסוג
timestamp. שם ברירת המחדל של עמודת חותמת הזמן הואfeature_timestamp. אם רוצים להשתמש בשם עמודה אחר, צריך להשתמש בפרמטרtime_seriesכדי להגדיר את עמודת חותמת הזמן לקבוצת התכונות.אם לא מציינים עמודת חותמות זמן כדי לעצב את הנתונים כסדרת זמן, Vertex AI Feature Store מנהל את חותמות הזמן של התכונות ומציג את הערכים האחרונים של התכונות.
אם משייכים ישירות מקור נתונים של BigQuery לתצוגת תכונות, העמודה
feature_timestampלא נדרשת. בתרחיש הזה, אתם צריכים לכלול במקור הנתונים רק את הערכים האחרונים של המאפיינים, ו-Vertex AI Feature Store לא יחפש את חותמת הזמן.הטמעה וסינון של עמודות: אופציונלי. אם אתם רוצים להשתמש בניהול הטמעה בחנות וירטואלית שנוצרה לצורך מילוי בקשה באופן מיידי שעברה אופטימיזציה (יצא משימוש), מקור הנתונים צריך לכלול את העמודות הבאות:
עמודה
embeddingשמכילה מערכים מהסוגfloat.אופציונלי: עמודה אחת או יותר לסינון מסוג
stringאו מערךstring.אופציונלי: עמודת מיקור קהלים מסוג
int.
כל שורה במקור הנתונים היא רשומה מלאה של ערכי תכונות שמשויכים למזהה ישות ב-SAML. אם ערך של תכונה חסר באחת מהעמודות, הוא נחשב כערך null.
כל עמודה בטבלה או בתצוגה של BigQuery מייצגת תכונה. צריך לציין את הערכים של כל תכונה בעמודה נפרדת. אם משייכים את מקור הנתונים לקבוצת תכונות ולתכונות, צריך לשייך כל עמודה לתכונה נפרדת.
סוגי הנתונים הנתמכים לערכי מאפיינים כוללים
bool,int,float,string,timestamp, מערכים של סוגי הנתונים האלה ובייטים. שימו לב שבמהלך סנכרון הנתונים, ערכי התכונות מסוגtimestampמומרים ל-int64.מקור הנתונים צריך להיות ממוקם באותו אזור שבו נמצא המופע של החנות הווירטואלית, או באזור רב-אזורי שכולל את האזור של החנות הווירטואלית או חופף לו. לדוגמה, אם החנות הווירטואלית נמצאת ב-
us-central, יכול להיות שמקור BigQuery נמצא ב-us-centralאו ב-US.מסנכרנים את הנתונים בתצוגת תכונות לפני מילוי בקשה באופן מיידי כדי להבטיח שיוצגו רק ערכי התכונות העדכניים ביותר. אם אתם משתמשים בסנכרון נתונים מתוזמן, יכול להיות שתצטרכו לסנכרן את הנתונים באופן ידני בתצוגת התכונות. עם זאת, אם אתם משתמשים בסנכרון נתונים רציף עם מילוי בקשה באופן מיידי אופטימלי, אתם לא צריכים לסנכרן את הנתונים באופן ידני.
המאמרים הבאים
סוגי מילוי הבקשה באופן מיידי ב-Vertex AI Feature Store.