יצירת מאגר נתוני מדיה

בדף הזה מוסבר איך ליצור מאגר נתונים למדיה ואיך לייבא אליו נתונים.

לפני שמתחילים

חשוב להקפיד על הפרטים הבאים:

בחירת ההליך בהתאם למקור הנתונים

כדי ליצור מאגר נתונים של מדיה ולייבא מסמכים, עוברים לקטע של המקור שבו רוצים להשתמש:

ייבוא מ-BigQuery

המסוף

כדי להשתמש במסוף Google Cloud כדי ליצור מאגר נתוני מדיה ולייבא מסמכים ואירועים של משתמשים מ-BigQuery, פועלים לפי השלבים הבאים:

  1. נכנסים לדף AI Applications במסוף Google Cloud .

    אפליקציות AI

  2. עוברים לדף מאגרי נתונים.

  3. לוחצים על יצירת מאגר נתונים.

  4. בדף מקור, בוחרים באפשרות BigQuery.

  5. בוחרים באפשרות Media - BigQuery table with structured media data (מדיה – טבלה ב-BigQuery עם נתוני מדיה מובנים) כסוג הנתונים שאתם מייבאים.

  6. בשדה BigQuery path (נתיב BigQuery), לוחצים על Browse (עיון), בוחרים את נתוני BigQuery שהכנתם להוספה ולוחצים על Select (בחירה). אפשר גם להזין את המיקום ישירות בשדה נתיב BigQuery.

  7. אם הנתונים שלכם נמצאים בסכימה המוגדרת מראש של Google, בוחרים באפשרות סכימה מוגדרת מראש של Google, לוחצים על המשך ומדלגים לשלב 11.

  8. אם הנתונים שלכם נמצאים בסכימה משלכם, בוחרים באפשרות סכימה בהתאמה אישית ולוחצים על המשך.

  9. בודקים את הסכימה שזוהתה ומשתמשים בתפריט מאפייני מפתח כדי להקצות מאפיינים לשדות הסכימה.

  10. לוחצים על Continue.

    אי אפשר להמשיך עד שמיפינו את מאפייני המפתח הנדרשים, שמסומנים בסימני וי ירוקים במקום בסימני אזהרה כתומים .

  11. מזינים שם למאגר הנתונים ולוחצים על יצירה.

ייבוא מ-Cloud Storage

המסוף

כדי להשתמש במסוף Google Cloud כדי ליצור מאגר נתוני מדיה ולייבא מסמכים מ-Cloud Storage, פועלים לפי השלבים הבאים:

  1. נכנסים לדף AI Applications במסוף Google Cloud .

    אפליקציות AI

  2. עוברים לדף מאגרי נתונים.

  3. לוחצים על יצירת מאגר נתונים.

  4. בדף מקור, בוחרים באפשרות Cloud Storage.

  5. בוחרים באפשרות נתוני מדיה מובְנים (JSONL שמכיל קובצי מדיה) כסוג הנתונים שמייבאים.

  6. בקטע בחירת תיקייה או קובץ לייבוא, בוחרים באפשרות תיקייה או קובץ.

  7. לוחצים על עיון, בוחרים את הנתונים שהכנתם להעלאה ולוחצים על בחירה. אפשר גם להזין את המיקום ישירות בשדה gs://.

  8. אם הנתונים שלכם נמצאים בסכימה המוגדרת מראש של Google, בוחרים באפשרות סכימה מוגדרת מראש של Google, לוחצים על המשך ומדלגים לשלב 11.

  9. אם הנתונים שלכם נמצאים בסכימה משלכם, בוחרים באפשרות סכימה בהתאמה אישית ולוחצים על המשך.

  10. בודקים את הסכימה שזוהתה ומשתמשים בתפריט מאפייני מפתח כדי להקצות מאפיינים לשדות הסכימה.

  11. לוחצים על Continue.

    אי אפשר להמשיך עד שמיפינו את מאפייני המפתח הנדרשים, שמסומנים בסימני וי ירוקים במקום בסימני אזהרה כתומים .

  12. מזינים שם למאגר הנתונים ולוחצים על יצירה.

ייבוא מסמכים באמצעות ה-API

אם אתם משתמשים בסכימה המוגדרת מראש של Google, אתם יכולים לייבא את המסמכים על ידי הפעלת בקשת POST לשיטת REST‏ Documents:import, באמצעות האובייקט InlineSource כדי לציין את הנתונים.

דוגמה לפורמט של מסמך JSON מופיעה במאמר בנושא פורמט של מסמך JSON.

דרישות לייבוא

אלה הדרישות לייבוא מסמכי מדיה באמצעות ה-API:

  • כל מסמך צריך להיות בשורה נפרדת.

  • מספר המסמכים המקסימלי שאפשר לייבא בפעם אחת הוא 100.

התהליך

כדי לייבא מסמכי מדיה באמצעות ה-API:

  1. יוצרים מאגר נתונים.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
    • DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור. המזהה יכול להכיל רק אותיות קטנות, ספרות, קווים תחתונים ומקפים.
    • DATA_STORE_DISPLAY_NAME: השם המוצג של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור.
  2. יוצרים את קובץ ה-JSON של המסמך וקוראים לו ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. מבצעים קריאה לשיטת POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט.
    • DATA_STORE_ID: המזהה של מאגר הנתונים.

פורמט מסמך JSON

בדוגמאות הבאות מוצגות רשומות של Document בפורמט JSON.

צריך לציין את כל המסמך בשורה אחת. כל מסמך צריך להיות בשורה נפרדת.

שדות חובה:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

אובייקט שלם:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

מעקב אחר ייבוא והצגת נתונים

  1. כדי לבדוק את סטטוס ההטמעה, עוברים לדף מאגרי נתונים ולוחצים על השם של מאגר הנתונים כדי לראות את הפרטים שלו בדף נתונים.

  2. לוחצים על הכרטיסייה פעילות.

    ההטמעה מסתיימת כשהסטטוס בעמודה סטטוס בכרטיסייה פעילות משתנה מבתהליך להייבוא הושלם.

    בהתאם לגודל הנתונים, תהליך ההטמעה יכול להימשך כמה דקות או כמה שעות.

  3. לוחצים על מסמכים כדי לראות את הנתונים שיובאו.

ייבוא אירועים ברמת המשתמש

כדי לייבא אירועים שקשורים למשתמשים אל מאגר נתוני המדיה:

המאמרים הבאים

  • ליצור אפליקציה להמלצות על מדיה או אפליקציה לחיפוש מדיה.

  • שומרים על עדכניות הנתונים במסמך.

    מומלץ לעדכן את מאגר הנתונים מדי יום באמצעות ייבוא של נתונים חדשים. תזמון של ייבוא תקופתי מונע את הירידה באיכות המודל לאורך זמן. אפשר להשתמש ב-Google Cloud Scheduler כדי להגדיר ייבוא אוטומטי.

    אפשר לעדכן רק מסמכים חדשים או מסמכים ששונו, או לייבא את כל מאגר הנתונים. אם מייבאים מסמכים שכבר נמצאים במאגר הנתונים, הם לא מתווספים שוב. כל מסמך שהשתנה מתעדכן.

  • שמירה על עדכניות של נתוני אירועים שקשורים למשתמשים.

    חשוב במיוחד לוודא שאירועי המשתמשים יהיו עדכניים. אפליקציית ההמלצות מפסיקה לפעול אם אין מספיק אירועים עדכניים של משתמשים כדי לעמוד בדרישות הנתונים.

    מידע על ייבוא נתוני אירועים של משתמשים בזמן אמת מופיע במאמר תיעוד אירועים של משתמשים בזמן אמת.

    במאמר בדיקת איכות הנתונים להמלצות על מדיה מוסבר איך לעקוב אחרי הדרישות של אירועים ברמת המשתמש.