Note: Vertex AI Search is being renamed to Agent Search. We are in the process of updating content to reflect the new branding.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

יצירת מאגר נתוני מדיה

בדף הזה מוסבר איך ליצור מאגר נתונים למדיה ואיך לייבא אליו נתונים.

לפני שמתחילים

חשוב להקפיד על הפרטים הבאים:

כדאי לעיין במושגים שקשורים לנתוני מדיה ולסכימה:
- מידע על מסמכי מדיה ומאגרי נתונים
- הוספת סכימה או זיהוי אוטומטי של סכימה
מחליטים אם משתמשים בסכימה המוגדרת מראש של Google לנתוני המדיה או בסכימה משלכם.
אם אתם משתמשים בסכימה משלכם, ודאו שהסכימה כוללת שדות שממופים בצורה טובה למאפייני המדיה של הסכימה המותאמת אישית: title,‏ url,‏ category וכן הלאה.
מכניסים את מסמכי המדיה לסכימת JSON ומעלים את הנתונים ל-BigQuery או ל-Cloud Storage.

הערה: אפשר גם ליצור מאגר נתונים ולהעלות את הנתונים ישירות מקובץ מקומי. אם אתם רוצים להשתמש בגישה הזו, כדאי לעיין במאמר בנושא ייבוא מסמכים באמצעות ה-API. החיסרון בגישה הזו הוא שאי אפשר לערוך את הסכימה עד שכל הנתונים מועלים, ואם מבצעים שינויים בסכימה צריך להמתין עד שהיא תעבור אינדוקס מחדש לפני שאפשר להשתמש במאגר הנתונים.
כדאי לעיין במאמר מידע על אירועים של משתמשים במדיה ולהכין את אירועי המשתמשים לייבוא. חובה להטמיע אירועים שקשורים למשתמשים בכל אפליקציות המדיה.

בחירת ההליך בהתאם למקור הנתונים

כדי ליצור מאגר נתונים של מדיה ולייבא מסמכים, עוברים לקטע של המקור שבו רוצים להשתמש:

BigQuery
Cloud Storage
ייבוא מסמכים באמצעות ה-API

ייבוא מ-BigQuery

המסוף

כדי להשתמש במסוף Google Cloud כדי ליצור מאגר נתוני מדיה ולייבא מסמכים ואירועים של משתמשים מ-BigQuery, פועלים לפי השלבים הבאים:

נכנסים לדף AI Applications במסוף Google Cloud .

אפליקציות AI
עוברים לדף מאגרי נתונים.
לוחצים על יצירת מאגר נתונים.
בדף מקור, בוחרים באפשרות BigQuery.
בוחרים באפשרות Media - BigQuery table with structured media data (מדיה – טבלה ב-BigQuery עם נתוני מדיה מובנים) כסוג הנתונים שאתם מייבאים.
בשדה BigQuery path (נתיב BigQuery), לוחצים על Browse (עיון), בוחרים את נתוני BigQuery שהכנתם להוספה ולוחצים על Select (בחירה). אפשר גם להזין את המיקום ישירות בשדה נתיב BigQuery.
אם הנתונים שלכם נמצאים בסכימה המוגדרת מראש של Google, בוחרים באפשרות סכימה מוגדרת מראש של Google, לוחצים על המשך ומדלגים לשלב 11.
אם הנתונים שלכם נמצאים בסכימה משלכם, בוחרים באפשרות סכימה בהתאמה אישית ולוחצים על המשך.
בודקים את הסכימה שזוהתה ומשתמשים בתפריט מאפייני מפתח כדי להקצות מאפיינים לשדות הסכימה.

הערה: אם חסרים שדות, לוחצים על הוספת שדות חדשים ומשתמשים באמצעי הבקרה האלה כדי להוסיף את השדות החסרים.
לוחצים על Continue.

אי אפשר להמשיך עד שמיפינו את מאפייני המפתח הנדרשים, שמסומנים בסימני וי ירוקים במקום בסימני אזהרה כתומים .
מזינים שם למאגר הנתונים ולוחצים על יצירה.

ייבוא מ-Cloud Storage

המסוף

כדי להשתמש במסוף Google Cloud כדי ליצור מאגר נתוני מדיה ולייבא מסמכים מ-Cloud Storage, פועלים לפי השלבים הבאים:

נכנסים לדף AI Applications במסוף Google Cloud .

אפליקציות AI
עוברים לדף מאגרי נתונים.
לוחצים על יצירת מאגר נתונים.
בדף מקור, בוחרים באפשרות Cloud Storage.
בוחרים באפשרות נתוני מדיה מובְנים (JSONL שמכיל קובצי מדיה) כסוג הנתונים שמייבאים.
בקטע בחירת תיקייה או קובץ לייבוא, בוחרים באפשרות תיקייה או קובץ.
לוחצים על עיון, בוחרים את הנתונים שהכנתם להעלאה ולוחצים על בחירה. אפשר גם להזין את המיקום ישירות בשדה gs://.
אם הנתונים שלכם נמצאים בסכימה המוגדרת מראש של Google, בוחרים באפשרות סכימה מוגדרת מראש של Google, לוחצים על המשך ומדלגים לשלב 11.
אם הנתונים שלכם נמצאים בסכימה משלכם, בוחרים באפשרות סכימה בהתאמה אישית ולוחצים על המשך.
בודקים את הסכימה שזוהתה ומשתמשים בתפריט מאפייני מפתח כדי להקצות מאפיינים לשדות הסכימה.

הערה: אם חסרים שדות, לוחצים על הוספת שדות חדשים ומשתמשים באמצעי הבקרה האלה כדי להוסיף את השדות החסרים.
לוחצים על Continue.

אי אפשר להמשיך עד שמיפינו את מאפייני המפתח הנדרשים, שמסומנים בסימני וי ירוקים במקום בסימני אזהרה כתומים .
מזינים שם למאגר הנתונים ולוחצים על יצירה.

ייבוא מסמכים באמצעות ה-API

אם אתם משתמשים בסכימה המוגדרת מראש של Google, אתם יכולים לייבא את המסמכים על ידי הפעלת בקשת POST לשיטת REST‏ Documents:import, באמצעות האובייקט InlineSource כדי לציין את הנתונים.

דוגמה לפורמט של מסמך JSON מופיעה במאמר בנושא פורמט של מסמך JSON.

דרישות לייבוא

אלה הדרישות לייבוא מסמכי מדיה באמצעות ה-API:

כל מסמך צריך להיות בשורה נפרדת.
מספר המסמכים המקסימלי שאפשר לייבא בפעם אחת הוא 100.

התהליך

כדי לייבא מסמכי מדיה באמצעות ה-API:

יוצרים מאגר נתונים.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "MEDIA"
}'
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
- ‫DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור. המזהה יכול להכיל רק אותיות קטנות, ספרות, קווים תחתונים ומקפים.
- ‫DATA_STORE_DISPLAY_NAME: השם המוצג של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור.
יוצרים את קובץ ה-JSON של המסמך וקוראים לו ./data.json:
```
{
"inlineSource": {
"documents": [
  { DOCUMENT_1 },
  { DOCUMENT_2 }
]
}
}
```

מבצעים קריאה לשיטת POST:

curl -X POST \
 -H "Authorization: Bearer $(gcloud auth print-access-token)" \
 -H "Content-Type: application/json; charset=utf-8" \
 --data @./data.json \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: מזהה הפרויקט.
‫DATA_STORE_ID: המזהה של מאגר הנתונים.

פורמט מסמך JSON

בדוגמאות הבאות מוצגות רשומות של Document בפורמט JSON.

צריך לציין את כל המסמך בשורה אחת. כל מסמך צריך להיות בשורה נפרדת.

שדות חובה:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

אובייקט שלם:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

מעקב אחר ייבוא והצגת נתונים

כדי לבדוק את סטטוס ההטמעה, עוברים לדף מאגרי נתונים ולוחצים על השם של מאגר הנתונים כדי לראות את הפרטים שלו בדף נתונים.
לוחצים על הכרטיסייה פעילות.

ההטמעה מסתיימת כשהסטטוס בעמודה סטטוס בכרטיסייה פעילות משתנה מבתהליך להייבוא הושלם.

בהתאם לגודל הנתונים, תהליך ההטמעה יכול להימשך כמה דקות או כמה שעות.

חשוב: כדי למנוע ייבוא של אירועים של משתמשים שלא הצטרפו, צריך להמתין עד לסיום הייבוא של המסמך לפני שמייבאים אירועים של משתמשים.
לוחצים על מסמכים כדי לראות את הנתונים שיובאו.

ייבוא אירועים ברמת המשתמש

כדי לייבא אירועים שקשורים למשתמשים אל מאגר נתוני המדיה:

פועלים לפי ההוראות במאמר ייבוא אירועים היסטוריים של משתמשים.

המאמרים הבאים

ליצור אפליקציה להמלצות על מדיה או אפליקציה לחיפוש מדיה.
שומרים על עדכניות הנתונים במסמך.

מומלץ לעדכן את מאגר הנתונים מדי יום באמצעות ייבוא של נתונים חדשים. תזמון של ייבוא תקופתי מונע את הירידה באיכות המודל לאורך זמן. אפשר להשתמש ב-Google Cloud Scheduler כדי להגדיר ייבוא אוטומטי.

אפשר לעדכן רק מסמכים חדשים או מסמכים ששונו, או לייבא את כל מאגר הנתונים. אם מייבאים מסמכים שכבר נמצאים במאגר הנתונים, הם לא מתווספים שוב. כל מסמך שהשתנה מתעדכן.
שמירה על עדכניות של נתוני אירועים שקשורים למשתמשים.

חשוב במיוחד לוודא שאירועי המשתמשים יהיו עדכניים. אפליקציית ההמלצות מפסיקה לפעול אם אין מספיק אירועים עדכניים של משתמשים כדי לעמוד בדרישות הנתונים.

מידע על ייבוא נתוני אירועים של משתמשים בזמן אמת מופיע במאמר תיעוד אירועים של משתמשים בזמן אמת.

במאמר בדיקת איכות הנתונים להמלצות על מדיה מוסבר איך לעקוב אחרי הדרישות של אירועים ברמת המשתמש.

יצירת מאגר נתוני מדיה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

לפני שמתחילים

בחירת ההליך בהתאם למקור הנתונים

ייבוא מ-BigQuery

המסוף

ייבוא מ-Cloud Storage

המסוף

ייבוא מסמכים באמצעות ה-API

דרישות לייבוא

התהליך

פורמט מסמך JSON

מעקב אחר ייבוא והצגת נתונים

ייבוא אירועים ברמת המשתמש

המאמרים הבאים

יצירת מאגר נתוני מדיה