אם הפעלתם את האפשרות 'יצירת אינדקס מתקדמת של אתרים' במאגר הנתונים, תוכלו לשלוח קובצי Sitemap ולהשתמש בהם כדי ליצור אינדקס ולרענן את דפי האינטרנט במאגר הנתונים. התכונה הזו תומכת רק בקובצי Sitemap מסוג XML ובאינדקסים של קובצי Sitemap.
בדף הזה מוסבר איך לשלוח sitemap או אינדקס sitemap כדי להפעיל הוספה לאינדקס ורענון על סמך sitemap. כדי להבין איך לבצע רענון אוטומטי וידני בלי Sitemap, וליישם אותו, אפשר לעיין במאמר רענון דפי אינטרנט.
בנוסף, בדף הזה מוסבר איך לצפות במפות האתר במאגר הנתונים או למחוק מפת אתר.
מושגים שקשורים לרענון על סמך Sitemap
ריכזנו כאן כמה מושגים ומונחים חשובים שיעזרו לכם להתחיל:
פרוטוקול Sitemap: כל קובצי ה-Sitemap ואינדקסים של Sitemap שנתמכים בחיפוש באמצעות סוכן חייבים לפעול לפי פרוטוקול Sitemap.
Sitemap: Sitemap הוא קובץ XML בקידוד UTF-8 שמכיל רשימה של כתובות URL של דפי אינטרנט וקבצים באתר שלכם, עם מידע חשוב נוסף שהוא אופציונלי, כמו תאריך השינוי האחרון של דף האינטרנט והעדיפות של סורק לזחול לדף האינטרנט הזה לעומת דפי אינטרנט אחרים באתר שלכם. לפי פרוטוקול ה-sitemap, קובץ sitemap יחיד יכול להכיל עד 50,000 כתובות URL, והגודל שלו יכול להיות עד 50 MB.
קובץ אינדקס של Sitemap: אם ה-Sitemap חורג מהמספר המקסימלי של כתובות URL או מהגודל המקסימלי, אפשר ליצור כמה קובצי Sitemap ולרשום אותם בקובץ אינדקס של Sitemap. לפי פרוטוקול ה-Sitemap, באינדקס יחיד של Sitemap יכולים להיות עד 50,000 קובצי Sitemap, והגודל המקסימלי שלו הוא 50MB.
אתם יכולים לשלוח לחיפוש באמצעות סוכן קובץ Sitemap אחד או יותר, קובץ אינדקס אחד או יותר של sitemap, או שילוב של קובצי sitemap וקובצי אינדקס של sitemap.
כששולחים את ה-Sitemap או את קובץ האינדקס של ה-Sitemap למאגר הנתונים של חיפוש מבוסס סוכנים, מתבצעות הפעולות הבאות:
יצירת אינדקס של כתובות ה-URL שכלולות באינדקס של מאגר הנתונים.
- אם מדובר ברענון של sitemap בלבד, הרשימה הזו מכילה רק את כתובות ה-URL ב-sitemap או באינדקס ה-sitemap שתואמות לתבנית כתובות ה-URL שכלולה במאגר הנתונים.
- ברענון משולב, הרשימה הזו מכילה את כל כתובות ה-URL שהתגלו בתהליך הרענון האוטומטי.
מידע נוסף על שני תהליכי הרענון האלה זמין במאמרים שיטות לרענון מאגר נתונים של אתר ורענון של קובץ Sitemap בלבד.
רענון יומי של כל כתובות ה-URL שנוספו, נמחקו או עודכנו ב-Sitemap. דוגמה לכתובת URL מעודכנת היא כשמעדכנים את השדה
lastmodשל כתובת URL ב-Sitemap.רענון תקופתי של כתובות URL שלא השתנו כל 14 ימים.
שיטות לרענון של מאגר נתונים באתר
אפשר להשתמש באחת מהשיטות הבאות כדי לשלב רענון מבוסס-מפת אתר במאגר הנתונים:
- רענון רק של sitemap: כדי להשתמש ברענון שמבוסס על sitemap בלבד, צריך להשבית את האפשרות 'אינדוקס ראשוני' ואת האפשרות 'רענון אוטומטי'.
- רענון משולב: שימוש ברענון מבוסס-sitemap עם יצירת אינדקס ראשונית ורענון אוטומטי.
אתם יכולים לרענן ידנית דפי אינטרנט ספציפיים באינדקס של מאגר הנתונים בכל שלב, בלי קשר לשיטת הרענון שבחרתם.
רענון של Sitemap בלבד
כשיוצרים מאגר נתונים של אתר, צריך לספק דפוסי כתובות URL של דפי האינטרנט שרוצים לכלול באינדקס של מאגר הנתונים. כברירת מחדל, כשמסיימים ליצור מאגר נתונים של אתר, התכונה 'חיפוש מבוסס סוכנים' יוצרת אינדקס ראשוני לדפי האינטרנט שנכללים בו.
במאגרי נתונים של אתרים שבהם מופעל תהליך מתקדם להוספת אתרים לאינדקס, תהליך ההוספה הראשונית לאינדקס הוא חלק מרענון אוטומטי. בתהליך הראשוני של ההוספה לאינדקס, כל כתובות ה-URL הכלולות שזמינות בחיפוש Google מתווספות לאינדקס. רמת הרעננות הראשונית של כתובות ה-URL האלה משקפת את רמת הרעננות שזמינה בחיפוש Google. אחרי ההוספה הראשונית לאינדקס, תהליך הרענון האוטומטי מזהה דפים חדשים ומרענן אותם ככל האפשר. התוצאה יכולה להיות דפים לא עדכניים יחסית ואינדקס גדול יותר, כי התהליך הזה מגלה כתובות URL שעשויות להיות מעבר למה שנדרש.
במקום זאת, אפשר לבחור לבצע רענון של ה-sitemap בלבד, וזה שימושי בתרחישים הבאים:
- יש לכם sitemap מעודכן ומתוחזק היטב.
- יש לכם אתר גדול ואתם רוצים לשלוט יותר טוב באילו דפי אינטרנט מתבצע אינדוקס. התוצאה היא אינדקס רזה ונוח לניהול.
- צריך לרענן את הדפים שהוספתם ועדכנתם מדי יום, ולהסיר דפים שנמחקו. כך מתקבל אינדקס עדכני יותר שמשקף את מפת האתר.
בטבלה הבאה מוצגת השוואה בין השיטות השונות לרענון האינדקס של מאגר הנתונים:
| שיטת הרענון | Precision | התערבות ידנית | תדירות | Discovery |
|---|---|---|---|---|
| רענון שמבוסס על Sitemap | מדויקת. הכלי מוסיף לאינדקס רק את כתובות ה-URL בקובצי ה-sitemap. | לא נדרש אחרי שליחת ה-Sitemap או קובץ אינדקס של Sitemap | פעם ביום לגבי כתובות URL שנוספו, נמחקו או עודכנו ב-Sitemap. 14 ימים לכתובות URL שלא השתנו | לא מעבר לאלה שצוינו ב-Sitemap. |
| רענון ידני (נקרא גם סריקה מחדש) | מדויקת. המערכת מוסיפה לאינדקס רק את כתובות ה-URL שצוינו בבקשה לסריקה מחדש. | חובה | על פי דרישה | לא. |
| רענון אוטומטי | לא מדויק. מאגר הנתונים מתעדכן כמיטב יכולתנו. | לא נדרש | אקראי ועל בסיס האפשרות הטובה ביותר | כן. מגלה כתובות URL שלא זמינות בחיפוש Google. |
לפני שמתחילים
לפני ששולחים sitemap או אינדקס sitemap למאגר הנתונים של חיפוש מבוסס סוכנים:
יוצרים קובץ Sitemap ב-XML או קובץ אינדקס של Sitemap שמפנה לכל קובצי ה-Sitemap של האתר בהתאם לפרוטוקול Sitemap.
- הסבר על היסודות של בניית sitemap. מידע נוסף זמין במאמרים מושגים בנושא רענון מבוסס-Sitemap ויצירה ושליחה של Sitemap.
חשוב להבין שכדי לשלוח sitemap או אינדקס sitemap למאגר הנתונים של חיפוש מבוסס סוכנים, לא צריך לשלוח אותם לחיפוש Google.
כל כתובות ה-URL בקובץ ה-sitemap שאתם רוצים להוסיף לאינדקס צריכות להיות שייכות לדומיינים ציבוריים שאומתו במאגר הנתונים שלכם. מידע נוסף זמין במאמר אימות דומיינים של אתרים.
כתובת ה-URI של ה-sitemap או כתובת ה-URI של קובץ האינדקס של ה-sitemap עם כתובות ה-URI המקוננות של ה-sitemap צריכות להיות זמינות לציבור.
אם אתם משתמשים בקובץ
robots.txtבאתר, אתם צריכים לעדכן אותו. מידע נוסף זמין במאמר בנושא הכנת קובץrobots.txtשל האתר.
שליחת Sitemap או אינדקס Sitemap למאגר נתונים
כדי להפעיל את היצירה של אינדקס ורענון של דפי האינטרנט שכלולים במאגר הנתונים, פועלים לפי השלבים הבאים:
מחליטים אם רוצים לבצע רענון של קובץ ה-sitemap בלבד או רענון משולב עם שיטות אחרות.
כדי לרענן רק את ה-Sitemap, פועלים לפי השלב הזה. אחרת, מדלגים לשלב הבא.
אי אפשר להשתמש במאגר נתונים קיים שכבר עבר אינדוקס ראשוני ורענון. כדי ליצור מאגר נתונים חדש, צריך להשבית את האינדוקס הראשוני ואת הרענון האוטומטי באמצעות ההגדרה
AdvancedSiteSearchConfig.REST
יוצרים מאגר נתונים שבו מופעלת רק רענון של ה-Sitemap. כדי לעשות את זה, צריך להשבית את האינדקס הראשוני ואת הרענון האוטומטי.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'הערה: הגדרת
disableAutomaticRefreshלערךtrueבלבד משביתה את הרענון האוטומטי שמבוסס על גילוי. הפעולה הזו לא משפיעה על הרענון האוטומטי היומי שמתבצע על סמך מפת האתר שצוינה (במסגרת הרענון נבדקים שינויים כמו השדהlastmod).מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור. המזהה יכול להכיל רק אותיות קטנות, ספרות, קווים תחתונים ומקפים. -
DATA_STORE_DISPLAY_NAME: השם המוצג של מאגר הנתונים של חיפוש מבוסס סוכנים שרוצים ליצור.
-
מעדכנים את תבניות כתובות ה-URL של האתרים להכללה ולהחרגה במאגר הנתונים. מידע נוסף זמין במאמר בנושא יצירת מאגר נתונים באמצעות תוכן אתר.
מאמתים את הדומיינים של דפי האינטרנט שכלולים במאגר הנתונים.
בין אם בוחרים לרענן רק את ה-sitemap או לרענן אותו בשילוב עם מקורות אחרים, צריך לשלוח URI של sitemap או של אינדקס sitemap למאגר נתונים באמצעות השיטה
sitemaps.create.REST
שליחת sitemap או קובץ אינדקס של sitemap.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים. -
SITEMAP_URI: ה-URI הציבורי של קובץ ה-Sitemap או של אינדקס ה-Sitemap שרוצים לשלוח. כששולחים אינדקס של sitemap, מספיק לשלוח את ה-URI של האינדקס. הכלי 'חיפוש מבוסס סוכנים' יוצר באופן אוטומטי אינדקס של כתובות ה-URL הכלולות בכל קובצי ה-sitemap שמוטמעים באינדקס ה-sitemap.
אחרי ששולחים את ה-sitemap או את קובץ אינדקס ה-sitemap למאגר הנתונים, מתבצעות הפעולות הבאות בחיפוש מבוסס סוכנים:
- יצירת אינדקס של כתובות ה-URL שעומדות בדרישות במפת האתר – אלה שנכללות במאגר הנתונים שלכם. התהליך הזה נמשך כמה שעות בממוצע. יכול להיות שיחלפו יותר זמן עד שהמערכת תבצע אינדוקס של קובצי Sitemap גדולים.
- רענון יומי של דפי האינטרנט עם כתובות URL שעומדות בדרישות.
כדי להבין איך שינויים ב-Sitemap או בקובץ האינדקס של ה-Sitemap משפיעים על הרענון, אפשר לעיין במאמר שינויים ב-Sitemap ובקובץ האינדקס של ה-Sitemap.
-
צפייה ב-sitemaps במאגר הנתונים.
שינויים ב-Sitemap ובקובץ האינדקס של Sitemap
אחרי השליחה הראשונית, התכונה 'חיפוש באמצעות סוכן' מזהה שינויים ב-Sitemap או באינדקס ה-Sitemap שלכם מדי יום, ומטפלת בשינויים האלה באופן הבא:
- שינויים במפת אתר:
- כשמוסיפים כתובות URL: כתובות URL שתואמות לתבנית של כתובות ה-URL הכלולות במאגר הנתונים מתווספות לאינדקס ומתעדכנות מדי יום.
- כשמסירים כתובות URL: אם כתובות ה-URL שהוסרו נמצאות באינדקס, הן יוסרו מהאינדקס ולא יעברו יותר רענון.
- כשמעדכנים את כתובות ה-URL הקיימות – למשל, כשמעדכנים את השדה
lastmodשל כתובת URL ב-Sitemap: כל כתובות ה-URL המעודכנות שתואמות לתבנית של כתובות ה-URL שכלולות במאגר הנתונים מתרעננות. בדרך כלל הרענון מתבצע תוך 24 שעות אחרי העדכון.
- שינויים באינדקס של sitemap:
- כשמוסיפים sitemap: כתובות URL ב-sitemap החדש שתואמות לדפוס של כתובות ה-URL הכלולות במאגר הנתונים מתווספות לאינדקס ומתעדכנות מדי יום.
- כשמסירים sitemap: כתובות ה-URL שתואמות לתבנית של כתובות ה-URL הכלולות במאגר הנתונים לא מתעדכנות יותר. עם זאת, הם עדיין נשארים באינדקס. כדי להסיר את ה-sitemap ואת כתובות ה-URL שלו מהאינדקס, אפשר לעיין במאמר בנושא הסרה של sitemap וכתובות ה-URL שלו מהאינדקס.
הצגת קובצי ה-Sitemap וקובצי האינדקס של ה-Sitemap במאגר נתונים
כדי לרשום את כל קובצי ה-sitemap וקובצי האינדקס של ה-sitemap במאגר נתונים, משתמשים בשיטה sitemaps.fetch. אם שלחתם קובץ אינדקס של sitemap, השיטה הזו מחזירה את קובץ האינדקס ולא את קובצי ה-sitemap הנפרדים והמקוננים.
אם אין מפות אתרים במאגר הנתונים, הבקשה הזו מחזירה קובץ JSON ריק.
REST
הצגת רשימה של קובצי Sitemap וקובצי אינדקס של Sitemap במאגר נתונים.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים.
בדיקה אם יש מאגר נתונים עם sitemap או אינדקס sitemap
כדי לבדוק אם יש מאגר נתונים של sitemap או של אינדקס sitemap, משתמשים בשיטה sitemaps.fetch. אם ה-sitemap או אינדקס ה-sitemap שאתם בודקים נשלחו למאגר הנתונים, התשובה תכיל את שם ה-sitemap ואת ה-URI שלו. אם שלחתם אינדקס של sitemap, בדיקה של קובצי sitemap ספציפיים בתוך האינדקס לא תחזיר את התוצאות הנכונות.
REST
בודקים אם יש sitemap או אינדקס sitemap במאגר נתונים.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים. -
SITEMAP_URI_N: ה-URI הציבורי של ה-Sitemap או של אינדקס ה-Sitemap שרוצים לבדוק במאגר הנתונים.
מחיקת Sitemap או קובץ אינדקס של Sitemap ממאגר הנתונים
כדי למחוק sitemap ממאגר הנתונים, משתמשים בשיטה sitemap.delete.
מחיקת sitemap לא מסירה את כתובות ה-URL שלו מהאינדקס. כדי להסיר את ה-sitemap ואת כתובות ה-URL שלו מהאינדקס, אפשר לעיין במאמר בנושא הסרה של sitemap וכתובות ה-URL שלו מהאינדקס.
REST
מחיקה של sitemap או קובץ אינדקס של sitemap.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
DATA_STORE_ID: המזהה של מאגר הנתונים של חיפוש מבוסס סוכנים. -
SITEMAP_ID: מזהה ייחודי שמזהה קובץ sitemap או אינדקס של sitemap. אפשר למצוא את המזהה הזה בשדה השם של התגובה כששולחים Sitemap או קובץ אינדקס של Sitemap, או כשמציגים את קובצי ה-Sitemap ואת קובצי האינדקס של Sitemap במאגר הנתונים.
הסרת sitemap או קובץ אינדקס של sitemap וכתובות ה-URL שלו מאינדקס מאגר הנתונים
כדי להסיר מהאינדקס sitemap או קובץ אינדקס של sitemap וכתובות ה-URL שלו, פועלים לפי השלבים הבאים:
מרוקנים את ה-sitemap או את אינדקס ה-sitemap שנשלח למאגר הנתונים על ידי הסרת כל כתובות ה-URL.
אם שלחתם אינדקס של sitemap למאגר הנתונים, צריך לרוקן את קובצי ה-sitemap המקוננים על ידי הסרת כל כתובות ה-URL, ולהסיר את ה-sitemap מאינדקס ה-sitemap.
צריך לחכות 48 שעות עד שחיפוש מבוסס סוכנים יעבד את השינויים האלה ויסיר את כתובות ה-URL מהאינדקס של מאגר הנתונים.