אינדוקס מתקדם של אתרים כרוך בחיובים חודשיים על אחסון נתונים, בהתאם לגודל נתוני האינטרנט שמייבאים למאגר הנתונים. כדי לקבל הערכה של גודל נתוני האינטרנט לפני הייבוא, אפשר להתקשר לשיטה estimateDataSize ולציין את דפי האינטרנט שרוצים לייבא. השיטה estimateDataSize היא פעולה ארוכת טווח שפועלת עד להשלמת התהליך של הערכת גודל הנתונים. התהליך יכול להימשך כמה דקות או יותר משעה, בהתאם למספר דפי האינטרנט שציינתם. אחרי שתקבלו הערכה של גודל נתוני האינטרנט, תוכלו לקבל הערכה של עלויות אחסון הנתונים החודשיות באמצעות דף התמחור של חיפוש מבוסס סוכנים (ראו את הקטע תמחור של אינדקס נתונים) או מחשבון עלויות של Google Cloud (מחפשים חיפוש מבוסס סוכנים).
לפני שמתחילים
קובעים את תבניות כתובות ה-URL של האתרים שרוצים לכלול (ואם רוצים, גם להחריג) כשמייבאים נתוני אתרים למאגר הנתונים. מציינים את תבניות כתובות ה-URL האלה כשמפעילים את השיטה estimateDataSize.
התהליך
כדי לקבל הערכה לגבי גודל נתוני האינטרנט:
מבצעים קריאה ל-method
estimateDataSize.curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global:estimateDataSize" \ -d '{ "website_data_source": { "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_INCLUDE", exact_match: EXACT_MATCH_BOOLEAN }, "estimator_uri_patterns": { provided_uri_pattern: "URI_PATTERN_TO_EXCLUDE", exact_match: EXACT_MATCH_BOOLEAN, exclusive: EXCLUSIVE_BOOLEAN } } }'מחליפים את מה שכתוב בשדות הבאים:
PROJECT_ID: מזהה הפרויקט.
URI_PATTERN_TO_INCLUDE: תבניות כתובות ה-URL של האתרים שרוצים לכלול בהערכת גודל הנתונים.
URI_PATTERN_TO_EXCLUDE: (אופציונלי) תבניות כתובות ה-URL של האתרים שרוצים להחריג מההערכה של גודל הנתונים.במאפיינים
URI_PATTERN_TO_INCLUDEו-URI_PATTERN_TO_EXCLUDE, אפשר להשתמש בתבניות דומות לאלה:- האתר כולו:
www.mysite.com - חלקי אתר:
www.mysite.com/faq - כל הדומיין:
mysite.comאו*.mysite.com
- האתר כולו:
EXCLUSIVE_BOOLEAN: (אופציונלי) אםtrue, אז תבנית ה-URI שצוינה מייצגת דפי אינטרנט שלא נכללים בהערכה של גודל הנתונים. ערך ברירת המחדל הואfalse, כלומר תבנית ה-URI שצוינה מייצגת דפי אינטרנט שנכללים בהערכת גודל הנתונים.
EXACT_MATCH_BOOLEAN: (אופציונלי) אםtrue, תבנית ה-URI שצוינה מייצגת דף אינטרנט יחיד, ולא את דף האינטרנט וכל רכיבי הצאצא שלו. ברירת המחדל היאfalse, כלומר תבנית ה-URI שצוינה מייצגת את דף האינטרנט ואת כל רכיבי הצאצא שלו.
הפלט אמור להיראות כך:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata" } }הפלט הזה כולל את השדה
name, שהוא השם של הפעולה הממושכת. שומרים את הערךnameלשימוש בשלב הבא.מבצעים סקר לשיטת
operations.get.curl -X GET \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ "https://discoveryengine.googleapis.com/v1/OPERATION_NAME"מחליפים את
OPERATION_NAMEבערךnameששמרתם בשלב הקודם. אפשר גם לקבל את שם הפעולה על ידי רישום פעולות ממושכות.בודקים כל תשובה.
אם התגובה לא מכילה את
"done": true, סימן שתהליך הערכת גודל הנתונים לא הושלם. המשך הסקר.הפלט אמור להיראות כך:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2025-10-29T21:59:59.976752Z" } }אם התגובה מכילה את הערך
"done": true, תהליך הערכת גודל הנתונים הושלם. שומרים את הערךDATA_SIZE_BYTESמהתגובה כדי להשתמש בו בשלב הבא.הפלט אמור להיראות כך:
{ "name": "projects/PROJECT_ID/locations/global/operations/estimate-data-size-01234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeMetadata", "createTime": "2025-10-29T21:59:59.976752Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.EstimateDataSizeResponse", "dataSizeBytes": DATA_SIZE_BYTES, "documentCount": DOCUMENT_COUNT } }הפלט הזה כולל את הערכים הבאים:
DATA_SIZE_BYTES: הגודל המשוער של נתוני האינטרנט, בבייטים.
DOCUMENT_COUNT: המספר המשוער של דפי אינטרנט בנתוני האינטרנט.
מחלקים את הערך של
DATA_SIZE_BYTESמהשלב הקודם ב-1,000,000,000 כדי לקבל את הערך בגיגה-בייט. שומרים את הערך הזה לשלב הבא.כדי לקבל אומדן של עלויות אחסון הנתונים החודשיות:
נכנסים אל מחשבון התמחור של Google Cloud.
לוחצים על הוספה לאומדן.
מחפשים את
Agent Searchולוחצים על התיבה חיפוש מבוסס סוכנים.בתיבה Data Index (אינדקס הנתונים), מזינים את הגודל המשוער של נתוני האינטרנט, בגיגה-בייט, מהשלב הקודם.
בתיבה עלות משוערת מופיעה העלות המשוערת של אחסון הנתונים.