Note: Vertex AI Search is being renamed to Agent Search. We are in the process of updating content to reflect the new branding.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שיפור תוצאות החיפוש באמצעות התאמה אישית של החיפוש

מודל חיפוש שעבר התאמה יכול לספק תוצאות באיכות טובה יותר ממודל החיפוש הבסיסי.

התאמה אישית של החיפוש שימושית במיוחד אם יש לכם שאילתות ספציפיות לתעשייה או לחברה שלא מקבלות מענה טוב ממודלים כלליים של שפה גדולה (LLM). אפשר להשתמש בו כדי לאמן עוד את מודל החיפוש.

מגבלות

אפשר להחיל שינויים בחיפוש רק על מאגרי נתונים לא מובנים.

מידע על נתוני אימון

כדי לשפר מודל חיפוש, מתחילים בהכנת נתוני אימון.

נתוני האימון צריכים לכלול שאילתות שאתם מצפים שמשתמשי הקצה ישאלו וקטעי טקסט באורך של 250 עד 500 מילים, שמכילים מידע רלוונטי שנדרש כדי לענות על השאילתות. אפשר לשייך שאילתה לכמה תקצירים, כל עוד כל תקציר מכיל מידע שעונה על השאילתה.

נתוני האימון צריכים לכלול גם קטעי טקסט שלא משויכים לשאילתות, אבל דומים לתשובות בסגנון ובאורך. התקצירים האלה, ללא שאילתות משויכות, מספקים ערכים שליליים אקראיים כדי לכוונן את המודל. ‫Google ממליצה לספק לפחות 10,000 קטעי מידע כאלה.

ריכזנו כאן כמה מונחים לתיאור נתוני האימון שתצטרכו לספק:

שאילתות להדרכה: שאילתות שאתם צופים שהמשתמשי קצה ישאלו. חשוב להתמקד בשאילתות עם מונחים ספציפיים לדומיין או לחברה.

צריך להזין לפחות 100.
פלחים שמבוססים על חילוץ: קטעי טקסט (בדרך כלל כמה פסקאות) שחייבים להיות מועתקים מילה במילה מהמסמכים במאגר הנתונים. כל המסמכים יחד במאגר הנתונים נקראים "המאגר".

חובה לספק שני סוגים של פלחי מידע חילוציים:
- פלחים שמכילים מידע רלוונטי שנדרש כדי לענות על שאילתות ההדרכה. אלה פלחים שיש להם התאמה חיובית לשאילתות.
- פלחים שלא משויכים לשאילתות אימון. הפלחים האלה משמשים כדוגמאות שליליות אקראיות בהתאמת המודל.
משפט או שניים לא מספיקים כדי להיות קטע חילוץ. הקטע צריך להכיל מספיק הקשר לאימון. לדוגמה, בתגובה לשאילתה כמו "מי הקים את Google", קטע קצר כמו "לארי פייג'" לא מספיק. בטבלה הבאה מוצגות דוגמאות לפלחים ארוכים מספיק.

צריך לספק לפחות קטע אחד שחולץ לכל שאילתה, ולפחות 10,000 קטעים נוספים שחולצו.
ציוני רלוונטיות: ציוני הרלוונטיות הם מספרים שלמים לא שליליים שמייצגים הערכה של מידת הרלוונטיות של הפלח שחולץ לשאילתה. אתם מציינים ערך ניקוד לכל זוג של שאילתה ופלח חילוץ. ציון של 0 מציין שהקטע שחולץ לא רלוונטי לשאילתה בכלל. ציון גדול מאפס מצביע על רלוונטיות מסוימת. כדי לקבל ניקוד מהיר, Google ממליצה להגדיר את הערך 1 לכל הפלחים הרלוונטיים ואת הערך 0 לפלחים לא רלוונטיים. לחלופין, אם רוצים לדרג את הרלוונטיות, אפשר להקצות ציוני רלוונטיות מ-0 עד 10 (לדוגמה), כאשר 10 מייצג את הפלחים הכי רלוונטיים ו-0 מייצג פלחים שלא רלוונטיים בכלל.

צריך לספק לפחות 100 ציונים רלוונטיים, ואפשר גם לספק ציונים נוספים לא רלוונטיים.

דוגמאות לצמדים של שאילתות ופלחים שחולצו

בטבלה הבאה מופיעות כמה דוגמאות לשאילתות ולפלחים שנוצרו מהמידע שחולץ. הדוגמאות הכלליות האלה נלקחו מתוך ויקיפדיה. עם זאת, כדי לבצע כוונון יעיל, כדאי לספק מסמכים ממערכי נתונים קנייניים שמכילים מידע ספציפי לעסק שלכם, שקשה למצוא באינטרנט.

הזוג האחרון בטבלה הזו הוא דוגמה לזוג עם ציון אפס, שבו התשובה לא רלוונטית לשאילתה.

שאילתת אימון	קטע מידע שנשלף	Score
who founded Google?	חברת Google נוסדה ב-4 בספטמבר 1998 על ידי מדעני המחשב האמריקאים לארי פייג' וסרגיי ברין, בזמן שהם היו סטודנטים לתואר שלישי באוניברסיטת סטנפורד בקליפורניה.יחד הם מחזיקים בכ-14% מהמניות שלה שנסחרות בבורסה, ושולטים ב-56% מכוח ההצבעה של בעלי המניות באמצעות מניות עם זכויות הצבעה מיוחדות. החברה הונפקה לציבור באמצעות הנפקה ראשונית (IPO) בשנת 2004. בשנת 2015,‏ Google עברה ארגון מחדש כחברה בת בבעלות מלאה של Alphabet Inc.‎.‏ Google היא חברת הבת הגדולה ביותר של Alphabet, והיא חברת אחזקות של נכסי האינטרנט והאינטרסים של Alphabet. סונדאר פיצ'אי מונה למנכ"ל Google ב-24 באוקטובר 2015, במקומו של לארי פייג', שמונה למנכ"ל Alphabet. ב-3 בדצמבר 2019, פיצ'אי מונה גם למנכ"ל של Alphabet. ‫[...] ברשימת המותגים הכי יקרים, Google מדורגת במקום השני על ידי Forbes ובמקום הרביעי על ידי Interbrand.	1
לאן הדם נשאב אחרי שהוא יוצא מהחדר הימני?	דם מחומצן יוצא מהריאות דרך ורידי הריאה, שמעבירים אותו בחזרה לחלק השמאלי של הלב, וכך מסתיים מחזור הריאה. הדם הזה נכנס לעלייה השמאלית, שדוחפת אותו דרך המסתם המיטרלי אל החדר השמאלי. מהחדר השמאלי, הדם עובר דרך המסתם האאורטלי אל אבי העורקים. הדם מופץ בגוף דרך מחזור הדם הסיסטמי, ואז חוזר למחזור הדם הריאתי. עורקים מאמר ראשי: עורק הריאה מהחדר הימני, הדם נשאב דרך מסתם הריאה הסהרוני אל עורק הריאה הראשי הימני והשמאלי (אחד לכל ריאה), שמתפצל לעורקי ריאה קטנים יותר שמתפשטים בכל הריאות. ‫[...] מעקף לבבי הוא חיבור לא טבעי בין חלקי הלב שמוביל לזרימת דם שעוקפת את הריאות.	1
איפה נמצא היכל התהילה של הבאולינג?	היכל התהילה הבינלאומי של הבאולינג ( WBW) הוקם בשנת 1993 והוא ממוקם במוזיאון הבינלאומי של הבאולינג ובהיכל התהילה , בקמפוס הבינלאומי של הבאולינג בארלינגטון, טקסס. היסטוריה מוזיאון הבאולינג הבינלאומי והיכל התהילה נמצאו בכתובת 11 Stadium Plaza, St. Louis, Missouri, USA, וחלקו את אותו בניין עם מוזיאון היכל התהילה של סנט לואיס קרדינלס, עד 8 בנובמבר 2008. הוא עבר לארלינגטון ונפתח מחדש בתחילת 2010. בשנת 2012, ה-WBW מוזג עם International Bowling Media Association (התאחדות המדיה הבינלאומית לבאולינג). אחרי המיזוג, חברי היכל התהילה של WBW הפכו לחלק מהיכל התהילה של IBMA Luby.][...] הגבר והאישה שמקבלים את מספר הקולות הגבוה ביותר נבחרים.	1
למה השמיים כחולים?	תוכנית Hello, World!‎ היא בדרך כלל תוכנית מחשב קצרה שמוציאה (או מציגה) למסך (לרוב למסוף) הודעה כמו Hello, World!‎, תוך התעלמות מקלט משתמש. תוכנית קטנה שכתובה ברוב שפות התכנות לשימוש כללי, ומשמשת להמחשת התחביר הבסיסי של השפה. תוכנית Hello, World!‎ היא לרוב התוכנית הראשונה שסטודנט כותב בשפת תכנות חדשה, אבל אפשר להשתמש בתוכנית כזו גם כדי לוודא שהתוכנה במחשב שמיועדת לקומפילציה או להרצה של קוד מקור מותקנת בצורה נכונה, ושהמפעיל מבין איך להשתמש בה. ‫[...] הגרסה בשפת C קדמה לגרסה משנת 1972 של Kernighan,‏ A Tutorial Introduction to the Language B, שבה נמצאת הגרסה הראשונה הידועה של התוכנית בדוגמה שמשמשת להמחשת משתנים חיצוניים	0

מידע על בדיקות

אחרי האימון, המערכת בודקת את החיפוש המותאם כדי לקבוע אם ההתאמה שיפרה את התוצאות. אתם יכולים לציין במפורש את השאילתות שאתם רוצים לבדוק. אם לא תספקו שאילתות בדיקה, חיפוש מבוסס סוכנים ישתמש ב-20% משאילתות האימון כשאילתות בדיקה.

קובצי אימון

צריך להעלות את נתוני האימון בשלושה (או בארבעה) קבצים ספציפיים:

קובץ קורפוס שמכיל את הפלחים שחולצו
קובץ שאילתות שמכיל רק את השאילתות
קובץ תוויות אימון שמקשר בין שאילתות לפלחים ומכיל את ציוני הרלוונטיות
אופציונלי: קובץ תוויות לבדיקה שדומה לקובצי התוויות לאימון, אבל משמש להערכת המודל המכוונן במקום לאימון שלו

שלושת קובצי האימון (קובץ הקורפוס, קובץ השאילתות וקובץ תוויות האימון) וקובץ תוויות הבדיקה (אופציונלי) צריכים להיות ב-Cloud Storage. הנתיבים של הקבצים מוגדרים על ידי שדות בקריאה trainCustomMethod.

קובץ מאגר

קובץ הקורפוס מכיל פלחים שחולצו: פלחים שמכילים מידע שיכול לשמש למענה על השאילתות בקובץ השאילתות, ופלחים נוספים רבים שיכולים לשמש כדוגמאות שליליות אקראיות כשמכווננים את המודל. צריכים להיות לכם לפחות 100 פלחים שמכילים תשובות לשאילתות. יכול להיות שכמה פלחים יתנו תשובות לאותה שאילתה. בנוסף, צריכים להיות לכם לפחות 10,000 פלחים אקראיים.

אם המסמכים במאגר הנתונים מכילים פחות מ-500 מילים, אפשר להשתמש במסמכים שלמים כפלחים. אחרת, יוצרים באופן פרוגרמטי פלחים אקראיים של 250 עד 500 מילים מהמסמכים במאגר הנתונים ומוסיפים אותם לקובץ הקורפוס.

קובץ הקורפוס הוא קובץ JSONL (שורות JSON) שבו כל שורה מכילה את השדות _id ו-text עם ערכים מסוג מחרוזת. לדוגמה:

  {"_id": "doc1", "text": "Google was founded on September 4, 1998, by American computer scientists Larry Page and Sergey Brin while they were PhD students at Stanford University in California. Together they own about 14% of its publicly listed shares and control 56% of its stockholder voting power through super-voting stock. The company went public via an initial public offering (IPO) in 2004. In 2015, Google was reorganized as a wholly owned subsidiary of Alphabet Inc. Google is Alphabet's largest subsidiary and is a holding company for Alphabet's internet properties and interests. Sundar Pichai was appointed CEO of Google on October 24, 2015, replacing Larry Page, who became the CEO of Alphabet. On December 3, 2019, Pichai also became the CEO of Alphabet. [...] On the list of most valuable brands, Google is 105 ranked second by Forbes and fourth by Interbrand."}
  {"_id": "doc2", "text": "Oxygenated blood leaves the lungs through pulmonary veins, which return it to the left part of the heart, completing the pulmonary cycle. This blood then enters the left atrium, which pumps it through the mitral valve into the left ventricle. From the left ventricle, the blood passes through the aortic valve to the aorta. The blood is then distributed to the body through the systemic circulation before returning again to the pulmonary circulation. Arteries Main article: Pulmonary artery From the right ventricle, blood is pumped through the semilunar pulmonary valve into the left and right main pulmonary artery (one for each lung), which branch into smaller pulmonary arteries that spread throughout the lungs. [...] Cardiac shunt is an unnatural connection between parts of the heart that leads to blood flow that bypasses the lungs."}
  {"_id": "doc3", "text": "The World Bowling Writers ( WBW ) International Bowling Hall of Fame was established in 1993 and is located in the International Bowling Museum and Hall of Fame , on the International Bowling Campus in Arlington , Texas. History The International Bowling Museum and Hall of Fame was located at 11 Stadium Plaza, St. Louis, Missouri, USA, and shared the same building with the St. Louis Cardinals Hall of Fame Museum, until November 8, 2008. It moved to Arlington and reopened in early 2010. In 2012, the WBW was merged with the International Bowling Media Association. After the merger, the WBW Hall of Fame inductees became part of the IBMA Luby Hall of Fame.  officers of the World Bowling Writers, which formed the Hall's Board.][...] The man and woman who receive the most votes are elected."}
  {"_id": "doc4", "text": "A \"Hello, World!\" program is generally a simple computer program which outputs (or displays) to the screen (often the console) a message similar to "Hello, World!" while ignoring any user input. A small piece of code in most general-purpose programming languages, this program is used to illustrate a language's basic syntax. A "Hello, World!" program is often the first written by a student of a new programming language, but such a program can also be used as a check to ensure that the computer software intended to compile or run source code is correctly installed, and that its operator understands how to use it.  [...] The C-language version was preceded by Kernighan's own 1972 A Tutorial Introduction to the Language B, where the first known version of the program is found in an example used to illustrate external variables."}

הגודל המקסימלי של הקובץ הוא 500,000 שורות.

קובץ שאילתה

קובץ השאילתות מכיל את השאילתות לדוגמה שישמשו לכוונון המודל. לכל שאילתה צריך להיות פלח חילוץ תואם אחד או יותר בקובץ הקורפוס. מומלץ לספק לפחות 100 שאילתות עם התאמה חיובית. אפשר גם לספק שאילתות לא רלוונטיות: אלה שאילתות שמתאימות לפלחים שנוצרו באמצעות חילוץ עם ציון רלוונטיות של אפס.

קובץ השאילתות הוא בפורמט JSONL ויש בו את אותם שדות כמו בקובץ הקורפוס.

לדוגמה:

  {"_id": "query1", "text": "who founded Google?"}
  {"_id": "query2", "text": "where is blood pumped after it leaves the right ventricle?"}
  {"_id": "query3", "text": "where is the bowling hall of fame located?"}
  {"_id": "query4", "text": "why is the sky blue?"}

מספר השאילתות המקסימלי שמותר בקובץ הוא 40,000.

תוויות אימון

קובץ תוויות האימון מקשר בין השאילתות לבין הפלחים שחולצו, ומקצה ניקוד לכל צמד של שאילתה ופלח.

אם הקובץ של תוויות הבדיקה לא קיים, 20% מהשאילתות בקובץ של תוויות האימון שמורות להערכת המודל שעבר התאמה אחרי האימון.

הקובץ מכיל את המזהה של שאילתה ואת המזהה של קטע חילוץ שתואם לה (או לא תואם לה), וגם ציון לרלוונטיות של הקטע לשאילתה. לכל שאילתה צריכה להיות לפחות שורה אחת. אם שאילתה מסוימת נענית על ידי שני פלחים, יהיו שתי שורות לשאילתה הזו. ‫Score הוא ערך מספרי שלם לא שלילי. כל ציון שגדול מאפס מציין שהמסמך קשור לשאילתה. מספרים גדולים יותר מצביעים על רמת רלוונטיות גבוהה יותר. אם לא מציינים את הציון, ערך ברירת המחדל הוא 1.

קובץ תוויות האימון הוא קובץ TSV (ערכים מופרדים בטאבים) עם כותרת. הקובץ צריך לכלול את העמודות query-id, corpus-id ו-score. ‫query-id היא מחרוזת שתואמת למפתח _id מקובץ השאילתות, ו-corpus-id היא מחרוזת שתואמת ל-_id בקובץ המאגר.

לדוגמה:

query-id    corpus-id   score
query1  doc1    1
query2  doc2    1
query3  doc3    1
query3  doc9    1
query4  doc4    0

קובץ תוויות האימון חייב לכלול לפחות 100 מזהי שאילתות ייחודיים. מספר מזהי השאילתות בקובץ תוויות האימון בתוספת מספר השאילתות בקובץ תוויות הבדיקה צריך להיות קטן מ-500,000.

תוויות בדיקה

בדומה לקובץ תוויות האימון, הקובץ האופציונלי הזה מכיל את המזהים של השאילתה ושל פלח החילוץ, וגם ציוני רלוונטיות. הוא מכיל פחות שאילתות ושאילתות שונות מאלה שבקובץ תוויות האימון. אם יש קובץ, המערכת משתמשת בצמדי השאילתות והקטעים שחולצו בקובץ כדי להעריך את ההתאמה. אם קובץ תוויות הבדיקה לא קיים, המערכת משתמשת בצמדי שאילתות וקטעים שחולצו מקובץ תוויות האימון לצורך הערכה.

הפורמט של הקובץ הזה זהה לפורמט של קובץ תוויות האימון.

לדוגמה:

query-id    corpus-id   score
query200    doc200  1
query201    doc201  1
query202    doc202  1

קובץ תוויות הבדיקה הוא אופציונלי, אבל אם מספקים אותו, הוא צריך להכיל לפחות שלושה מזהי שאילתות ייחודיים.

לפני שמתחילים

מפעילים את התכונות של מהדורת Enterprise באפליקציה.

שינוי הגדרות החיפוש

כדי לכוונן מודל חיפוש באמצעות נתוני אימון משלכם, פועלים לפי השלבים הבאים.

המסוף

כדי להשתמש במסוף Google Cloud כדי לכוונן מודל, מבצעים את השלבים הבאים:

מכינים את נתוני האימון ואת קובצי נתוני הבדיקה (אם רוצים). משתמשים בפורמטים שמתוארים במאמר קבצי אימון.
מעלים את הקבצים ל-Cloud Storage.
נכנסים לדף AI Applications במסוף Google Cloud .

אפליקציות AI
בדף אפליקציות, לוחצים על שם האפליקציה שרוצים ליצור עבורה מודל מאומן.
בתפריט הניווט, לוחצים על Configurations (הגדרות).
לוחצים על הכרטיסייה התאמה.
לוחצים על Tune the base model (כוונון מודל הבסיס).
מציינים את קובצי הקורפוס, השאילתה, האימון והבדיקה (אם יש) שהכנתם בשלבים 1 ו-2 הקודמים.
לוחצים על התחלת הכוונון.
כדי לראות את הסטטוס בטבלה Recent tuning activity בכרטיסייה Tuning, צריך לרענן את הדף.

REST

כדי להשתמש בשיטה trainCustomModel כדי לכוונן מאגר נתונים, פועלים לפי השלבים הבאים:

מכינים את קובצי נתוני האימון (ואם רוצים, גם את קובצי נתוני הבדיקה). משתמשים בפורמטים שמתוארים במאמר קבצי אימון.
ממקמים את הקבצים בקטגוריה של Cloud Storage.

כדי להעלות את הקבצים מהקטגוריה של Cloud Storage אל חיפוש מבוסס סוכנים, מריצים את פקודת ה-curl הבאה:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID:trainCustomModel" \
-d '{
"gcsTrainingInput": {
 "corpusDataPath": "CORPUS_JSONL_GCS_PATH",
 "queryDataPath": "QUERY_JSONL_GCS_PATH",
 "trainDataPath": "TRAIN_TSV_GCS_PATH",
 "testDataPath": "TEST_TSV_GCS_PATH"
},
"modelType": "search-tuning"
}'

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
‫DATA_STORE_ID: המזהה של מאגר הנתונים שרוצים לכוונן.
‫CORPUS_JSONL_GCS_PATH: הנתיב של קובץ ה-JSONL של הקורפוס ב-Cloud Storage, לדוגמה, gs://my-bucket/corpus.jsonl.
‫QUERY_JSONL_GCS_PATH: הנתיב של קובץ ה-JSONL של השאילתה ב-Cloud Storage, לדוגמה, gs://my-bucket/query.jsonl.
‫TRAIN_TSV_GCS_PATH: הנתיב של קובץ ה-TSV של תוויות האימון ב-Cloud Storage, לדוגמה gs://my-bucket/train.tsv.
‫TEST_TSV_GCS_PATH: שדה אופציונלי שבו מציינים את הנתיב ב-Cloud Storage לקובץ ה-TSV של תוויות הבדיקה, לדוגמה gs://my-bucket/test.tsv. אם אין לכם קובץ תוויות לבדיקה, צריך להסיר את השדה testDataPath או להשאיר אותו ריק.

מידע כללי על השיטה הזו זמין במאמר trainCustomModel.

התאמה מתחילה באופן אוטומטי אחרי העלאה של קובצי הנתונים.

כאן אפשר לראות דוגמה לפקודת curl ולתשובה.

curl -X POST
-H "Authorization: Bearer $(gcloud auth print-access-token)"
-H "Content-Type: application/json"
"https://discoveryengine.googleapis.com/v1/projects/12345/locations/global/collections/default_collection/dataStores/my-data-store_4321:trainCustomModel"
-d '{
"dataStore":
"projects/12345/locations/global/collections/default_collection/dataStores/my-data-store_4321",
"gcsTrainingInput": {
"corpusDataPath": "gs://my-bucket/corpus.jsonl",
"queryDataPath": "gs://my-bucket/query.jsonl",
"trainDataPath": "gs://my-bucket/train.tsv"
},
"modelType": "search-tuning"
}

{
  "name": "projects/12345/locations/global/collections/default_collection/dataStores/my-data-store_4321/operations/train-custom-model-6071430366161939774",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1.TrainCustomModelMetadata"
  },
  "response": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1.TrainCustomModelResponse",
    "modelStatus": "in-progress"
  }
}

רושמים את הערך name שמוחזר על ידי השיטה trainCustomModel ופועלים לפי ההוראות במאמר קבלת פרטים על פעולה ממושכת כדי לראות מתי פעולת ההתאמה של החיפוש הושלמה.

Python

מידע נוסף מופיע בתיעוד העזר של ה-API של חיפוש מבוסס סוכנים Python.

כדי לבצע אימות ב-חיפוש מבוסס סוכנים, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.


from google.api_core.client_options import ClientOptions
from google.api_core.operation import Operation
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# corpus_data_path = "gs://my-bucket/corpus.jsonl"
# query_data_path = "gs://my-bucket/query.jsonl"
# train_data_path = "gs://my-bucket/train.tsv"
# test_data_path = "gs://my-bucket/test.tsv"


def train_custom_model_sample(
    project_id: str,
    location: str,
    data_store_id: str,
    corpus_data_path: str,
    query_data_path: str,
    train_data_path: str,
    test_data_path: str,
) -> Operation:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )
    # Create a client
    client = discoveryengine.SearchTuningServiceClient(client_options=client_options)

    # The full resource name of the data store
    data_store = f"projects/{project_id}/locations/{location}/collections/default_collection/dataStores/{data_store_id}"

    # Make the request
    operation = client.train_custom_model(
        request=discoveryengine.TrainCustomModelRequest(
            gcs_training_input=discoveryengine.TrainCustomModelRequest.GcsTrainingInput(
                corpus_data_path=corpus_data_path,
                query_data_path=query_data_path,
                train_data_path=train_data_path,
                test_data_path=test_data_path,
            ),
            data_store=data_store,
            model_type="search-tuning",
        )
    )

    # Optional: Wait for training to complete
    # print(f"Waiting for operation to complete: {operation.operation.name}")
    # response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    # metadata = discoveryengine.TrainCustomModelMetadata(operation.metadata)

    # Handle the response
    # print(response)
    # print(metadata)
    print(operation)

    return operation

בדיקת חיפוש מותאם ושימוש בו לשאילתות חיפוש ספציפיות

אחרי שהכוונון מסתיים, אפשר לבדוק אותו על ידי השוואה בין התוצאות של שאילתות עם המודל המכוונן לבין התוצאות של אותן שאילתות עם מודל הבסיס.

המסוף

כדי להשתמש ב Google Cloud מסוף כדי לראות תצוגה מקדימה של ההתנהגות של מודל שעבר התאמה:

עוברים לכרטיסייה התאמה:
1. נכנסים לדף AI Applications במסוף Google Cloud .
  
  אפליקציות AI
2. לוחצים על שם האפליקציה שרוצים לראות בתצוגה מקדימה.
3. לוחצים על Configurations (הגדרות).
4. לוחצים על הכרטיסייה התאמה.
לוחצים על Tuned model ומשתמשים בחלונית התצוגה המקדימה משמאל כדי להריץ שאילתות שמשתמשות במודל המותאם.
לוחצים על מודל בסיסי ומשתמשים בחלונית התצוגה המקדימה שמשמאל כדי להריץ שאילתות באמצעות המודל המקורי.
משווים את איכות התוצאות.

REST

כדי להעריך את ההשפעה של השינויים, אפשר להריץ שאילתות עם הערכים true ו-false בשדה enableSearchAdaptor ולהשוות את התוצאות. הגדרה של השדה enableSearchAdaptor לערך true מציינת שהגרסה המותאמת של החיפוש משמשת לשאילתה הזו.

כדי להריץ שאילתות חיפוש באמצעות המודל שעבר כוונון:

בשיחה של שיטת השאילתה, מגדירים את השדה enableSearchAdaptor בשדה customFineTuningSpec לערך true.

לדוגמה:

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:search" \
-d '{
"query": "QUERY",
"customFineTuningSpec": { "enableSearchAdaptor": true }
}'

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
‫APP_ID: המזהה של האפליקציה שרוצים לשלוח אליה שאילתה.

מידע מפורט על שאילתות חיפוש זמין במאמר בנושא קבלת תוצאות חיפוש ובמאמר בנושא השיטה servingConfigs.search.

Python

מידע נוסף מופיע בתיעוד העזר של ה-API של חיפוש מבוסס סוכנים Python.

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION"          # Values: "global", "us", "eu"
# engine_id = "YOUR_APP_ID"
# search_query = "YOUR_SEARCH_QUERY"


def search_sample(
    project_id: str,
    location: str,
    engine_id: str,
    search_query: str,
) -> discoveryengine.services.search_service.pagers.SearchPager:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.SearchServiceClient(client_options=client_options)

    # The full resource name of the search app serving config
    serving_config = f"projects/{project_id}/locations/{location}/collections/default_collection/engines/{engine_id}/servingConfigs/default_config"

    # Optional - only supported for unstructured data: Configuration options for search.
    # Refer to the `ContentSearchSpec` reference for all supported fields:
    # https://cloud.google.com/python/docs/reference/discoveryengine/latest/google.cloud.discoveryengine_v1.types.SearchRequest.ContentSearchSpec
    content_search_spec = discoveryengine.SearchRequest.ContentSearchSpec(
        # For information about snippets, refer to:
        # https://cloud.google.com/generative-ai-app-builder/docs/snippets
        snippet_spec=discoveryengine.SearchRequest.ContentSearchSpec.SnippetSpec(
            return_snippet=True
        ),
        # For information about search summaries, refer to:
        # https://cloud.google.com/generative-ai-app-builder/docs/get-search-summaries
        summary_spec=discoveryengine.SearchRequest.ContentSearchSpec.SummarySpec(
            summary_result_count=5,
            include_citations=True,
            ignore_adversarial_query=True,
            ignore_non_summary_seeking_query=True,
            model_prompt_spec=discoveryengine.SearchRequest.ContentSearchSpec.SummarySpec.ModelPromptSpec(
                preamble="YOUR_CUSTOM_PROMPT"
            ),
            model_spec=discoveryengine.SearchRequest.ContentSearchSpec.SummarySpec.ModelSpec(
                version="stable",
            ),
        ),
    )

    # Refer to the `SearchRequest` reference for all supported fields:
    # https://cloud.google.com/python/docs/reference/discoveryengine/latest/google.cloud.discoveryengine_v1.types.SearchRequest
    request = discoveryengine.SearchRequest(
        serving_config=serving_config,
        query=search_query,
        page_size=10,
        content_search_spec=content_search_spec,
        query_expansion_spec=discoveryengine.SearchRequest.QueryExpansionSpec(
            condition=discoveryengine.SearchRequest.QueryExpansionSpec.Condition.AUTO,
        ),
        spell_correction_spec=discoveryengine.SearchRequest.SpellCorrectionSpec(
            mode=discoveryengine.SearchRequest.SpellCorrectionSpec.Mode.AUTO
        ),
        # Optional: Use fine-tuned model for this request
        # custom_fine_tuning_spec=discoveryengine.CustomFineTuningSpec(
        #     enable_search_adaptor=True
        # ),
    )

    page_result = client.search(request)

    # Handle the response
    for response in page_result:
        print(response)

    return page_result

הפעלת חיפוש מותאם

אחרי שתבדקו את החיפוש המותאם ותחליטו שאתם רוצים להשתמש בו לכל שאילתות החיפוש, תוכלו להגדיר אותו כמודל החיפוש שמוגדר כברירת מחדל.

המסוף

כדי להגדיר את המודל המותאם כמודל ברירת המחדל ולהחיל אותו על דף התצוגה המקדימה הראשי, על הווידג'ט ועל קריאות ה-API, פועלים לפי השלבים הבאים:

עוברים לכרטיסייה התאמה:
1. נכנסים לדף AI Applications במסוף Google Cloud .
  
  אפליקציות AI
2. לוחצים על שם האפליקציה.
3. לוחצים על Configurations (הגדרות).
4. לוחצים על הכרטיסייה התאמה.
לוחצים על מודל שעבר התאמה.
לוחצים על פרסום.

REST

כשמגדירים את המודל המותאם להיות מודל ברירת המחדל, לא צריך לציין את השדה customFineTuningSpec בשאילתת החיפוש כמו בהליך הקודם.

כדי להשתמש בגרסה המותאמת של החיפוש כברירת מחדל לכל שאילתות החיפוש, פועלים לפי השלבים הבאים:

כדי להגדיר את מודל החיפוש המותאם כמודל ברירת המחדל, מריצים את פקודת curl הבאה:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search?updateMask=customFineTuningSpec.enableSearchAdaptor" \
-d '{
"customFineTuningSpec": {
 "enableSearchAdaptor": true
}
}'

מידע כללי על השיטה הזו זמין במאמר servingConfigs.patch.

Python

מידע נוסף מופיע בתיעוד העזר של ה-API של חיפוש מבוסס סוכנים Python.


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine_v1alpha as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# engine_id = "YOUR_DATA_STORE_ID"


def update_serving_config_sample(
    project_id: str,
    location: str,
    engine_id: str,
) -> discoveryengine.ServingConfig:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )
    # Create a client
    client = discoveryengine.ServingConfigServiceClient(client_options=client_options)

    # The full resource name of the serving config
    serving_config_name = f"projects/{project_id}/locations/{location}/collections/default_collection/engines/{engine_id}/servingConfigs/default_search"

    update_mask = "customFineTuningSpec.enableSearchAdaptor"

    serving_config = client.update_serving_config(
        request=discoveryengine.UpdateServingConfigRequest(
            serving_config=discoveryengine.ServingConfig(
                name=serving_config_name,
                custom_fine_tuning_spec=discoveryengine.CustomFineTuningSpec(
                    enable_search_adaptor=True  # Switch to `False` to disable tuned model
                ),
            ),
            update_mask=update_mask,
        )
    )

    # Handle the response
    print(serving_config)

    return serving_config

השבתת החיפוש המותאם

אם אתם לא רוצים יותר להשתמש בגרסה המותאמת של החיפוש – למשל, אם אתם חושבים שהתוצאות לא טובות יותר, או אפילו גרועות יותר, מאשר לפני ההתאמה – אתם יכולים להשבית את החיפוש המותאם.

המסוף

כדי לחזור לשימוש במודל הבסיסי כמודל ברירת המחדל:

עוברים לכרטיסייה התאמה:
1. נכנסים לדף AI Applications במסוף Google Cloud .
  
  אפליקציות AI
2. לוחצים על שם האפליקציה.
3. לוחצים על Configurations (הגדרות).
4. לוחצים על הכרטיסייה התאמה.
לוחצים על מודל בסיס.
לוחצים על פרסום.

REST

כדי להפסיק להשתמש במודל שעבר התאמה, מריצים קריאת curl דומה לקריאה הקודמת, אבל מגדירים את enableSearchAdaptor ל-false:

מריצים את פקודת ה-curl הבאה:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search?updateMask=customFineTuningSpec.enableSearchAdaptor" \
-d '{
"customFineTuningSpec": {
 "enableSearchAdaptor": false
}
}'

מידע כללי על השיטה הזו זמין במאמר servingConfigs.patch.

Python

מידע נוסף מופיע בתיעוד העזר של ה-API של חיפוש מבוסס סוכנים Python.


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine_v1alpha as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# engine_id = "YOUR_DATA_STORE_ID"


def update_serving_config_sample(
    project_id: str,
    location: str,
    engine_id: str,
) -> discoveryengine.ServingConfig:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )
    # Create a client
    client = discoveryengine.ServingConfigServiceClient(client_options=client_options)

    # The full resource name of the serving config
    serving_config_name = f"projects/{project_id}/locations/{location}/collections/default_collection/engines/{engine_id}/servingConfigs/default_search"

    update_mask = "customFineTuningSpec.enableSearchAdaptor"

    serving_config = client.update_serving_config(
        request=discoveryengine.UpdateServingConfigRequest(
            serving_config=discoveryengine.ServingConfig(
                name=serving_config_name,
                custom_fine_tuning_spec=discoveryengine.CustomFineTuningSpec(
                    enable_search_adaptor=True  # Switch to `False` to disable tuned model
                ),
            ),
            update_mask=update_mask,
        )
    )

    # Handle the response
    print(serving_config)

    return serving_config

המאמרים הבאים

כדי להבין את ההשפעה של שיפור החיפוש על איכות החיפוש, צריך להעריך את איכות החיפוש. מידע נוסף מפורט במאמר בנושא הערכת איכות החיפוש.

שיפור תוצאות החיפוש באמצעות התאמה אישית של החיפוש קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

מגבלות

מידע על נתוני אימון

דוגמאות לצמדים של שאילתות ופלחים שחולצו

מידע על בדיקות

קובצי אימון

קובץ מאגר

קובץ שאילתה

תוויות אימון

תוויות בדיקה

לפני שמתחילים

שינוי הגדרות החיפוש

המסוף

REST

Python

בדיקת חיפוש מותאם ושימוש בו לשאילתות חיפוש ספציפיות

המסוף

REST

Python

הפעלת חיפוש מותאם

המסוף

REST

Python

השבתת החיפוש המותאם

המסוף

REST

Python

המאמרים הבאים

שיפור תוצאות החיפוש באמצעות התאמה אישית של החיפוש