פרמטרים של התאמה
הפרמטרים הבאים של האינדקס והדגלים של מסד הנתונים משמשים יחד כדי למצוא את האיזון הנכון בין היזכרות לבין QPS.
| פרמטר של התאמה | תיאור | סוג האפשרות |
|---|---|---|
max_num_levels |
המספר המקסימלי של רמות מרכזיות בעץ האשכולות של K-means.
|
יצירת אינדקס (אופציונלי) |
num_leaves |
מספר המחיצות שיוחלו על האינדקס הזה. מספר המחיצות שאתם מחילים כשאתם יוצרים אינדקס משפיע על ביצועי האינדקס. הגדלת מספר המחיצות עבור מספר נתון של וקטורים יוצרת אינדקס מפורט יותר, שמשפר את השליפה ואת ביצועי השאילתות. עם זאת, זה בא על חשבון זמן יצירת אינדקס ארוך יותר. מכיוון שעצים עם שלוש רמות נבנים מהר יותר מעצים עם שתי רמות, אפשר להגדיל את num_leaves_value כשיוצרים אינדקס של עץ עם שלוש רמות כדי לשפר את הביצועים.
|
יצירת אינדקס (חובה) |
quantizer |
סוג הכמת שרוצים להשתמש בו בעץ K-means. ערך ברירת המחדל הוא SQ8, שמספק ביצועים טובים יותר של שאילתות עם אובדן מינימלי של אחזור (בדרך כלל פחות מ-1-2%).מגדירים את הערך ל- FLAT אם נדרש אחזור של 99% ומעלה. |
יצירת אינדקס (אופציונלי) |
scann.enable_inline_filtering |
התכונה מאפשרת תמיכה בסינון מוטבע ששולח שאילתות לנתונים ומחיל מסננים ישירות בתוך פעולת חיפוש של דמיון וקטורי. שאילתות הדמיון הווקטורי האלה משתמשות במסננים באותן טבלאות של מסד הנתונים, ומשלימות את הערכת המסננים תוך חישוב המרחק לזיהוי השכן הקרוב ביותר. האפשרות הזו מושבתת כברירת מחדל. כדי להפעיל סינון מוטבע, מגדירים את הפרמטר הזה לערך true. אם אתם מבחינים בירידה בביצועים, צריך להגדיר את האפשרות ל-false.האפשרות הזו זמינה בגרסת טרום-השקה. |
זמן הריצה של השאילתה (אופציונלי) |
scann.enable_pca |
ההגדרה הזו מפעילה ניתוח רכיבים עיקריים (PCA), שהיא טכניקה לצמצום ממדים שמשמשת לצמצום הגודל של ההטמעה באופן אוטומטי, כשזה אפשרי. האפשרות הזו מופעלת כברירת מחדל. מגדירים את האפשרות לערך false אם חל שיפור בשליפה. |
יצירת אינדקס (אופציונלי) |
scann.num_leaves_to_search |
הדגל הזה במסד הנתונים קובע את המספר המוחלט של עלים או מחיצות לחיפוש, וכך מאפשר לכם לבחור בין דיוק לבין מספר שאילתות לשנייה. ערך ברירת המחדל הוא 1% מהערך שמוגדר ב-num_leaves. ערך גבוה יותר יוביל לזיכרון טוב יותר אבל ל-QPS נמוך יותר. באופן דומה, ערך נמוך יותר יוביל לשיעור היזכרות נמוך יותר אבל ל-QPS גבוה יותר. |
זמן הריצה של השאילתה (אופציונלי) |
scann.pre_reordering_num_neighbors |
אם הדגל של מסד הנתונים מוגדר, הוא מציין את מספר השכנים הפוטנציאליים שצריך לקחת בחשבון בשלבי הסידור מחדש אחרי שהחיפוש הראשוני מזהה קבוצה של מועמדים. מגדירים את הפרמטר הזה לערך גבוה ממספר השכנים שרוצים שהשאילתה תחזיר. ערך גבוה יותר מוביל לזיכרון טוב יותר, אבל ל-QPS נמוך יותר. כדי להשבית את שינוי הסדר, מגדירים את הערך הזה ל- 0. ברירת המחדל היא 0 אם PCA לא מופעל במהלך יצירת האינדקס. אחרת, ברירת המחדל היא 50 x K, כאשר K הוא הערך של LIMIT שצוין בשאילתה. |
זמן הריצה של השאילתה (אופציונלי) |
scann.num_search_threads |
מספר השרשורים של החיפוש עבור חיפוש מרובה שרשורים. השימוש ביותר משרשור אחד לחיפוש ScaNN ANN באפליקציות שרגישות לזמן האחזור יכול לעזור לצמצם את זמן האחזור של שאילתה יחידה. ההגדרה הזו לא משפרת את זמן האחזור של שאילתה יחידה אם מסד הנתונים כבר מוגבל על ידי המעבד. ערך ברירת המחדל הוא 2. |
זמן הריצה של השאילתה (אופציונלי) |