בחירת סוג משימת הטמעה

מודלים של הטמעות ב-Vertex AI יכולים ליצור הטמעות אופטימליות לסוגים שונים של משימות, כמו אחזור מסמכים, מענה לשאלות ואימות עובדות. סוגי המשימות הם תוויות שמבצעות אופטימיזציה להטמעות שהמודל יוצר על סמך תרחיש השימוש המיועד. במאמר הזה מוסבר איך לבחור את סוג המשימה האופטימלי להטמעות שלכם.

מודלים נתמכים

המודלים הבאים תומכים בסוגי משימות:

  • text-embedding-005
  • text-multilingual-embedding-002
  • gemini-embedding-001

היתרונות של סוגי משימות

סוגי המשימות יכולים לשפר את האיכות של ההטמעות שנוצרות על ידי מודל הטמעות.

השאלות והתשובות לא דומות מבחינה סמנטית
איור 1. השאלות והתשובות לא דומות מבחינה סמנטית, ולכן לא ניתן להציג את הקשר ביניהן באופן אוטומטי באמצעות הטמעה.

לדוגמה, כשבונים מערכות של יצירה משופרת באמצעות אחזור (RAG), נהוג להשתמש בהטמעות טקסט ובחיפוש וקטורי כדי לבצע חיפוש של דמיון. במקרים מסוימים, זה עלול להוביל לירידה באיכות החיפוש, כי השאלות והתשובות לא דומות מבחינה סמנטית. לדוגמה, לשאלה 'למה השמיים כחולים?' ולתשובה 'הפיזור של אור השמש גורם לצבע הכחול' יש משמעויות שונות בתור הצהרות, ולכן מערכת RAG לא תזהה אוטומטית את הקשר ביניהן, כפי שמוצג באיור 1. בלי סוגי משימות, מפתח RAG צריך לאמן את המודל כדי ללמוד את הקשר בין שאילתות לתשובות. זה דורש מיומנויות וניסיון מתקדמים במדעי הנתונים, או להשתמש בהרחבת שאילתות מבוססת-LLM או ב-HyDE, שיכולים להוביל לזמן אחזור גבוה ולעלויות גבוהות.

סוג המשימה מקרב בין השאלות והתשובות במרחב ההטבעות
איור 2. סוגי המשימות מבצעים אופטימיזציה של ההטמעות למשימות ספציפיות. במקרה כזה, השאלות והתשובות יהיו קרובות יותר זו לזו במרחב ההטמעה.

סוגי המשימות מאפשרים לכם ליצור הטמעות שעברו אופטימיזציה למשימות ספציפיות, וכך לחסוך את הזמן והעלות של פיתוח הטמעות משלכם שמותאמות למשימות. ההטמעה שנוצרת לשאילתה 'למה השמיים כחולים?' ולתשובה שלה 'פיזור אור השמש גורם לצבע הכחול' תהיה במרחב ההטמעה המשותף שמייצג את הקשר ביניהן, כפי שמוצג באיור 2. בדוגמה הזו של RAG, ההטמעות שעברו אופטימיזציה יובילו לחיפושים משופרים של דמיון.

בנוסף לתרחיש השימוש של שאילתות ותשובות, סוגי המשימות מספקים גם מרחב הטמעה שעבר אופטימיזציה למשימות כמו סיווג, אשכולות ואימות עובדות.

סוגי המשימות הנתמכים

מודלים של הטמעות שמשתמשים בסוגי משימות תומכים בסוגי המשימות הבאים:

סוג המשימה תיאור
CLASSIFICATION המודל משמש ליצירת הטמעות שעברו אופטימיזציה לסיווג טקסטים לפי תוויות שהוגדרו מראש
CLUSTERING המודל משמש ליצירת הטמעות שעברו אופטימיזציה כדי לאגד טקסטים על סמך הדמיון ביניהם
RETRIEVAL_DOCUMENT, RETRIEVAL_QUERY, QUESTION_ANSWERING וגם FACT_VERIFICATION משמש ליצירת הטמעות שממוטבות לחיפוש מסמכים או לאחזור מידע
CODE_RETRIEVAL_QUERY משמש לאחזור בלוק קוד על סמך שאילתה בשפה טבעית, כמו sort an array או reverse a linked list. הטמעות של בלוקי הקוד מחושבות באמצעות RETRIEVAL_DOCUMENT.
SEMANTIC_SIMILARITY משמש ליצירת הטמעות שעברו אופטימיזציה להערכת הדמיון בין טקסטים. התכונה הזו לא מיועדת לתרחישי שימוש של אחזור.

סוג המשימה הכי טוב ליצירת הטמעות תלוי בתרחיש השימוש שלכם בהטמעות. לפני שבוחרים סוג משימה, צריך להגדיר את תרחיש השימוש בהטמעות.

הגדרת תרחיש השימוש של הטמעות

תרחישים לדוגמה לשימוש בהטמעות בדרך כלל משתייכים לאחת מארבע קטגוריות: הערכת הדמיון בין טקסטים, סיווג טקסטים, אשכול טקסטים או אחזור מידע מטקסטים. אם תרחיש השימוש שלכם לא נכלל באף אחת מהקטגוריות הקודמות, צריך להשתמש בברירת המחדל של סוג המשימה RETRIEVAL_QUERY.

יש 2 סוגים של פורמטים להוראות למשימות: פורמט אסימטרי ופורמט סימטרי. תצטרכו להשתמש בפרמטר הנכון בהתאם לתרחיש השימוש.

תרחישי שימוש באחזור
(פורמט אסימטרי)
סוג משימת השאילתה סוג המשימה שקשורה למסמך
שאילתת חיפוש RETRIEVAL_QUERY RETRIEVAL_DOCUMENT
מענה לשאלות QUESTION_ANSWERING
בדיקת עובדות FACT_VERIFICATION
שליפת קוד CODE_RETRIEVAL_QUERY



תרחישי שימוש עם קלט יחיד
(פורמט סימטרי)
סוג משימת קלט
סיווג סיווג
סידור באשכולות אשכולות
דמיון סמנטי
(אין להשתמש בתרחישי אחזור;
מיועד ל-STS)
SEMANTIC_SIMILARITY

סיווג טקסטים

אם רוצים להשתמש בהטמעות כדי לסווג טקסטים לפי תוויות שהוגדרו מראש, צריך להשתמש בסוג המשימה CLASSIFICATION. סוג המשימה הזה יוצר הטמעות במרחב הטמעות שעבר אופטימיזציה לסיווג.

לדוגמה, נניח שאתם רוצים ליצור הטמעות של פוסטים ברשתות החברתיות, כדי שתוכלו להשתמש בהן לסיווג הסנטימנט שלהם כחיובי, שלילי או ניטרלי. כשמטמיעים פוסט ברשתות החברתיות שבו כתוב "אני לא אוהב/ת לטוס", הסנטימנט יסווג כסנטימנט שלילי.

טקסטים של אשכול

אם רוצים להשתמש בהטמעות כדי לאגד טקסטים על סמך הדמיון ביניהם, צריך להשתמש בסוג המשימה CLUSTERING. סוג המשימה הזה יוצר הטמעות שממוטבות לקיבוץ על סמך הדמיון שלהן.

לדוגמה, נניח שאתם רוצים ליצור הטבעות של כתבות חדשות כדי להציג למשתמשים כתבות שקשורות לנושאים שהם קראו בעבר. אחרי שההטמעות נוצרות ומקובצות, אפשר להציע למשתמשים שקוראים הרבה על ספורט מאמרים נוספים שקשורים לספורט.

הנה עוד כמה תרחישי שימוש באשכולות:

  • פילוח לקוחות: קיבוץ לקוחות עם הטמעות דומות שנוצרו מהפרופילים או מהפעילויות שלהם, לצורך שיווק ממוקד וחוויות מותאמות אישית.
  • פילוח מוצרים: קיבוץ של הטמעות מוצרים על סמך שם המוצר והתיאור שלו, תמונות המוצר או ביקורות הלקוחות יכול לעזור לעסקים לבצע ניתוח פילוח של המוצרים שלהם.
  • מחקר שוק: אפשר להשתמש בהטמעות של נתונים מסקרים של צרכנים או נתונים מהמדיה החברתית כדי לגלות דפוסים ומגמות נסתרים בדעות, בהעדפות ובהתנהגויות של הצרכנים. כך אפשר לשפר את מאמצי מחקר השוק ולתכנן אסטרטגיות לפיתוח מוצרים.
  • בריאות: אשכולות של הטמעות של מטופלים שנגזרות מנתונים רפואיים יכולים לעזור לזהות קבוצות עם מצבים דומים או תגובות דומות לטיפול, וכך להוביל לתוכניות בריאות מותאמות אישית יותר ולטיפולים ממוקדים יותר.
  • מגמות במשוב מלקוחות: קיבוץ של משוב מלקוחות מערוצים שונים (סקרים, רשתות חברתיות, כרטיסי תמיכה) יכול לעזור לזהות בעיות נפוצות, בקשות לתכונות ותחומים לשיפור המוצר.

אחזור מידע מהודעות טקסט

כשמפתחים מערכת חיפוש או אחזור, עובדים עם שני סוגים של טקסט:

  • Corpus: אוסף המסמכים שרוצים לחפש בהם.
  • שאילתה: הטקסט שהמשתמש מספק כדי לחפש מידע במאגר.

כדי לקבל את הביצועים הכי טובים, צריך להשתמש בסוגים שונים של משימות כדי ליצור הטבעות עבור הקורפוס והשאילתות.

קודם כל, יוצרים הטמעות לכל אוסף המסמכים. זה התוכן שיוחזר על ידי שאילתות משתמשים. כשמטמיעים את המסמכים האלה, צריך להשתמש בסוג המשימה RETRIEVAL_DOCUMENT. בדרך כלל מבצעים את השלב הזה פעם אחת כדי ליצור אינדקס של כל הקורפוס, ואז מאחסנים את ההטבעות שמתקבלות במסד נתונים וקטורי.

לאחר מכן, כשמשתמש שולח חיפוש, אתם יוצרים הטמעה של טקסט השאילתה בזמן אמת. לשם כך, צריך להשתמש בסוג משימה שתואם לכוונה של המשתמש. לאחר מכן, המערכת תשתמש בהטמעה של השאילתה כדי למצוא את הטמעות המסמכים הכי דומות במסד הנתונים הווקטורי.

סוגי המשימות הבאים משמשים לשאילתות:

  • RETRIEVAL_QUERY: משתמשים בזה לשאילתת חיפוש רגילה שבה רוצים למצוא מסמכים רלוונטיים. המודל מחפש הטמעות של מסמכים שקרובות מבחינה סמנטית להטמעה של השאילתה.
  • QUESTION_ANSWERING: משתמשים בזה כשכל השאילתות צפויות להיות שאלות תקינות, כמו 'למה השמיים כחולים?' או 'איך קושרים שרוכים?'.
  • FACT_VERIFICATION: משתמשים בזה כשרוצים לאחזר מסמך מהמאגר כדי להוכיח או להפריך טענה. לדוגמה, השאילתה 'apples grow underground' (תפוחים גדלים מתחת לאדמה) עשויה להחזיר מאמר על תפוחים, שבסופו של דבר יפריך את הטענה.

כדאי לעיין בתרחיש הבא מהעולם האמיתי שבו שאילתות אחזור יכולות להיות שימושיות:

  • בפלטפורמת מסחר אלקטרוני, כדאי להשתמש בהטמעות כדי לאפשר למשתמשים לחפש מוצרים באמצעות שאילתות טקסט ותמונות, וכך לספק חוויית קנייה אינטואיטיבית ומושכת יותר.
  • אתם רוצים לבנות פלטפורמה חינוכית עם מערכת מענה לשאלות, שתענה על שאלות של תלמידים על סמך תוכן של ספרי לימוד או מקורות מידע חינוכיים, תספק חוויות למידה בהתאמה אישית ותעזור לתלמידים להבין מושגים מורכבים.

שליפת קוד

text-embedding-005 תומך בסוג חדש של משימות CODE_RETRIEVAL_QUERY, שאפשר להשתמש בו כדי לאחזר בלוקים רלוונטיים של קוד באמצעות שאילתות בטקסט פשוט. כדי להשתמש בתכונה הזו, צריך להטמיע בלוקים של קוד באמצעות RETRIEVAL_DOCUMENT מסוג task, ולהטמיע שאילתות טקסט באמצעות CODE_RETRIEVAL_QUERY.

כדי לראות את כל סוגי המשימות, אפשר לעיין בחומר העזר בנושא המודלים.

לדוגמה:

REST

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/text-embedding-005:predict -d \
$'{ 
  "instances": [
    {
      "task_type": "CODE_RETRIEVAL_QUERY",
      "content": "Function to add two numbers"
    }
  ],
}'

Python

במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.

from vertexai.language_models import TextEmbeddingInput, TextEmbeddingModel

MODEL_NAME = "gemini-embedding-001"
DIMENSIONALITY = 3072


def embed_text(
    texts: list[str] = ["Retrieve a function that adds two numbers"],
    task: str = "CODE_RETRIEVAL_QUERY",
    model_name: str = "gemini-embedding-001",
    dimensionality: int | None = 3072,
) -> list[list[float]]:
    """Embeds texts with a pre-trained, foundational model."""
    model = TextEmbeddingModel.from_pretrained(model_name)
    kwargs = dict(output_dimensionality=dimensionality) if dimensionality else {}

    embeddings = []
    # gemini-embedding-001 takes one input at a time
    for text in texts:
        text_input = TextEmbeddingInput(text, task)
        embedding = model.get_embeddings([text_input], **kwargs)
        print(embedding)
        # Example response:
        # [[0.006135190837085247, -0.01462465338408947, 0.004978656303137541, ...]]
        embeddings.append(embedding[0].values)

    return embeddings


if __name__ == "__main__":
    # Embeds code block with a pre-trained, foundational model.
    # Using this function to calculate the embedding for corpus.
    texts = ["Retrieve a function that adds two numbers"]
    task = "CODE_RETRIEVAL_QUERY"
    code_block_embeddings = embed_text(
        texts=texts, task=task, model_name=MODEL_NAME, dimensionality=DIMENSIONALITY
    )

    # Embeds code retrieval with a pre-trained, foundational model.
    # Using this function to calculate the embedding for query.
    texts = [
        "def func(a, b): return a + b",
        "def func(a, b): return a - b",
        "def func(a, b): return (a ** 2 + b ** 2) ** 0.5",
    ]
    task = "RETRIEVAL_DOCUMENT"
    code_query_embeddings = embed_text(
        texts=texts, task=task, model_name=MODEL_NAME, dimensionality=DIMENSIONALITY
    )

הערכת הדמיון בין טקסטים

אם רוצים להשתמש בהטמעות כדי להעריך את הדמיון בין טקסטים, צריך להשתמש בSEMANTIC_SIMILARITY סוג המשימה. סוג המשימה הזה יוצר הטמעות שעברו אופטימיזציה ליצירת ציוני דמיון.

לדוגמה, נניח שאתם רוצים ליצור הטבעות כדי להשוות את הדמיון בין הטקסטים הבאים:

  • החתול ישן
  • החתול ישן

כשמשתמשים בהטמעות כדי ליצור ציון דמיון, ציון הדמיון גבוה כי לשני הטקסטים יש כמעט אותה משמעות.

כדאי לעיין בתרחישים הבאים מהעולם האמיתי שבהם הערכת הדמיון בין קלט לקלט יכולה להיות שימושית:

  • במערכת המלצות, אתם רוצים לזהות פריטים (למשל, מוצרים, מאמרים, סרטים) שדומים מבחינה סמנטית לפריטים המועדפים על המשתמש, כדי לספק המלצות בהתאמה אישית ולשפר את שביעות הרצון של המשתמש.

המגבלות הבאות חלות כשמשתמשים במודלים האלה:

  • אל תשתמשו במודלים האלה של תצוגה מקדימה במערכות קריטיות או במערכות ייצור.
  • הדגמים האלה זמינים רק בus-central1.
  • אין תמיכה בחיזויים באצווה.
  • התאמה אישית לא אפשרית.

המאמרים הבאים