יצירת הטמעות

בחירת גרסת תיעוד:

התוסף google_ml_integration כולל פונקציות להטמעה בשני מרחבי שמות שונים: public ו-google_ml. בדף הזה מוסבר איך ליצור הטמעות של טקסט באמצעות פונקציות ממרחבי השמות האלה.

אפשר להשתמש בפונקציה embedding() בסכימה public עם כל מודל הטמעה של Vertex AI בלי לרשום את נקודת הקצה. אם רוצים להעביר מידע מותאם אישית כמו סוג המשימה, צריך לרשום את נקודת הקצה ואז להשתמש בפונקציה google_ml.embedding() בסכימה google_ml. מידע נוסף על רישום נקודת קצה זמין במאמר רישום מודל.

איך הטמעות עובדות

נניח שיש מסד נתונים שפועל ב-AlloyDB Omni עם המאפיינים הבאים:

  • מסד הנתונים מכיל טבלה, items. כל שורה בטבלה הזו מתארת פריט שהעסק שלכם מוכר.

  • הטבלה items מכילה עמודה, complaints. בעמודה TEXT הזו מאוחסנות תלונות של קונים שנרשמו לגבי כל פריט.

  • מסד הנתונים משולב עם Vertex AI Model Garden, ולכן יש לו גישה למודלים gemini-embedding-001 באנגלית.

למרות שבמסד הנתונים הזה מאוחסנות תלונות על פריטים, התלונות האלה מאוחסנות כטקסט פשוט, ולכן קשה לבצע עליהן שאילתות. לדוגמה, כדי לראות אילו פריטים קיבלו הכי הרבה תלונות מלקוחות שקיבלו את הצבע הלא נכון של המוצר, אפשר להריץ שאילתות SQL רגילות בטבלה, שמחפשות התאמות שונות למילות מפתח. עם זאת, הגישה הזו מתאימה רק לשורות שמכילות את מילות המפתח המדויקות האלה.

לדוגמה, שאילתת SQL בסיסית כמו SELECT * FROM item WHERE complaints LIKE "%wrong color%" לא מחזירה שורה שבה השדה complaints מכיל רק את הערך The picture shows a blue one, but the one I received was red.

שאילתות SQL שמבוססות על הטמעות מבוססות-LLM יכולות לעזור להחזיר תשובות דומות מבחינה סמנטית לשאילתות כאלה. באמצעות הטמעות, אפשר לשלוח שאילתה לטבלה בדוגמה הזו כדי למצוא פריטים שהתלונות לגביהם דומות מבחינה סמנטית להנחיית טקסט נתונה, כמו It was the wrong color.

כדי ליצור הטמעה בסיסית, בוחרים אחת מהסכימות הבאות.

לפני שמתחילים

כדי לאפשר ל-AlloyDB Omni ליצור הטמעות:

  • מריצים את AlloyDB Omni ומתחברים אליו בתור המשתמש postgres.
  • מוודאים שהתוסף google_ml_integration מותקן.

    CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE;

    אם אין לכם את ההרשאות הנדרשות, אתם צריכים לפנות לאדמין של מסד הנתונים כדי לבצע את העדכון. אפשרות אחרת היא לחכות עד שהגרסה החדשה תופעל באופן אוטומטי באשכול.

  • מוודאים שהדגל google_ml_integration.enable_model_support מוגדר לערך on.
  • כדי ליצור הטמעות ממסד נתונים של AlloyDB Omni, צריך להגדיר את AlloyDB Omni כך שיפעל עם Vertex AI.
  • נותנים הרשאות למשתמשי מסד הנתונים להפעיל את פונקציית ההטמעה כדי ליצור הטמעות:

    \c 'DB_NAME';
    GRANT EXECUTE ON FUNCTION google_ml.embedding TO 'USER_NAME';

    מחליפים את מה שכתוב בשדות הבאים:

    • DB_NAME: שם מסד הנתונים שצריך להעניק לו הרשאות
    • USER_NAME: השם של המשתמש שרוצים להעניק לו הרשאות

יצירת הטמעות

משתמשים בפונקציית ה-SQL‏ google_ml.embedding() כדי להפעיל מודלים להטמעת טקסט.

כדי להפעיל את המודל וליצור הטמעות, מריצים את השאילתה הבאה:

SELECT
 google_ml.embedding(
   model_id => 'MODEL_ID',
   content => 'CONTENT');

מחליפים את מה שכתוב בשדות הבאים:

  • MODEL_ID: מזהה המודל המוסמך – לדוגמה, gemini-embedding-001.
  • CONTENT: הטקסט שרוצים לתרגם להטמעה וקטורית.

דוגמאות ליצירת הטמעות

בקטע הזה מופיעות כמה דוגמאות ליצירת הטמעות באמצעות נקודת קצה של מודל רשום.

מודלים של Gemini להטמעה

כדי ליצור הטמעות לנקודת קצה של מודל gemini-embedding-001 רשום, מריצים את ההצהרה הבאה:

   SELECT
     google_ml.embedding(
       model_id => 'gemini-embedding-001',
       content => 'AlloyDB is a managed, cloud-hosted SQL database service');

אם אשכול AlloyDB Omni ונקודת הקצה של Vertex AI נמצאים בפרויקטים שונים, צריך לבצע את הפעולות הבאות:

  1. מריצים את ההצהרה הבאה של CALL.

       CALL
         google_ml.create_model(
           model_id => 'gemini-embedding-001',
           model_request_url => 'https://REGION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION_ID/publishers/google/models/gemini-embedding-001:predict',
           model_provider => 'google',
           model_type => 'text_embedding',
           model_auth_type => 'alloydb_service_agent_iam',
           model_in_transform_fn => 'google_ml.vertexai_text_embedding_input_transform',
           model_out_transform_fn => 'google_ml.vertexai_text_embedding_output_transform'
         );
    
  2. כדי ליצור הטמעות לנקודת קצה של מודל gemini-embedding-001 רשום, מריצים את ההצהרה הבאה:

      SELECT
        google_ml.embedding(
          model_id => 'gemini-embedding-001',
          content => 'AlloyDB is a managed, cloud-hosted SQL database service');
    

מודל הטמעה של OpenAI

כדי ליצור הטמעות עבור נקודת קצה של מודל text-embedding-ada-002 רשום של OpenAI, מריצים את ההצהרה הבאה:

   SELECT
     google_ml.embedding(
       model_id => 'text-embedding-ada-002',
       content => 'e-mail spam');

כדי ליצור הטמעות לנקודות קצה של מודלים רשומים text-embedding-3-small או text-embedding-3-large של OpenAI, מריצים את ההצהרה הבאה:

 SELECT
   google_ml.embedding(
     model_id => 'text-embedding-3-small',
     content => 'Vector embeddings in AI');

המאמרים הבאים