מילון מונחים של AI גנרטיבי
במילון המונחים הזה מוגדרים מונחים שקשורים לבינה מלאכותית (AI) גנרטיבית.
סוכני AI
סוכן AI הוא אפליקציה שמשיגה מטרה על ידי עיבוד קלט, ביצוע חשיבה רציונלית באמצעות כלים זמינים וביצוע פעולות על סמך ההחלטות שלה. סוכני AI משתמשים בקריאה לפונקציה כדי לעצב את הקלט ולוודא אינטראקציות מדויקות עם כלים חיצוניים. בתרשים הבא מוצגים הרכיבים של סוכן AI:
כפי שמוצג בתרשים שלמעלה, סוכני AI מורכבים מהרכיבים הבאים:
- תזמור: שכבת התזמור של סוכן מנהלת את הזיכרון, המצב וקבלת ההחלטות על ידי שליטה בתוכנית, בשימוש בכלי ובזרימת הנתונים. התיזמור כולל את הרכיבים הבאים:
- פרופיל והוראות: הסוכן מקבל תפקיד או אישיות ספציפיים כדי להנחות את הפעולות וההחלטות שלו.
- זיכרון: כדי לשמור על ההקשר והמצב, לסוכן יש זיכרון לטווח קצר וזיכרון לטווח ארוך. הזיכרון לטווח קצר מכיל את ההקשר המיידי ואת המידע שדרושים למשימה הנוכחית. הזיכרון לטווח ארוך שומר את היסטוריית השיחות המלאה.
- חשיבה רציונלית ותכנון: ה-Agent משתמש במודל כדי לבצע פירוק של המשימה ורפלקציה, ואז הוא יוצר תוכנית. קודם, הסוכן מפריד את ההנחיה של המשתמש לרכיבי משנה כדי לטפל במשימות מורכבות באמצעות קריאה לפונקציה אחת או יותר. לאחר מכן, הסוכן משתמש בהסקה ומשוב כדי לשפר את התגובה.
- מודל: כל מודל שפה גנרטיבי שמעבד יעדים, יוצר תוכניות ומפיק תשובות. כדי להשיג ביצועים אופטימליים, מודל צריך לתמוך בבקשה להפעלת פונקציה, ולהיות מאומן עם חתימות נתונים מכלי או משלבי חשיבה רציונלית.
- כלים: אוסף של כלים, כולל ממשקי API, שירותים או פונקציות, שמחלצים נתונים ומבצעים פעולות או עסקאות. כלים מאפשרים לסוכנים לבצע פעולות לגבי נתונים ושירותים חיצוניים.
ביישומים שדורשים קבלת החלטות אוטונומית, ניהול מורכב של תהליכי עבודה מרובי-שלבים או חוויות מותאמות, סוכני AI מניבים ביצועים טובים יותר ממודלים בסיסיים רגילים. סוכנים מצטיינים בפתרון בעיות בזמן אמת באמצעות נתונים חיצוניים, ובאוטומציה של משימות שדורשות ידע רב. היכולות האלה מאפשרות לסוכן לספק תוצאות טובות יותר מאלה של יכולות פסיביות של יצירת טקסט במודלים בסיסיים.
חלון ההקשר
חלון הקשר הוא מספר הטוקנים שמודל בסיסי יכול לעבד בהנחיה מסוימת. חלון הקשר גדול יותר מאפשר למודל לגשת ליותר מידע ולעבד אותו, וכך לקבל תשובות עקביות, רלוונטיות ומקיפות יותר.
מודלים של Gemini נוצרו במיוחד עם חלונות הקשר ארוכים כדי להתמודד עם כמויות גדולות יותר של מידע. כדי לתת לכם מושג לגבי סדר הגודל, מודל עם חלון הקשר של מיליון טוקנים יכול לעבד כל אחת מהכניסות הבאות:
- 50,000 שורות קוד (עם 80 תווים בכל שורה, כפי שמוגדר כברירת מחדל)
- כל הודעות הטקסט ששלחתם ב-5 השנים האחרונות
- 8 רומנים באנגלית באורך ממוצע
- תמלילים של יותר מ-200 פרקים של פודקאסטים באורך ממוצע
- שעה של וידאו בלי אודיו
- סרטון באורך של כ-45 דקות עם אודיו
- 9.5 שעות של אודיו
מידע נוסף על שיטות מומלצות ליצירת הנחיות עם הקשר ארוך זמין במאמר בנושא הקשר ארוך.
הטמעה
הטמעה היא ייצוג מספרי של נתונים, כמו טקסט, תמונות או סרטונים, שמתעד קשרים בין קלטים שונים. הטמעות נוצרות במהלך שלב האימון של מודל על ידי המרת טקסט, תמונה ווידאו למערכים של מספרים ממשיים שנקראים וקטורים. הטמעות לרוב מפחיתות את המימדיות של הנתונים, מה שעוזר לשפר את היעילות החישובית ולאפשר את העיבוד של מערכי נתונים גדולים. הורדת הממד הזו חיונית לאימון ולפריסה של מודלים מורכבים.
מודלים של למידת מכונה (ML) צריכים נתונים בפורמט שהם יכולים לעבד. הטמעות עומדות בדרישה הזו על ידי מיפוי נתונים למרחב וקטורי רציף, שבו קרבה גדולה יותר משקפת נקודות נתונים עם משמעויות דומות. הטמעות מאפשרות למודלים להבחין בדפוסים ובקשרים מורכבים שמוסתרים בנתונים גולמיים.
לדוגמה, מודלים גדולים של שפה (LLM) מסתמכים על הטמעה כדי להבין את ההקשר והמשמעות של טקסט. ההבנה הזו מאפשרת למודל השפה הגדול ליצור תשובות עקביות ורלוונטיות. בתהליך יצירת התמונות, ההטמעות מתעדות את התכונות החזותיות של התמונות, וכך המודלים יכולים ליצור פלטים מציאותיים ומגוונים.
מערכות שמשתמשות ביצירה משופרת באחזור (RAG) מסתמכות על הטמעות כדי להתאים בין שאילתות של משתמשים לבין ידע רלוונטי. כשמציגים שאילתה, היא מומרת להטמעה, ואז היא מושווית להטמעות של מסמכים שנמצאים במאגר הידע. ההשוואה הזו, שמתבצעת באמצעות חיפושים של דמיון במרחב הווקטורי, מאפשרת למערכת לאחזר את המידע הרלוונטי ביותר מבחינה סמנטית.
מידע נוסף על הטמעת מודלים ועל תרחישי שימוש זמין במאמר סקירה כללית על Embedding APIs.
מודל בסיס
מודלים בסיסיים הם מודלים גדולים ועוצמתיים שעוברים אימון על כמויות עצומות של נתונים, שלעתים קרובות כוללים מגוון רחב של פורמטים כמו טקסט, תמונות, וידאו ואודיו. המודלים האלה משתמשים במודלים סטטיסטיים כדי לחזות תשובות סבירות להנחיות וליצור תוכן חדש. הם לומדים דפוסים מנתוני האימון שלהם, כמו דפוסי שפה ליצירת טקסט וטכניקות דיפוזיה ליצירת תמונות.
Google מציעה מגוון של מודלים בסיסיים של AI גנרטיבי שאפשר לגשת אליהם באמצעות API מנוהל. כדי לגשת למודלים הבסיסיים שזמינים ב- Google Cloud, משתמשים ב-Model Garden של Vertex AI.
בקשה להפעלת פונקציה
קריאה לפונקציות היא תכונה שמקשרת מודלים גדולים של שפה (LLM) לכלים חיצוניים כמו ממשקי API ופונקציות, כדי לשפר את התשובות של ה-LLM. התכונה הזו מאפשרת למודלים גדולים של שפה להשתמש בידע דינמי ולשפר את התגובות באמצעות מידע ושירותים בזמן אמת, כמו מסדי נתונים, מערכות לניהול קשרי לקוחות ומאגרי מסמכים.
כדי להשתמש בבקשה להפעלת פונקציה, צריך לספק למודל קבוצה של פונקציות. לאחר מכן, כשמזינים הנחיה למודל, המודל יכול לבחור את הפונקציות ולהפעיל אותן על סמך הבקשה. המודל מנתח את ההנחיה ואז יוצר נתונים מובְנים שמציינים איזו פונקציה להפעיל ואת ערכי הפרמטרים. הפלט של הנתונים המובְנים קורא לפונקציה ואז מחזיר את התוצאות למודל. המודל משלב את התוצאות בתהליך החשיבה הרציונלית שלו כדי ליצור תשובה. התהליך הזה מאפשר למודל לגשת למידע שחורג מהידע הפנימי שלו ולהשתמש בו, וכך לבצע משימות שדורשות נתונים חיצוניים או עיבוד נתונים.
קריאה לפונקציה היא רכיב קריטי בארכיטקטורה של סוכני AI. התכונה 'הפעלת פונקציות' מספקת למודל דרך מובנית לציין באיזה כלי להשתמש ואיך לעצב את הקלט, וכך עוזרת להבטיח אינטראקציות מדויקות עם מערכות חיצוניות.
מידע נוסף על שימוש בפונקציות ב-Gemini זמין במאמר מבוא לשימוש בפונקציות.
בינה מלאכותית גנרטיבית
AI גנרטיבי הוא סוג של AI שחורג מהמיקוד המסורתי של AI בסיווג ובחיזוי. מודלים מסורתיים של AI לומדים מנתונים קיימים כדי לסווג מידע או כדי לחזות תוצאות עתידיות על סמך תבניות היסטוריות. AI גנרטיבי משתמש במודלים בסיסיים כדי ליצור תוכן חדש כמו טקסט, תמונות, אודיו או סרטונים. התוכן החדש הזה נוצר על ידי למידת הדפוסים והסגנון הבסיסיים של נתוני האימון, מה שמאפשר למודל ליצור פלט שדומה לנתונים שעליהם הוא אומן.
מתי כדאי להשתמש ב-AI גנרטיבי ותרחישי שימוש ב-AI גנרטיבי בעסקים
עיגון בנתונים
הארקה היא תהליך של קישור הפלט של מודל למקורות מידע שניתנים לאימות. המקורות האלה יכולים לספק מידע מעשי שרלוונטי להקשר, כמו מסמכים פנימיים של החברה, נתונים שקשורים לפרויקט או רשומות של תקשורת. ההארקה עוזרת לשפר את הדיוק, המהימנות והשימושיות של תוצאות ה-AI, כי היא מספקת למודל גישה למקורות נתונים ספציפיים. ההארקה מפחיתה את הסיכוי להזיות – מקרים שבהם המודל יוצר תוכן לא עובדתי. סוג נפוץ של ביסוס הוא יצירה עם שליפה משופרת (RAG), שכוללת שליפה של מידע חיצוני רלוונטי כדי לשפר את התגובות של המודל.
מידע נוסף על עיגון באמצעות חיפוש Google זמין במאמר סקירה כללית על עיגון.
מודל שפה גדול (LLM)
מודל שפה גדול (LLM) הוא מודל בסיסי מבוסס-טקסט שעבר אימון על כמות עצומה של נתונים. מודלי שפה גדולים משמשים לביצוע משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום אוטומטי, סיכום טקסט ומענה לשאלות. לפעמים משתמשים במונח LLM לסירוגין עם מודלים בסיסיים. עם זאת, מודלים של LLM מבוססים על טקסט, בעוד שמודלים בסיסיים יכולים לעבור אימון ולקבל קלט ממגוון קטגוריות, כולל טקסט, תמונות, אודיו ווידאו.
כדי ללמוד את הדפוסים והקשרים בשפה, מודלים של שפה גדולה (LLM) משתמשים בשיטות כמו למידת חיזוק וכוונון עדין של הוראות. כשמעצבים הנחיות, חשוב לקחת בחשבון את הגורמים השונים שיכולים להשפיע על התגובות של המודל.
זמן אחזור
זמן האחזור הוא הזמן שלוקח למודל לעבד הנחיית קלט וליצור תשובה. כשבודקים את זמן האחזור של מודל, חשוב לשים לב לדברים הבאים:
- הזמן שחלף עד ליצירת הטוקן הראשון (TTFT): הזמן שנדרש למודל כדי ליצור את הטוקן הראשון של התגובה אחרי שהוא מקבל את ההנחיה. זמן התגובה חשוב לאפליקציות סטרימינג שבהן רוצים לקבל משוב מיידי.
- הזמן עד לטוקן האחרון (TTLT): משך הזמן הכולל שלוקח למודל לעבד את ההנחיה וליצור את התשובה המלאה.
במאמר בנושא שיטות מומלצות לשימוש במודלים גדולים של שפה (LLM) אפשר לקרוא מידע נוסף על צמצום זמן האחזור.
הנדסת הנחיות
הנדסת הנחיות היא תהליך איטרטיבי של יצירת הנחיה וגישה לתשובה של המודל כדי לקבל את התשובה הרצויה. כתיבת הנחיות מובנות היטב יכולה להיות חלק חשוב בהבטחת תשובות מדויקות ואיכותיות ממודל שפה.
אלה טכניקות נפוצות שאפשר להשתמש בהן כדי לשפר את התשובות:
- הנחיות בלי דוגמאות (zero-shot prompting): יצירת הנחיה ללא דוגמאות והסתמכות על הידע הקיים של המודל.
- הנחיות עם דוגמה אחת (one-shot prompting): מספקים דוגמה אחת בהנחיה כדי להנחות את התשובה של המודל.
- הנחיות עם כמה דוגמאות (few-shot prompting): מספקים כמה דוגמאות בהנחיה כדי להדגים את התבנית או המשימה הרצויות.
כשמספקים למודל דוגמאות, עוזרים לשלוט בהיבטים של התשובה של המודל, כמו עיצוב, ניסוח, היקף ודפוסים כלליים. הנחיות יעילות עם מעט דוגמאות משלבות הוראות ברורות עם דוגמאות ספציפיות ומגוונות. חשוב לערוך ניסויים כדי לקבוע את מספר הדוגמאות האופטימלי. מספר קטן מדי של דוגמאות לא יספק מספיק הנחיות, אבל מספר גדול מדי של דוגמאות עלול לגרום למודל להתאים יתר על המידה לדוגמאות ולא להצליח להכליל היטב.
מידע נוסף על שיטות מומלצות לכתיבת הנחיות זמין במאמר בנושא סקירה כללית של אסטרטגיות לכתיבת הנחיות.
הנחיות
הנחיה היא בקשה בשפה טבעית שנשלחת למודל AI גנרטיבי כדי לקבל תגובה. בהתאם למודל, ההנחיה יכולה להכיל טקסט, תמונות, סרטונים, אודיו, מסמכים וקטגוריות אחרות, או אפילו כמה קטגוריות (מולטי-מודאלי).
הנחיה יעילה מורכבת מתוכן וממבנה. התוכן מספק את כל המידע הרלוונטי למשימה, כמו הוראות, דוגמאות והקשר. המבנה מבטיח ניתוח יעיל באמצעות ארגון, כולל סדר, תוויות ותוחמים. בהתאם לפלט שרוצים, כדאי לשקול רכיבים נוספים.
פרמטרים של מודל
פרמטרים של מודל הם משתנים פנימיים שמשמשים מודל כדי לקבוע איך הוא מעבד נתוני קלט ואיך הוא יוצר פלטים. במהלך האימון, אפשר לשנות את הפרמטרים של המודל, כמו משקל והטיה, כדי לבצע אופטימיזציה של הביצועים שלו. במהלך ההסקה, אפשר להשפיע על הפלט של המודל באמצעות פרמטרים שונים של הנחיות, אבל זה לא משנה ישירות את הפרמטרים של המודל שנלמד.
אלה כמה מפרמטרים של הנחיות שמשפיעים על יצירת תוכן ב-Gemini API ב-Vertex AI:
-
temperature: רמת האקראיות משנה את האקראיות של בחירת הטוקנים במהלך יצירת התגובה, ומשפיעה על היצירתיות והצפיות של הפלט. הערך שלtemperatureנע בין0לבין1. טמפרטורות נמוכות יותר (קרובות יותר ל-0) יוצרות תוצאות דטרמיניסטיות וצפויות יותר. טמפרטורות גבוהות יותר (קרובות יותר ל-1) יוצרות טקסט מגוון ויצירתי יותר, אבל התוצאות עשויות להיות פחות קוהרנטיות. -
topP: הפרמטר Top-P משנה את האופן שבו המודל דוגם ובוחר אסימונים לפלט. השיטה Top-P בוחרת את קבוצת הטוקנים הקטנה ביותר שההסתברות המצטברת שלהם גבוהה מסף מסוים, אוp, ואז דוגמת מההתפלגות הזו. הערך שלtopPנע בין0לבין1. לדוגמה, אם לטוקנים A, B ו-C יש הסתברות של 0.3, 0.2 ו-0.1, והערך שלtopPהוא0.5, המודל יבחר ב-A או ב-B כטוקן הבא באמצעות רמת אקראיות, והוא לא יכלול את C כמועמד. -
topK: ההגדרה Top-K משנה את האופן שבו המודל דוגם ובוחר אסימונים לפלט. Top-K בוחר את הטוקנים שהכי סביר מבחינה סטטיסטית שישמשו ליצירת תשובה. הערך שלtopKמייצג מספר של טוקנים מ-1עד40, שהמודל יבחר מתוכם לפני שהוא ייצור תשובה. לדוגמה, אם ההסתברות של הטוקנים A, B, C ו-D היא 0.6, 0.5, 0.2 ו-0.1, והערך של top-K הוא3, המודל יבחר את A, B או C כטוקן הבא באמצעות רמת אקראיות, ויפסול את D כמועמד. -
maxOutputTokens: ההגדרהmaxOutputTokensמשנה את המספר המקסימלי של טוקנים שאפשר ליצור בתגובה. ערך נמוך יותר יפיק תשובות קצרות יותר, וערך גבוה יותר יפיק תשובות ארוכות יותר.
מידע נוסף על פרמטרים של דגימה ב-Gemini API ב-Vertex AI זמין במאמר פרמטרים ליצירת תוכן.
יצירה משופרת בעזרת אחזור מידע (RAG)
יצירה משופרת באמצעות אחזור (RAG) היא טכניקה לשיפור האיכות והדיוק של הפלט של מודל שפה גדול (LLM) באמצעות הארקה שלו עם מקורות ידע שאוחזרו אחרי שהמודל אומן. השיטה RAG פותרת בעיות שקיימות במודלים מסוג LLM, כמו אי דיוקים עובדתיים, חוסר גישה למידע עדכני או למידע מיוחד, וחוסר יכולת לציין מקורות. הגישה למידע שנשלף ממסמכים או ממאגרי ידע מהימנים – כולל נתונים שהמודל לא אומן עליהם, נתונים קנייניים או נתונים רגישים שספציפיים למשתמש – מאפשרת למודלים גדולים של שפה (LLM) ליצור תשובות אמינות יותר ורלוונטיות יותר להקשר.
כשמודל שמשתמש ב-RAG מקבל את ההנחיה שלכם, תהליך ה-RAG משלים את השלבים הבאים:
- אחזור: חיפוש נתונים שרלוונטיים להנחיה.
- הגדלה: הוספה של הנתונים שאוחזרו להנחיה.
- יצירה:
- מנחים את מודל ה-LLM ליצור סיכום או תשובה שמבוססים על ההנחיה המשופרת.
- להחזיר את התשובה.
מידע נוסף על Vertex AI ועל RAG זמין במאמר סקירה כללית על Vertex AI RAG Engine.
טוקנים
טוקן הוא יחידת נתונים בסיסית שמודל בסיסי מעבד. מודלים
מפרידים נתונים בהנחיה לטוקנים לצורך עיבוד. קבוצת כל הטוקנים שמשמשים מודל נקראת אוצר מילים. הטוקנים יכולים להיות תו בודד כמו z, מילה שלמה כמו cat או חלק ממילה ארוכה יותר.
מפצלי מילים (Tokenizers) מפרידים מילים ארוכות – כמו מונחים מורכבים או טכניים, מילים מורכבות או מילים עם סימני פיסוק ותווים מיוחדים – לכמה טוקנים. התהליך של פיצול טקסט לטוקנים נקרא טוקניזציה. המטרה של טוקניזציה היא ליצור טוקנים עם משמעות סמנטית שאפשר לשלב מחדש כדי להבין את המילה המקורית. לדוגמה, את המילה "predefined" אפשר לפצל לטוקנים הבאים: "pre", "define", "ed".
טוקנים יכולים לייצג קלט מולטימודאלי כמו תמונות, סרטונים ואודיו. טכניקות של הטמעה הופכות קלט רב-אופני לייצוגים מספריים שהמודל יכול לעבד כטוקנים. אלה החישובים המשוערים של הטוקנים עבור קלט מולטימודאלי לדוגמה, ללא קשר לגודל התצוגה או גודל הקובץ:
- תמונות: 258 טוקנים בסך הכול
- סרטון: 263 טוקנים לשנייה
- אודיו: 32 טוקנים לשנייה
לכל מודל יש מגבלה על מספר הטוקנים שהוא יכול לטפל בהם בהנחיה ובתגובה. בנוסף, עלויות השימוש במודל מחושבות על סמך מספר האסימונים של הקלט והפלט. במאמר רשימה וספירה של טוקנים מוסבר איך מקבלים את מספר הטוקנים של הנחיה שנשלחה למודל Gemini. מידע על העלות של מודלים של AI גנרטיבי ב-Vertex AI זמין במאמר בנושא תמחור ב-Vertex AI.
כוונון
כוונון הוא תהליך של התאמת מודל בסיסי לביצוע משימות ספציפיות ברמת דיוק גבוהה יותר. כדי לבצע כוונון, צריך לשנות חלק מהפרמטרים של המודל או את כולם, או לאמן מודל על מערך נתונים שמכיל דוגמאות שמשחזרות את המשימות והתוצאות הרצויות. התאמה היא תהליך איטרטיבי שיכול להיות מורכב ויקר, אבל יש לו פוטנציאל להניב שיפורים משמעותיים בביצועים. התאמה היא הכי יעילה כשמשתמשים במערך נתונים מתויג עם יותר מ-100 דוגמאות, ורוצים לבצע משימות מורכבות או ייחודיות שטכניקות לכתיבת הנחיות לא מספיקות כדי לבצע אותן.
אלה טכניקות הכוונון שנתמכות ב-Vertex AI:
- כוונון מלא: טכניקה שמעדכנת את כל הפרמטרים של המודל במהלך תהליך הכוונון. התאמה עדינה מלאה יכולה להיות יקרה מבחינת משאבי מחשוב, והיא עשויה לדרוש כמות גדולה של נתונים, אבל יש לה גם פוטנציאל להשיג את רמות הביצועים הגבוהות ביותר, במיוחד במשימות מורכבות.
- כוונון יעיל בפרמטרים: טכניקה שנקראת גם כוונון מתאם. כוונון יעיל בפרמטרים מעדכן חלק מהפרמטרים של המודל במהלך תהליך הכוונון. כוונון יעיל בפרמטרים הוא יעיל יותר מבחינת משאבים ומשתלם יותר בהשוואה לכוונון מלא.
- כוונון בפיקוח: טכניקה שבה המודל עובר אימון על זוגות מתויגים של קלט ופלט. כוונון מפוקח (SFT) משמש בדרך כלל למשימות שכוללות סיווג, תרגום וסיכום.
מידע נוסף על שינוי הגדרות זמין במאמר מבוא לשינוי הגדרות.