בחירת פונקציה לעיבוד מסמכים

במסמך הזה מוצגות השוואה בין הפונקציות לעיבוד מסמכים שזמינות ב-BigQuery ML:‏ AI.GENERATE_TEXT ו-ML.PROCESS_DOCUMENT. המידע במאמר הזה יכול לעזור לכם להחליט באיזו פונקציה להשתמש במקרים שבהם יש חפיפה בין היכולות של הפונקציות.

ככלל, ההבדל בין הפונקציות האלה הוא:

  • AI.GENERATE_TEXT הוא בחירה טובה לביצוע משימות של עיבוד שפה טבעית (NLP) שבהן חלק מהתוכן נמצא במסמכים. הפונקציה הזו מציעה את היתרונות הבאים:

    • עלויות נמוכות יותר
    • תמיכה בשפות נוספות
    • תפוקה מהירה יותר
    • יכולת כוונון המודל
    • זמינות של מודלים מולטימודאליים

    דוגמאות למשימות עיבוד מסמכים שמתאימות במיוחד לגישה הזו מופיעות במאמר עיבוד מסמכים באמצעות Gemini API.

  • ML.PROCESS_DOCUMENT הוא בחירה טובה לביצוע משימות של עיבוד מסמכים שדורשות ניתוח מסמכים ותשובה מובנית ומוגדרת מראש.

השוואה בין פונקציות

הטבלה הבאה משווה בין הפונקציות AI.GENERATE_TEXT ו-ML.PROCESS_DOCUMENT:

AI.GENERATE_TEXT ML.PROCESS_DOCUMENT
מטרה

לבצע כל משימה שקשורה למסמך באמצעות עיבוד שפה טבעית (NLP) על ידי העברת הנחיה אל מודל Gemini או מודל של שותף או אל מודל פתוח.

לדוגמה, אם יש לכם מסמך פיננסי של חברה, אתם יכולים לאחזר מידע מהמסמך באמצעות הנחיה כמו What is the quarterly revenue for each division?.

אפשר להשתמש ב-Document AI API כדי לבצע עיבוד מיוחד של מסמכים מסוגים שונים, כמו חשבוניות, טפסי מס ודוחות כספיים. אפשר גם לבצע חלוקה לקטעים של מסמך.
חיוב

השימוש ב-BigQuery ML כרוך בחיובים על עיבוד נתונים. מידע נוסף זמין במאמר בנושא תמחור BigQuery ML.

השימוש במודל כרוך בחיובים ב-Vertex AI. אם אתם משתמשים במודל Gemini 2.0 ומעלה, החיוב על השיחה הוא לפי התעריף של Batch API. מידע נוסף מפורט במאמר עלות הפיתוח והפריסה של מודלים של AI ב-Vertex AI.

השימוש ב-BigQuery ML כרוך בחיובים על עיבוד נתונים. מידע נוסף זמין במאמר בנושא תמחור BigQuery ML.

השימוש ב-Document AI API כרוך בתשלום. מידע נוסף זמין במחירון של Document AI API.

בקשות לדקה (RPM) לא רלוונטי למודלים של Gemini. בין 25 ל-60 למודלים של השותפים. מידע נוסף זמין במאמר בנושא מגבלות על מספר הבקשות בדקה. ‫120 RPM לכל סוג מעבד, עם מגבלה כוללת של 600 RPM לכל פרויקט. מידע נוסף זמין במאמר רשימת המכסות.
טוקנים בדקה הטווח הוא מ-8,192 ועד יותר ממיליון, בהתאם למודל שבו משתמשים. אין מגבלת טוקנים. עם זאת, יש מגבלות שונות על מספר הדפים בפונקציה הזו, בהתאם למעבד שבו אתם משתמשים. מידע נוסף זמין במאמר בנושא מגבלות.
כוונון בפיקוח כוונון בפיקוח נתמך בחלק מהמודלים. לא נתמך.
שפות נתמכות התמיכה משתנה בהתאם למודל השפה הגדול שתבחרו. התמיכה בשפה תלויה בסוג מעבד המסמכים. רובם תומכים רק באנגלית. מידע נוסף זמין במאמר בנושא רשימת המעבדים.
אזורים נתמכים נתמך בכל האזורים של AI גנרטיבי ב-Vertex AI. נתמך באזורים הגיאוגרפיים EU ו-US שכוללים מספר אזורים, בכל המעבדים. חלק מהמעבדים זמינים גם באזורים מסוימים. מידע נוסף זמין במאמר תמיכה אזורית ותמיכה במספר אזורים.