אתם יכולים להוסיף תמונות לבקשות מ-Gemini כדי לבצע משימות שכוללות הבנה של התוכן בתמונות. בדף הזה מוסבר איך להוסיף תמונות לבקשות ל-Gemini ב-Vertex AI באמצעות מסוףGoogle Cloud Vertex AI API.
מודלים נתמכים
בטבלה הבאה מפורטים המודלים שתומכים בהבנת תמונות:
| מודלים | פרטי מדיה | סוגי MIME |
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
רשימת השפות שנתמכות במודלים של Gemini מופיעה במידע על המודלים מודלים של Google. מידע נוסף על עיצוב הנחיות ל-multimodal אם אתם מחפשים דרך להשתמש ב-Gemini ישירות מהאפליקציות לנייד ומאפליקציות האינטרנט שלכם, כדאי לעיין בערכות ה-SDK של Firebase AI Logic ללקוחות לאפליקציות Swift, Android, Web, Flutter ו-Unity.
הוספת תמונות לבקשה
אתם יכולים להוסיף תמונה אחת או כמה תמונות לבקשה שלכם מ-Gemini.
תמונה יחידה
בכל אחת מהכרטיסיות הבאות מוצג קוד לדוגמה שמראה דרך שונה לזהות מה יש בתמונה. הדוגמה הזו פועלת עם כל המודלים של Gemini multimodal.
המסוף
כדי לשלוח הנחיה מולטימודלית באמצעות מסוף Google Cloud :בקטע Vertex AI במסוף Google Cloud , עוברים לדף Vertex AI Studio.
לוחצים על פתיחת טופס חופשי.
אופציונלי: מגדירים את המודל והפרמטרים:
- מודל: בוחרים מודל.
- אזור: בוחרים את האזור שבו רוצים להשתמש.
טמפרטורה: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך של טמפרטורה.
רמת האקראיות משמשת לדגימה במהלך יצירת התגובה, שמתרחשת כשמחילים את
topPואתtopK. הטמפרטורה שולטת במידת האקראיות בבחירת האסימון. טמפרטורות נמוכות טובות להנחיות שדורשות תשובה פחות פתוחה או יצירתית, ואילו טמפרטורות גבוהות יכולות להוביל לתוצאות יותר מגוונות או יצירתיות. רמת אקראיות של0פירושה שהאסימונים עם ההסתברות הכי גבוהה תמיד נבחרים. במקרה כזה, התשובות להנחיה נתונה הן ברובן דטרמיניסטיות, אבל עדיין יכולות להיות וריאציות קלות.אם המודל מחזיר תשובה כללית מדי, קצרה מדי או תשובת ברירת מחדל, נסו להגדיל את רמת האקראיות. אם המודל נכנס ליצירה אינסופית, יכול להיות שהעלאת רמת האקראיות ל-
0.1לפחות תוביל לתוצאות טובות יותר.1.0הוא ערך הטמפרטורה המומלץ להתחלה.מגבלת טוקנים בפלט: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך למגבלת הפלט המקסימלית.
מספר האסימונים המקסימלי שאפשר ליצור בתשובה. טוקן הוא בערך ארבעה תווים. 100 טוקנים תואמים בערך ל-60 עד 80 מילים.
כדי לקבל תשובות קצרות יותר, מציינים ערך נמוך יותר, וכדי לקבל תשובות ארוכות יותר, מציינים ערך גבוה יותר.
הוספת רצף עצירות: אופציונלי. מזינים רצף עצירה, שהוא סדרה של תווים שכוללת רווחים. אם המודל נתקל ברצף עצירה, יצירת התשובה נפסקת. רצף העצירות לא נכלל בתגובה, ואפשר להוסיף עד חמישה רצפי עצירות.
אופציונלי: כדי להגדיר פרמטרים מתקדמים, לוחצים על מתקדם ומגדירים את הפרמטרים הבאים:
לוחצים כדי להרחיב את ההגדרות המתקדמות
Top-K: השתמשו בפס ההזזה או בתיבת הטקסט כדי להזין ערך ל-Top-K. (לא נתמך ב-Gemini 1.5).
השינוי של Top-K משפיע על האופן שבו המודל בוחר אסימונים לפלט. ערך של Top-K של1אומר שהאסימון הבא שנבחר הוא האסימון הסביר ביותר מבין כל האסימונים באוצר המילים של המודל (נקרא גם פענוח חמדני), בעוד שערך של Top-K של3אומר שהאסימון הבא נבחר מבין שלושת האסימונים הסבירים ביותר באמצעות רמת אקראיות.בכל שלב של בחירת אסימון, המערכת דוגמת את האסימונים המובילים מתוך K האסימונים עם ההסתברות הכי גבוהה. לאחר מכן, הטוקנים מסוננים עוד יותר על סמך Top-P, והטוקן הסופי נבחר באמצעות דגימת רמת אקראיות.
מציינים ערך נמוך יותר כדי לקבל תשובות פחות אקראיות, וערך גבוה יותר כדי לקבל תשובות יותר אקראיות.
- Top-P: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך ל-top-P.
האסימונים נבחרים מההסתברות הגבוהה ביותר לנמוכה ביותר עד שסכום ההסתברויות שלהם שווה לערך של top-P. כדי לקבל תוצאות עם הכי פחות שונות,
מגדירים את top-P ל-
0. - מספר מקסימלי של תשובות: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך למספר התשובות שרוצים ליצור.
- הצגת התשובות כשהן מוכנות: אם מפעילים את ההגדרה הזו, התשובות יוצגו כשהן מוכנות.
- סף מסנן הבטיחות: בוחרים את הסף של הסבירות לקבלת תשובות שעלולות להיות מזיקות.
- הפעלת Grounding: אין תמיכה ב-Grounding בהנחיות מולטימודאליות.
לוחצים על הוספת מדיה ובוחרים מקור לקובץ.
העלאה
בוחרים את הקובץ שרוצים להעלות ולוחצים על פתיחה.
לפי כתובת URL
מזינים את כתובת ה-URL של הקובץ שבו רוצים להשתמש ולוחצים על הוספה.
Cloud Storage
בוחרים את הדלי ואז את הקובץ מהדלי שרוצים לייבא ולוחצים על בחירה.
Google Drive
- בפעם הראשונה שבוחרים באפשרות הזו, צריך לבחור חשבון ולתת ל-Vertex AI Studio הסכמה לגשת לחשבון. אפשר להעלות כמה קבצים בו-זמנית, וגודלם הכולל צריך להיות עד 10MB. הגודל של כל קובץ לא יכול לחרוג מ-7MB.
- לוחצים על הקובץ שרוצים להוסיף.
לוחצים על בחירה.
התמונה הממוזערת של הקובץ מוצגת בחלונית ההנחיה. מוצג גם המספר הכולל של הטוקנים. אם נתוני ההנחיה חורגים ממגבלת הטוקנים, הטוקנים נחתכים ולא נכללים בעיבוד הנתונים.
מזינים את הנחיית הטקסט בחלונית הנחיה.
אופציונלי: כדי לראות את מזהה האסימון לטקסט ואת מזהי האסימונים, לוחצים על ספירת האסימונים בחלונית הנחיה.
לוחצים על שליחה.
אופציונלי: כדי לשמור את ההנחיה בההנחיות שלי, לוחצים על שמירה.
אופציונלי: כדי לקבל את קוד Python או פקודת curl להנחיה, לוחצים על קבלת קוד.
Python
התקנה
pip install --upgrade google-genai
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Go
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
התקנה
npm install @google/genai
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
כך מתקינים או מעדכנים את Java.
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
אחרי הגדרת הסביבה, אפשר להשתמש ב-REST כדי לבדוק הנחיית טקסט. בדוגמה הבאה נשלחת בקשה לנקודת הקצה של מודל בעל התוכן הדיגיטלי.
אפשר לכלול תמונות שמאוחסנות ב-Cloud Storage או להשתמש בנתוני תמונה שמקודדים ב-base64.תמונה ב-Cloud Storage
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
PROJECT_ID: מזהה הפרויקט. -
FILE_URI: ה-URI או כתובת ה-URL של הקובץ שרוצים לכלול בהנחיה. הערכים הקבילים כוללים את האפשרויות הבאות:- URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
gemini-2.0-flashו-gemini-2.0-flash-lite, מגבלת הגודל היא 2 GB. - כתובת URL מסוג HTTP: כתובת ה-URL של הקובץ חייבת להיות קריאה לכולם. אפשר לציין קובץ סרטון אחד, קובץ אודיו אחד ועד 10 קובצי תמונות לכל בקשה. הגודל המקסימלי של קובצי אודיו, קובצי וידאו ומסמכים הוא 15 MB.
- כתובת URL של סרטון ב-YouTube: הסרטון ב-YouTube צריך להיות בבעלות החשבון שבו השתמשתם כדי להיכנס אל Google Cloud המסוף, או להיות גלוי לכולם. אפשר לציין רק כתובת URL אחת של סרטון ב-YouTube לכל בקשה.
כשמציינים
fileURI, צריך לציין גם את סוג המדיה (mimeType) של הקובץ. אם שירות VPC Service Controls מופעל, ציון כתובת URL של קובץ מדיה עבורfileURIאינו נתמך.אם אין לכם קובץ תמונה ב-Cloud Storage, אתם יכולים להשתמש בקובץ הבא שזמין לציבור:
gs://cloud-samples-data/generative-ai/image/scones.jpgעם סוג MIME שלimage/jpeg. כדי לראות את התמונה הזו, צריך לפתוח את קובץ התמונה לדוגמה. - URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
-
MIME_TYPE: סוג המדיה של הקובץ שצוין בשדותdataאוfileUri. הערכים הקבילים כוללים את האפשרויות הבאות:לחיצה להרחבת סוגי MIME
application/pdfaudio/mpegaudio/mp3audio/wavimage/pngimage/jpegimage/webptext/plainvideo/movvideo/mpegvideo/mp4video/mpgvideo/avivideo/wmvvideo/mpegpsvideo/flv
-
TEXT: הוראות הטקסט שצריך לכלול בהנחיה. לדוגמה,What is shown in this image?
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
cat > request.json << 'EOF'
{
"contents": {
"role": "USER",
"parts": [
{
"fileData": {
"fileUri": "FILE_URI",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT"
}
]
}
}
EOFלאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
@'
{
"contents": {
"role": "USER",
"parts": [
{
"fileData": {
"fileUri": "FILE_URI",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT"
}
]
}
}
'@ | Out-File -FilePath request.json -Encoding utf8לאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
נתוני תמונה ב-Base64
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
-
LOCATION: האזור שבו תתבצע הבקשה. צריך להזין אזור נתמך. כאן מפורטת רשימת האזורים הנתמכים.כאן אפשר ללחוץ כדי להרחיב רשימה חלקית של אזורים זמינים
us-central1us-west4northamerica-northeast1us-east4us-west1asia-northeast3asia-southeast1asia-northeast1
-
PROJECT_ID: מזהה הפרויקט. -
קידוד base64 של התמונה, קובץ ה-PDF או הסרטון שרוצים לכלול בהנחיה. כשמצרפים מדיה בתוך השורה, צריך לציין גם את סוג המדיה (B64_BASE_IMAGE
mimeType) של הנתונים. -
MIME_TYPE: סוג המדיה של הקובץ שצוין בשדותdataאוfileUri. הערכים הקבילים כוללים את האפשרויות הבאות:לחיצה להרחבת סוגי MIME
application/pdfaudio/mpegaudio/mp3audio/wavimage/pngimage/jpegimage/webptext/plainvideo/movvideo/mpegvideo/mp4video/mpgvideo/avivideo/wmvvideo/mpegpsvideo/flv
-
TEXT: הוראות הטקסט שצריך לכלול בהנחיה. לדוגמה:What is shown in this image?.
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
cat > request.json << 'EOF'
{
"contents": {
"role": "USER",
"parts": [
{
"inlineData": {
"data": "B64_BASE_IMAGE",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT"
}
]
}
}
EOFלאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
@'
{
"contents": {
"role": "USER",
"parts": [
{
"inlineData": {
"data": "B64_BASE_IMAGE",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT"
}
]
}
}
'@ | Out-File -FilePath request.json -Encoding utf8לאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
- משתמשים בשיטה
generateContentכדי לבקש שהתשובה תוחזר אחרי שהיא נוצרה במלואה. כדי לצמצם את תפיסת זמן האחזור בקרב קהל אנושי, צריך להזרים את התשובה בזמן שהיא נוצרת באמצעות השיטהstreamGenerateContent. - מזהה המודל הרב-אופני מופיע בסוף כתובת ה-URL לפני השיטה
(לדוגמה,
gemini-2.0-flash). יכול להיות שהדוגמה הזו תתמוך גם במודלים אחרים. - כשמשתמשים בנקודת קצה אזורית ל-API (לדוגמה,
us-central1), האזור מכתובת ה-URL של נקודת הקצה קובע איפה הבקשה תעובד. המערכת מתעלמת מכל מיקום שיוצר התנגשות בנתיב המשאב.
כמה תמונות
בכל אחת מהכרטיסיות הבאות מוצגת דרך אחרת לכלול כמה תמונות בבקשת הנחיה. כל דוגמה מקבלת שתי קבוצות של הקלטים הבאים:
- תמונה של ציון דרך פופולרי בעיר
- סוג המדיה של התמונה
- טקסט שמציין את העיר ואת נקודת הציון בתמונה
הדוגמה כוללת גם תמונה שלישית וסוג מדיה, אבל לא טקסט. הדוגמה מחזירה תשובה בטקסט שמציינת את העיר ואת נקודת הציון בתמונה השלישית.
דוגמאות התמונות האלה פועלות עם כל המודלים של Gemini multimodal.
המסוף
כדי לשלוח הנחיה מולטימודלית באמצעות מסוף Google Cloud :בקטע Vertex AI במסוף Google Cloud , עוברים לדף Vertex AI Studio.
לוחצים על פתיחת טופס חופשי.
אופציונלי: מגדירים את המודל והפרמטרים:
- מודל: בוחרים מודל.
- אזור: בוחרים את האזור שבו רוצים להשתמש.
טמפרטורה: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך של טמפרטורה.
רמת האקראיות משמשת לדגימה במהלך יצירת התגובה, שמתרחשת כשמחילים את
topPואתtopK. הטמפרטורה שולטת במידת האקראיות בבחירת האסימון. טמפרטורות נמוכות טובות להנחיות שדורשות תשובה פחות פתוחה או יצירתית, ואילו טמפרטורות גבוהות יכולות להוביל לתוצאות יותר מגוונות או יצירתיות. רמת אקראיות של0פירושה שהאסימונים עם ההסתברות הכי גבוהה תמיד נבחרים. במקרה כזה, התשובות להנחיה נתונה הן ברובן דטרמיניסטיות, אבל עדיין יכולות להיות וריאציות קלות.אם המודל מחזיר תשובה כללית מדי, קצרה מדי או תשובת ברירת מחדל, נסו להגדיל את רמת האקראיות. אם המודל נכנס ליצירה אינסופית, יכול להיות שהעלאת רמת האקראיות ל-
0.1לפחות תוביל לתוצאות טובות יותר.1.0הוא ערך הטמפרטורה המומלץ להתחלה.מגבלת טוקנים בפלט: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך למגבלת הפלט המקסימלית.
מספר האסימונים המקסימלי שאפשר ליצור בתשובה. טוקן הוא בערך ארבעה תווים. 100 טוקנים תואמים בערך ל-60 עד 80 מילים.
כדי לקבל תשובות קצרות יותר, מציינים ערך נמוך יותר, וכדי לקבל תשובות ארוכות יותר, מציינים ערך גבוה יותר.
הוספת רצף עצירות: אופציונלי. מזינים רצף עצירה, שהוא סדרה של תווים שכוללת רווחים. אם המודל נתקל ברצף עצירה, יצירת התשובה נפסקת. רצף העצירות לא נכלל בתגובה, ואפשר להוסיף עד חמישה רצפי עצירות.
אופציונלי: כדי להגדיר פרמטרים מתקדמים, לוחצים על מתקדם ומגדירים את הפרמטרים הבאים:
לוחצים כדי להרחיב את ההגדרות המתקדמות
Top-K: השתמשו בפס ההזזה או בתיבת הטקסט כדי להזין ערך ל-Top-K. (לא נתמך ב-Gemini 1.5).
השינוי של Top-K משפיע על האופן שבו המודל בוחר אסימונים לפלט. ערך של Top-K של1אומר שהאסימון הבא שנבחר הוא האסימון הסביר ביותר מבין כל האסימונים באוצר המילים של המודל (נקרא גם פענוח חמדני), בעוד שערך של Top-K של3אומר שהאסימון הבא נבחר מבין שלושת האסימונים הסבירים ביותר באמצעות רמת אקראיות.בכל שלב של בחירת אסימון, המערכת דוגמת את האסימונים המובילים מתוך K האסימונים עם ההסתברות הכי גבוהה. לאחר מכן, הטוקנים מסוננים עוד יותר על סמך Top-P, והטוקן הסופי נבחר באמצעות דגימת רמת אקראיות.
מציינים ערך נמוך יותר כדי לקבל תשובות פחות אקראיות, וערך גבוה יותר כדי לקבל תשובות יותר אקראיות.
- Top-P: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך ל-top-P.
האסימונים נבחרים מההסתברות הגבוהה ביותר לנמוכה ביותר עד שסכום ההסתברויות שלהם שווה לערך של top-P. כדי לקבל תוצאות עם הכי פחות שונות,
מגדירים את top-P ל-
0. - מספר מקסימלי של תשובות: משתמשים בפס ההזזה או בתיבת הטקסט כדי להזין ערך למספר התשובות שרוצים ליצור.
- הצגת התשובות כשהן מוכנות: אם מפעילים את ההגדרה הזו, התשובות יוצגו כשהן מוכנות.
- סף מסנן הבטיחות: בוחרים את הסף של הסבירות לקבלת תשובות שעלולות להיות מזיקות.
- הפעלת Grounding: אין תמיכה ב-Grounding בהנחיות מולטימודאליות.
לוחצים על הוספת מדיה ובוחרים מקור לקובץ.
העלאה
בוחרים את הקובץ שרוצים להעלות ולוחצים על פתיחה.
לפי כתובת URL
מזינים את כתובת ה-URL של הקובץ שבו רוצים להשתמש ולוחצים על הוספה.
Cloud Storage
בוחרים את הדלי ואז את הקובץ מהדלי שרוצים לייבא ולוחצים על בחירה.
Google Drive
- בפעם הראשונה שבוחרים באפשרות הזו, צריך לבחור חשבון ולתת ל-Vertex AI Studio הסכמה לגשת לחשבון. אפשר להעלות כמה קבצים בו-זמנית, וגודלם הכולל צריך להיות עד 10MB. הגודל של כל קובץ לא יכול לחרוג מ-7MB.
- לוחצים על הקובץ שרוצים להוסיף.
לוחצים על בחירה.
התמונה הממוזערת של הקובץ מוצגת בחלונית ההנחיה. מוצג גם המספר הכולל של הטוקנים. אם נתוני ההנחיה חורגים ממגבלת הטוקנים, הטוקנים נחתכים ולא נכללים בעיבוד הנתונים.
מזינים את הנחיית הטקסט בחלונית הנחיה.
אופציונלי: כדי לראות את מזהה האסימון לטקסט ואת מזהי האסימונים, לוחצים על ספירת האסימונים בחלונית הנחיה.
לוחצים על שליחה.
אופציונלי: כדי לשמור את ההנחיה בההנחיות שלי, לוחצים על שמירה.
אופציונלי: כדי לקבל את קוד Python או פקודת curl להנחיה, לוחצים על קבלת קוד.
Python
התקנה
pip install --upgrade google-genai
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Go
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
התקנה
npm install @google/genai
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
כך מתקינים או מעדכנים את Java.
מידע נוסף מופיע ב מאמרי העזרה בנושא SDK.
מגדירים משתני סביבה כדי להשתמש ב-Gen AI SDK עם Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
אחרי הגדרת הסביבה, אפשר להשתמש ב-REST כדי לבדוק הנחיית טקסט. בדוגמה הבאה נשלחת בקשה לנקודת הקצה של מודל בעל התוכן הדיגיטלי.
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
PROJECT_ID: .-
FILE_URI1: ה-URI או כתובת ה-URL של הקובץ שרוצים לכלול בהנחיה. הערכים הקבילים כוללים את האפשרויות הבאות:- URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
gemini-2.0-flashו-gemini-2.0-flash-lite, מגבלת הגודל היא 2 GB. - כתובת URL מסוג HTTP: כתובת ה-URL של הקובץ חייבת להיות קריאה לכולם. אפשר לציין קובץ סרטון אחד, קובץ אודיו אחד ועד 10 קובצי תמונות לכל בקשה. הגודל המקסימלי של קובצי אודיו, קובצי וידאו ומסמכים הוא 15 MB.
- כתובת URL של סרטון ב-YouTube: הסרטון ב-YouTube צריך להיות בבעלות החשבון שבו השתמשתם כדי להיכנס אל Google Cloud המסוף, או להיות גלוי לכולם. אפשר לציין רק כתובת URL אחת של סרטון ב-YouTube לכל בקשה.
כשמציינים
fileURI, צריך לציין גם את סוג המדיה (mimeType) של הקובץ. אם שירות VPC Service Controls מופעל, ציון כתובת URL של קובץ מדיה עבורfileURIאינו נתמך.אם אין לכם קובץ תמונה ב-Cloud Storage, אתם יכולים להשתמש בקובץ הבא שזמין לציבור:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark1.pngעם סוג MIME שלimage/png. כדי לראות את התמונה הזו, צריך לפתוח את קובץ התמונה לדוגמה. - URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
-
MIME_TYPE: סוג המדיה של הקובץ שצוין בשדותdataאוfileUri. הערכים הקבילים כוללים את האפשרויות הבאות: כדי לפשט את הדברים, בדוגמה הזו נעשה שימוש באותו סוג מדיה לכל שלוש תמונות הקלט.לחיצה להרחבת סוגי MIME
application/pdfaudio/mpegaudio/mp3audio/wavimage/pngimage/jpegimage/webptext/plainvideo/movvideo/mpegvideo/mp4video/mpgvideo/avivideo/wmvvideo/mpegpsvideo/flv
-
TEXT1: הוראות הטקסט שצריך לכלול בהנחיה. לדוגמה,city: Rome, Landmark: the Colosseum -
FILE_URI2: ה-URI או כתובת ה-URL של הקובץ שרוצים לכלול בהנחיה. הערכים הקבילים כוללים את האפשרויות הבאות:- URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
gemini-2.0-flashו-gemini-2.0-flash-lite, מגבלת הגודל היא 2 GB. - כתובת URL מסוג HTTP: כתובת ה-URL של הקובץ חייבת להיות קריאה לכולם. אפשר לציין קובץ סרטון אחד, קובץ אודיו אחד ועד 10 קובצי תמונות לכל בקשה. הגודל המקסימלי של קובצי אודיו, קובצי וידאו ומסמכים הוא 15 MB.
- כתובת URL של סרטון ב-YouTube: הסרטון ב-YouTube צריך להיות בבעלות החשבון שבו השתמשתם כדי להיכנס אל Google Cloud המסוף, או להיות גלוי לכולם. אפשר לציין רק כתובת URL אחת של סרטון ב-YouTube לכל בקשה.
כשמציינים
fileURI, צריך לציין גם את סוג המדיה (mimeType) של הקובץ. אם שירות VPC Service Controls מופעל, ציון כתובת URL של קובץ מדיה עבורfileURIאינו נתמך.אם אין לכם קובץ תמונה ב-Cloud Storage, אתם יכולים להשתמש בקובץ הבא שזמין לציבור:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark2.pngעם סוג MIME שלimage/png. כדי לראות את התמונה הזו, צריך לפתוח את קובץ התמונה לדוגמה. - URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
-
TEXT2: הוראות הטקסט שצריך לכלול בהנחיה. לדוגמה,city: Beijing, Landmark: Forbidden City -
FILE_URI3: ה-URI או כתובת ה-URL של הקובץ שרוצים לכלול בהנחיה. הערכים הקבילים כוללים את האפשרויות הבאות:- URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
gemini-2.0-flashו-gemini-2.0-flash-lite, מגבלת הגודל היא 2 GB. - כתובת URL מסוג HTTP: כתובת ה-URL של הקובץ חייבת להיות קריאה לכולם. אפשר לציין קובץ סרטון אחד, קובץ אודיו אחד ועד 10 קובצי תמונות לכל בקשה. הגודל המקסימלי של קובצי אודיו, קובצי וידאו ומסמכים הוא 15 MB.
- כתובת URL של סרטון ב-YouTube: הסרטון ב-YouTube צריך להיות בבעלות החשבון שבו השתמשתם כדי להיכנס אל Google Cloud המסוף, או להיות גלוי לכולם. אפשר לציין רק כתובת URL אחת של סרטון ב-YouTube לכל בקשה.
כשמציינים
fileURI, צריך לציין גם את סוג המדיה (mimeType) של הקובץ. אם שירות VPC Service Controls מופעל, ציון כתובת URL של קובץ מדיה עבורfileURIאינו נתמך.אם אין לכם קובץ תמונה ב-Cloud Storage, אתם יכולים להשתמש בקובץ הבא שזמין לציבור:
gs://cloud-samples-data/vertex-ai/llm/prompts/landmark3.pngעם סוג MIME שלimage/png. כדי לראות את התמונה הזו, צריך לפתוח את קובץ התמונה לדוגמה. - URI של קטגוריה של Cloud Storage: האובייקט צריך להיות ניתן לקריאה באופן ציבורי או להיות באותו פרויקט Google Cloud ששולח את הבקשה. במקרה של
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
cat > request.json << 'EOF'
{
"contents": {
"role": "USER",
"parts": [
{
"fileData": {
"fileUri": "FILE_URI1",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT1"
},
{
"fileData": {
"fileUri": "FILE_URI2",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT2"
},
{
"fileData": {
"fileUri": "FILE_URI3",
"mimeType": "MIME_TYPE"
}
}
]
}
}
EOFלאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json.
כדי ליצור או להחליף את הקובץ הזה בספרייה הנוכחית, מריצים את הפקודה הבאה בטרמינל:
@'
{
"contents": {
"role": "USER",
"parts": [
{
"fileData": {
"fileUri": "FILE_URI1",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT1"
},
{
"fileData": {
"fileUri": "FILE_URI2",
"mimeType": "MIME_TYPE"
}
},
{
"text": "TEXT2"
},
{
"fileData": {
"fileUri": "FILE_URI3",
"mimeType": "MIME_TYPE"
}
}
]
}
}
'@ | Out-File -FilePath request.json -Encoding utf8לאחר מכן מבצעים את הפקודה הבאה כדי לשלוח את בקשת ה-REST:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
שימו לב לפרטים הבאים בכתובת ה-URL של הדוגמה הזו:- משתמשים בשיטה
generateContentכדי לבקש שהתשובה תוחזר אחרי שהיא נוצרה במלואה. כדי לצמצם את תפיסת זמן האחזור בקרב קהל אנושי, צריך להזרים את התשובה בזמן שהיא נוצרת באמצעות השיטהstreamGenerateContent. - מזהה המודל הרב-אופני מופיע בסוף כתובת ה-URL לפני השיטה
(לדוגמה,
gemini-2.0-flash). יכול להיות שהדוגמה הזו תתמוך גם במודלים אחרים. - כשמשתמשים בנקודת קצה אזורית ל-API (לדוגמה,
us-central1), האזור מכתובת ה-URL של נקודת הקצה קובע איפה הבקשה תעובד. המערכת מתעלמת מכל מיקום שיוצר התנגשות בנתיב המשאב.
הגדרת פרמטרים אופציונליים של המודל
לכל מודל יש קבוצה של פרמטרים אופציונליים שאפשר להגדיר. מידע נוסף זמין במאמר בנושא פרמטרים של יצירת תוכן.
טוקניזציה של תמונות
במודלים של Gemini 3, טוקניזציה של תמונות משתמשת באורך רצף משתנה, שמחליף את שיטת Pan and Scan ששימשה במודלים קודמים, כדי לשפר את האיכות והחביון.
אתם יכולים לציין רזולוציה של מדיה לקלט של תמונות וקובצי PDF, מה שמשפיע על האופן שבו התמונות עוברות טוקניזציה ועל מספר הטוקנים שמשמשים לכל תמונה.
אפשר להגדיר את media_resolution ב-generationConfig כדי להחיל רזולוציה של low, medium או high על כל המדיה בבקשה, או להגדיר רזולוציה לחלקים ספציפיים של המדיה, וכך לשנות את ההגדרה ברמת העל. ultra_high אפשר להגדיר את הרזולוציה רק לחלקים נפרדים של מדיה.
הרזולוציות הבאות זמינות למודלים של Gemini 3:
-
MEDIA_RESOLUTION_ULTRA_HIGH: 2,240 טוקנים לתמונות -
MEDIA_RESOLUTION_HIGH: 1,120 אסימונים לתמונות ולקובצי PDF -
MEDIA_RESOLUTION_MEDIUM: 560 אסימונים לתמונות ולקובצי PDF -
MEDIA_RESOLUTION_LOW: 280 אסימונים לתמונות ולקובצי PDF -
MEDIA_RESOLUTION_UNSPECIFIED: 1,120 אסימונים לתמונות ו-560 אסימונים לקובצי PDF (ברירת מחדל)
מספר הטוקנים הבא רלוונטי ל-Gemini 3 Pro Image:
- תמונות קלט: 560 טוקנים לכל תמונה
- תמונות בפלט:
- רזולוציה של 1K: 1,120 טוקנים לכל תמונה (ברירת מחדל)
- רזולוציית 2K: 1,120 טוקנים לכל תמונה
- רזולוציית 4K: 2,000 טוקנים לכל תמונה
במודלים מגרסה מוקדמת יותר מ-Gemini 3, כל תמונה מעובדת באמצעות Pan and Scan (הזזה וסריקה) ועולה 258 טוקנים.
בדוגמת הקוד הזו אפשר לראות איך משנים את media_resolution:
from google import genai from google.genai import types client = genai.Client() response = client.models.generate_content( model="gemini-3-pro-preview", contents=[ types.Part( file_data=types.FileData( file_uri="gs://cloud-samples-data/generative-ai/image/a-man-and-a-dog.png", mime_type="image/jpeg", ), media_resolution=types.PartMediaResolution( level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_HIGH ), ), Part( file_data=types.FileData( file_uri="gs://cloud-samples-data/generative-ai/video/behind_the_scenes_pixel.mp4", mime_type="video/mp4", ), media_resolution=types.PartMediaResolution( level=types.PartMediaResolutionLevel.MEDIA_RESOLUTION_LOW ), ), "When does the image appear in the video? What is the context?", ], ) print(response.text)
שיטות מומלצות
כדי לקבל את התוצאות הטובות ביותר כשמשתמשים בתמונות, כדאי לפעול לפי השיטות המומלצות והמידע הבאים:
- אם רוצים לזהות טקסט בתמונה, כדאי להשתמש בהנחיות עם תמונה אחת כדי לקבל תוצאות טובות יותר מאשר בהנחיות עם כמה תמונות.
- אם ההנחיה כוללת תמונה אחת, צריך למקם את התמונה לפני הנחיית הטקסט בבקשה.
- אם ההנחיה מכילה כמה תמונות, ואתם רוצים להתייחס אליהן בהמשך ההנחיה או שהמודל יתייחס אליהן בתשובה שלו, כדאי לתת לכל תמונה אינדקס לפני התמונה. משתמשים ב-
או ב-abc לאינדקס. הדוגמה הבאה מראה איך משתמשים בתמונות עם אינדקס בהנחיה:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - מומלץ להשתמש בתמונות ברזולוציה גבוהה יותר כדי לקבל תוצאות טובות יותר.
- כדאי לכלול כמה דוגמאות בהנחיה.
- מסובבים את התמונות לכיוון הנכון לפני שמוסיפים אותן להנחיה.
- אל תשתמשו בתמונות מטושטשות.
מגבלות
מודלים מולטי-מודאליים של Gemini הם עוצמתיים במקרים רבים של תרחישי שימוש מולטי-מודאליים, אבל חשוב להבין את המגבלות של המודלים:
- בדיקת תוכן: המודלים מסרבים לספק תשובות לגבי תמונות שמפירות את מדיניות הבטיחות שלנו.
- היגיון מרחבי: המודלים לא מדויקים באיתור טקסט או אובייקטים בתמונות. יכול להיות שהם יחזירו רק את המספרים המשוערים של האובייקטים.
- שימושים רפואיים: המודלים לא מתאימים לפרשנות של תמונות רפואיות (לדוגמה, צילומי רנטגן וטומוגרפיה ממוחשבת) או למתן ייעוץ רפואי.
- זיהוי אנשים: המודלים לא מיועדים לזיהוי אנשים שאינם מפורסמים בתמונות.
- דיוק: יכול להיות שהמודלים יפיקו הזיות או יעשו טעויות כשמנתחים תמונות באיכות נמוכה, תמונות מסובבות או תמונות ברזולוציה נמוכה מאוד. יכול להיות שהמודלים גם יפיקו הזיות כשהם מפרשים טקסט בכתב יד במסמכי תמונות.
המאמרים הבאים
- התחילו לפתח באמצעות מודלים רב-אופניים של Gemini – לקוחות חדשים מקבלים קרדיט בשווי 300 $בחינם Google Cloud כדי לבדוק מה אפשר לעשות עם Gemini.
- איך שולחים בקשות להנחיות בצ'אט
- מידע על שיטות מומלצות לאתיקה של בינה מלאכותית ועל מסנני האבטחה של Vertex AI