בדף הזה מתוארים שלבים לפתרון בעיות שיכולים לעזור לכם אם נתקלתם בבעיות במהלך השימוש בשירותי למידת מכונה בפלטפורמת הסוכנים של Gemini Enterprise.
כדי לסנן את התוכן בדף הזה, לוחצים על נושא:
פתרון בעיות באמצעות Cloud Assist Investigations
כשמחברים את Agent Platform למוצרים אחרים של Google Cloud , יכול להיות שCloud Assist Investigations יעזור לכם לפתור בעיות מורכבות בשילוב.
- מפעילים ומגדירים את Cloud Assist Investigations API.
- בודקים אילו מהמוצרים ששם עומס העבודה תלוי בהם מופיעים ברשימת המוצרים הנתמכים
- יוצרים חקירה ומתארים את הסימפטומים בפירוט. חשוב לציין את כל המשאבים שהצינור מסתמך עליהם.
- במהלך ההקלדה, תוכלו לראות בתיבת הדו-שיח הצעות למשאבים שאפשר להוסיף לחקירה. כדאי לעיין ברשימה הזו ולהוסיף משאבים רלוונטיים לפני שמריצים את החקירה.
מודלים של AutoML
בקטע הזה מתוארים שלבים לפתרון בעיות שיכולים לעזור לכם אם נתקלתם בבעיות ב-AutoML.
חסרות תוויות במערך הבדיקה, האימות או קבוצת הנתונים לאימון
בעיה
כשמשתמשים בפיצול הנתונים שמוגדר כברירת מחדל במהלך אימון של מודל סיווג AutoML, יכול להיות שפלטפורמת Agent תקצה מעט מדי מקרים של סיווג לקבוצה מסוימת (בדיקה, אימות או אימון), מה שגורם לשגיאה במהלך האימון. הבעיה הזו מתרחשת בתדירות גבוהה יותר כשמדובר במחלקות לא מאוזנות או בכמות קטנה של נתוני אימון.
הפתרון
כדי לפתור את הבעיה הזו, צריך להוסיף עוד נתוני אימון, לפצל את הנתונים ידנית כדי להקצות מספיק סיווגים לכל קבוצה, או להסיר ממערך הנתונים את התוויות שמופיעות בתדירות נמוכה יותר. מידע נוסף זמין במאמר מידע על פיצול נתונים למודלים של AutoML.
Vertex AI Studio
כשעובדים עם Vertex AI Studio, יכול להיות שיוצגו השגיאות הבאות:
ניסיון לכוונן מודל מחזיר Internal error encountered
בעיה
נתקלתם בשגיאה Internal error encountered כשניסיתם לשפר מודל.
הפתרון
מריצים את פקודת ה-Curl הבאה כדי ליצור מערך נתונים ריק של Gemini Enterprise Agent Platform. חשוב לוודא שמגדירים את מזהה הפרויקט בפקודה.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
אחרי שהפקודה מסתיימת, מחכים חמש דקות ומנסים שוב לכוונן את המודל.
קוד שגיאה: 429
בעיה
מופיעה השגיאה הבאה:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
הפתרון
כדאי לנסות שוב מאוחר יותר עם השהיה לפני ניסיון חוזר. אם הבעיות נמשכות, אפשר לפנות לתמיכה של Gemini Enterprise Agent Platform.
קוד שגיאה: 410
בעיה
מופיעה השגיאה הבאה:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
הפתרון
מידע נוסף זמין במאמר סקירה כללית על אימות.
קוד השגיאה: 403
בעיה
מופיעה השגיאה הבאה:
403: Permission denied.
הפתרון
מוודאים שלחשבון שמקבל גישה ל-API יש את ההרשאות הנכונות.
Agent Platform Pipelines
בקטע הזה מתוארים שלבים לפתרון בעיות שיכולים לעזור לכם אם נתקלתם בבעיות בצינורות של Agent Platform.
אין לך הרשאה לפעול כחשבון שירות
בעיה
כשמריצים את תהליך העבודה של Gemini Enterprise Agent Platform Pipelines, יכול להיות שתופיע הודעת השגיאה הבאה:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
הפתרון
השגיאה הזו מציינת שלחשבון השירות שמריץ את זרימת העבודה אין גישה למשאבים שהוא צריך להשתמש בהם.
כדי לפתור את הבעיה הזו, צריך להעניק למשתמש את ההרשאה iam.serviceAccounts.actAs בחשבון השירות.
שגיאה: יש אי התאמה בין הגיבובים של חבילות Python ברכיב Gemini Enterprise Agent Platform Pipelines
בעיה
כשמריצים את תהליך העבודה של Gemini Enterprise Agent Platform Pipelines, יכול להיות שתיתקלו בשגיאה הבאה:
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.
הבעיה הזו נגרמת בגלל חוסר התאמה בין הגרסאות של ספריות Python בתמונת הבסיס של רכיב Gemini Enterprise Agent Platform Pipelines לבין הגרסאות שהצינור מנסה להתקין.
הפתרון
צריך ליצור את כל התלויות שמפורטות בהודעה הזו בתמונה שמשמשת את רכיב הצינורות של Gemini Enterprise Agent Platform.
שגיאה Internal error happened
בעיה
אם הצינור נכשל עם הודעה Internal error happened, צריך לבדוק את הכלי Logs Explorer ולחפש את שם הצינור. יכול להיות שתראו שגיאה כמו זו:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
המשמעות היא ש-VPC peering ל-Agent Platform כולל טווח כתובות IP שנמחק.
הפתרון
כדי לפתור את הבעיה, צריך לעדכן את ה-VPC באמצעות הפקודה update ולכלול טווחי כתובות IP תקינים.
היקף OAuth לא תקין או קהל לא תקין של טוקן מזהה
בעיה
כשמריצים את תהליך העבודה של Gemini Enterprise Agent Platform Pipelines, מופיעה הודעת השגיאה הבאה:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
הפתרון
המשמעות היא שלא סיפקתם פרטי כניסה באחד מהרכיבים של צינור העיבוד, או שלא השתמשתם ב-ai_platform.init() כדי להגדיר פרטי כניסה.
כדי לפתור את הבעיה, צריך להגדיר את פרטי הכניסה לרכיב הרלוונטי של צינור עיבוד הנתונים או להגדיר את פרטי הכניסה של הסביבה ולהשתמש ב-ai_platform.init() בתחילת הקוד.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
רכיבי Agent Platform Pipelines דורשים יותר מ-100 GB של שטח דיסק
בעיה
נפח האחסון שמוקצה כברירת מחדל לרכיבי Agent Platform Pipelines הוא 100 GB, ואי אפשר להגדיל את נפח האחסון. אפשר לעיין בIssue Tracker שגלוי לכולם כדי לקבל מידע על הבעיה הזו.
הפתרון
כדי שרכיב ישתמש ביותר מ-100 GB של שטח דיסק, צריך להמיר את הרכיב למשימה מותאמת אישית באמצעות השיטה components. באמצעות האופרטור הזה, אפשר להקצות את סוג המכונה ואת גודל הדיסק שבהם הרכיב משתמש.
דוגמה לשימוש באופרטור הזה מופיעה בקטע המרת הרכיב למשימה מותאמת אישית של Agent Platform במאמר Agent Platform Pipelines: Custom training with prebuilt Google Cloud Pipeline Components.
בעיות ברשת ב-Agent Platform
בקטע הזה מתוארות פעולות לפתרון בעיות שיוכלו לעזור לכם אם תיתקלו בבעיות ברשת של Agent Platform.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
עומסי עבודה לא יכולים לגשת לנקודות קצה ברשת ה-VPC שלכם כשמשתמשים בטווחים של כתובות IP ציבוריות לשימוש פרטי ב-Gemini Enterprise Agent Platform
בעיה
כברירת מחדל, לא מתבצע ייבוא של טווחים של כתובות IP ציבוריות שמשמשות לשימוש פרטי.
הפתרון
כדי להשתמש בטווחים של כתובות IP ציבוריות לשימוש פרטי, צריך להפעיל ייבוא של טווחים של כתובות IP ציבוריות לשימוש פרטי.
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
בעיה
מופיעות שגיאות מהסוג com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project כשמריצים עומסי עבודה או כשפורסים נקודות קצה.
זה קורה כשמשנים את ההזמנות של גישה לשירותים פרטיים לעומסי העבודה. יכול להיות שטווחים שנמחקו לא נרשמו ב-Agent Platform API.
הפתרון
מריצים את הפקודה gcloud services vpc-peerings update
בשביל servicenetworking אחרי עדכון ההקצאות של הגישה לשירותים פרטיים.
לצינור או לעבודה אין גישה לנקודות קצה ברשת ה-VPC המקושרת
בעיה
הזמן הקצוב לתהליך של Gemini Enterprise Agent Platform יפוג כשהמערכת תנסה להתחבר למשאבים ברשת ה-VPC.
הפתרון
כדי לפתור את הבעיה, אפשר לנסות את הפתרונות הבאים:
- מוודאים שהשלמתם את כל השלבים במאמר הגדרת שיוך רשתות VPC.
בודקים את ההגדרה של רשת ה-VPC המקושרת. מוודאים שהרשת מייבאת מסלולים מטווח הרשת הנכון של השירות בזמן שהעבודה פועלת.
מוודאים שיש לכם כלל חומת אש שמאפשר חיבורים מהטווח הזה ליעד ברשת.
אם חיבור ה-peering לא מייבא מסלולים בזמן שהעבודה שלכם פועלת, זה אומר שההגדרה של רשת השירות לא נמצאת בשימוש. הסיבה לכך היא כנראה שהשלמתם את הגדרת ה-peering עם רשת שאינה רשת ברירת המחדל. אם זה המצב, חשוב לציין את הרשת כשמפעילים את העבודה. יש להשתמש בשם הרשת המוגדר במלואו בפורמט הבא:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME.מידע נוסף מופיע במאמר סקירה כללית על מסלולים.
צינור או עבודה לא יכולים לגשת לנקודות קצה ברשתות אחרות מעבר לרשת שלכם
בעיה
לצינור או לעבודה אין גישה לנקודות קצה ברשתות שמעבר לרשת שלכם.
הפתרון
כברירת מחדל, הגדרת ה-peering מייצאת רק נתיבים לרשתות המשנה המקומיות ב-VPC.
בנוסף, קישור טרנזיטיבי לא נתמך, ורק רשתות שכנות שיש ביניהן קישור ישיר יכולות לתקשר.
- כדי לאפשר ל-Gemini Enterprise Agent Platform להתחבר דרך הרשת שלכם ולהגיע לנקודות קצה ברשתות אחרות, אתם צריכים לייצא את נתיבי הרשת לחיבור ה-Peering שלכם. עורכים את ההגדרה של רשת ה-VPC המקבילה ומפעילים את
Export custom routes.
מכיוון שאין תמיכה בהעברת קישור בין רשתות שכנות (peering), פלטפורמת הסוכנים של Gemini Enterprise לא לומדת מסלולים לרשתות ולשירותים אחרים שמקושרים, גם אם Export Custom Routes מופעל. מידע על פתרונות עקיפים זמין במאמר בנושא הרחבת הנגישות לרשת של פייפליינים של Agent Platform.
No route to host בלי התנגשויות במסלולים שמוצגות במסוף Google Cloud
בעיה
המסלולים היחידים שמוצגים במסוף Google Cloud הם אלה שמוכרים ל-VPC שלכם, וגם הטווחים שהוזמנו כשמשלימים את ההגדרה של VPC Network Peering.
במקרים נדירים, יכול להיות שיופיע no route to host complaint
במשימה של Gemini Enterprise Agent Platform כשמנסים להגיע לכתובת IP שה-VPC שלכם מייצא לרשת של Gemini Enterprise Agent Platform.
יכול להיות שהסיבה לכך היא שהפעולות של Gemini Enterprise Agent Platform מתבצעות במרחב שמות של רשת באשכול GKE מנוהל, וטווח כתובות ה-IP שלו מתנגש עם כתובת ה-IP של היעד. מידע נוסף זמין במאמר היסודות של רשתות GKE.
בתנאים האלה, עומס העבודה מנסה להתחבר לכתובת ה-IP במרחב השמות של הרשת שלו, ומופיעה שגיאה אם הוא לא מצליח להתחבר.
הפתרון
צריך ליצור את עומס העבודה כך שיחזיר את כתובות ה-IP של מרחב השמות המקומי, ולוודא שאין התנגשות עם מסלולים שמייצאים דרך חיבור ה-Peering.
אם יש התנגשות, מעבירים רשימה של reservedIpRanges[] בפרמטרים של העבודה שלא חופפים לאף טווח ברשת ה-VPC.
העבודה משתמשת בטווחי הכתובות האלה לכתובות ה-IP הפנימיות של עומס העבודה.
RANGES_EXHAUSTED, RANGES_NOT_RESERVED
בעיה
שגיאות מהסוגים RANGES_EXHAUSTED, RANGES_NOT_RESERVED ו-RANGES_DELETED_LATER מצביעות על בעיה בהגדרה של קישור בין רשתות VPC שכנות. אלה שגיאות ברשת ולא שגיאות משירות Agent Platform עצמו.
הפתרון
אם נתקלתם בשגיאה RANGES_EXHAUSTED, כדאי קודם לבדוק אם התלונה הזו תקפה.
כדי לוודא שהזמנת כתובות ה-IP לגישה לשירותים פרטיים רחבה מספיק כדי להתאים לעומס העבודה שלכם, כדאי לעיין בטבלה המלצות לרשתות משנה.
נכנסים אל Network Analyzer ב-Cloud Console ומחפשים תובנות מהסוג 'סיכום של הקצאת כתובות IP' ברשת ה-VPC. אם הנתונים האלה מצביעים על הקצאה של 100% או קרוב ל-100%, אפשר לבצע אחת מהפעולות הבאות:
- מוסיפים טווח חדש להזמנה או מאריכים את הטווח הקיים. חשוב לזכור שכל הטווחים צריכים להיות רציפים.
- אם יש לכם טווחי כתובות IP לא רציפים שהוקצו אבל לא נמצאים בשימוש, כדאי להפעיל עומסי עבודה חדשים של Gemini Enterprise Agent Platform באזור אחר.
כדאי גם לשים לב למספר המקסימלי של משימות מקבילות שאפשר להריץ בהזמנה בגודל מסוים.
מידע נוסף זמין במאמר שגיאות אימות של Service Infrastructure
אם השגיאה נמשכת, פנו לתמיכה.
Router status is temporarily unavailable
בעיה
כשמפעילים את Agent Platform Pipelines, מוצגת הודעת שגיאה דומה לזו:
Router status is temporarily unavailable. Please try again later
הפתרון
הודעת השגיאה מציינת שמדובר במצב זמני. נסו להפעיל שוב את Agent Platform Pipelines.
אם השגיאה נמשכת, פנו לתמיכה.
עומסי העבודה לא מצליחים לזהות את שמות המארחים של דומייני DNS ב-VPC
בעיה
עומסי עבודה של Gemini Enterprise Agent Platform לא מצליחים להתחבר לשמות מארחים שהוגדרו ב-VPC. כבר אישרת ששמות המארחים האלה נגישים ללקוחות ב-VPC שלך.
הסיבה לכך היא שעומסי העבודה פועלים בפרויקט בניהול Google. כדי להשתמש במשאבי הרשת שלכם, ה-VPC בסביבה המנוהלת הזו צריך להיות מקושר ל-VPC שלכם. בנוסף, צריך לשתף באופן ספציפי עם ה-VPC שמנוהל על ידי Google את כל אזורי ה-DNS שבעומסי העבודה האלה נדרשת גישה אליהם.
הפתרון
- מוודאים שהגדרתם קישור בין רשתות VPC שכנות (peering) עבור Gemini Enterprise Agent Platform ברשת ה-VPC שלכם.
מבצעים את השלבים לשיתוף אזור ה-DNS הפרטי עם רשת היצרנים של פלטפורמת Gemini Enterprise Agent. הערה: התהליך הזה משתנה בהתאם לתרחיש לדוגמה:
חשוב לוודא שהעומסים שלכם ב-Gemini Enterprise Agent Platform מופעלים עם הדגל
--networkשמציין את רשת ה-VPC שלכם. כך הם יכולים לפעול ברשת שמנוהלת על ידי Google ולגשת לאזורי ה-DNS ששיתפתם.מפעילים רישום ביומן של DNS במדיניות של שרת ה-DNS, משחזרים את הבעיה ומריצים בדיקה נוספת. אם תגובת ה-DNS של עומס העבודה תהיה מוצלחת, מסנן Cloud Logging עבור
resource.type="dns_query"יציג רשומות מהסוג הזה:"resource": { "type": "dns_query", "labels": { "location": REGION, "project_id": PROJECT_ID, "source_type": "peering-zone", "target_name": "QUERY_TARGET, "target_type": "forwarding-zone" } }מוודאים ששאילתת DNS ממופע באותה רשת משנה (subnet) יכולה לתרגם שמות מארחים באמצעות שרת ה-DNS.
אם שרת ה-DNS לא נמצא ב- Google Cloud, צריך לוודא שכללי חומת האש המרוחקת מאפשרים חיבורים מ-
35.199.192.0/19.מריצים בדיקת קישוריות ממופע הבדיקה אל יציאה
53/UDPבכתובת ה-IP של שרת ה-DNS. לדוגמה, אם הנתיב מוביל אל כלל העברה, צריך לוודא את הדברים הבאים:- אם זה כלל העברה אזורי, הוא צריך להיות באותו אזור כמו הלקוח.
- הוא מקבל חיבורים ב-
53/UDPומעביר אותם לשרת ה-DNS הנכון.
בעיות בקישוריות שנגרמות כתוצאה מהתנהגויות בצד הלקוח
אם נתקלתם בבעיות בקישוריות כשניסיתם להשתמש בממשקי API Google Cloud, יכול להיות שהגורם לבעיה הוא בצד הלקוח. בקטע הזה מוצעים פתרונות בצד הלקוח שיכולים לשפר את חוויית השימוש.
איפוס חיבורים ומנות מידע שאבדו
בעיה
כשמנסים להשתמש בממשקי API, מתרחשות איפוסים של חיבורים ונשמטים מנות מידע. Google Cloud
הפתרון
כדי לפתור את הבעיה, כדאי לבדוק את הדברים הבאים:
- אם יש נפח תנועה גבוה של עסקאות עם דרישות של זמן אחזור נמוך, כדאי לבדוק אם בעיות ידועות בכרטיסי הקו של לקוחות מקומיים עלולות לגרום לאיפוס חיבורי TCP או להשמטת חבילות.
- כדאי לבדוק אם שירותים כלשהם בצד הלקוח בנתיב הבקשה משתמשים ב-iptables. הם יכולים לכלול אשכולות של Kubernetes או חומות אש מסוימות עם שמירת מצב ומכשירי NAT. כברירת מחדל, מערכת המשנה למעקב אחר חיבורים (conntrack) ב-Linux פועלת בהתאם למפרטים של פרוטוקול TCP, ולדוגמה, היא משמיטה מנות TCP שלא נמצאות ברצף. כדי להשבית את ההתנהגות הזו, מפעילים את פרמטר ליבת Linux
net.netfilter.nf_conntrack_tcp_be_liberalאו את המקבילה שלו.
חיבורים לא מלאים
בעיה
כשמנסים להשתמש בממשקי API Google Cloud , החיבורים לא מושלמים.
הפתרון
כדי לפתור את הבעיה, כדאי לבדוק את הדברים הבאים:
- אם נתיב ההעברה כולל כמה מסלולים חזרה ללקוח, חשוב להבין את המושג העברה הפוכה של נתיב. אם אתם חושדים שההתנהגות הזו חוסמת חיבורים, כדאי להשבית אותה.
- בחיבורים עם איזון עומסים, כדאי לבדוק אם כללי חומת האש הנכנסת מאפשרים חבילות תגובה לשני מאזני העומסים.
בעיות אחרות בחיבור שלא קשורות ל-API
כדי לפתור בעיות בחיבור שלא קשורות ל-API, כדאי לנסות את הפתרונות הבאים:
- אם יש שרתי proxy בנתיב הבקשה, כדאי לבדוק אם הם עלולים לגרום לבעיות שאתם נתקלים בהן. כדאי לעיין במסמכי התיעוד ולפתור בעיות ב-Proxy, כמו השהיה לא מוסברת, ניתוקים, ביטולים של DNS, חסימות של בקשות חוצות מקור ובעיות דומות אחרות.
- במיוחד כשמטפלים בתשובות
429מממשקי API, לוגיקה בצד הלקוח שמנסה מיד להתחבר מחדש עלולה להחמיר את הבעיה. Google Cloud חשוב להבין וליישם השהיה מעריכית לפני ניסיון חוזר (exponential backoff) כשמיישמים ניסיונות חוזרים.
היסק ב-Agent Platform
בקטע הזה מתוארות פעולות לפתרון בעיות שיכולות לעזור לכם אם נתקלתם בבעיות בהיקש ב-Agent Platform.
שגיאה שקשורה לחריגה ממכסת העיבוד באצווה
בעיה
מופיעה שגיאה כמו זו כשמריצים משימות של הסקת מסקנות באצווה.
Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.
משימת חיזוי באצווה ב-Gemini Enterprise Agent Platform צורכת את המכסה מפרויקט הדייר של חיזוי באצווה. למידע נוסף על בקשות להגדלת מכסות, אפשר לעיין במאמר בנושא מכסות ומגבלות של פלטפורמת הסוכנים של Gemini Enterprise.
שגיאה שקשורה לחריגה ממספר הניסיונות החוזרים
בעיה
מוצגת שגיאה כמו השגיאה הבאה כשמריצים משימות של הסקת מסקנות באצווה, שמציינת שיכול להיות שהמכונה שמריצה את המודל המותאם אישית לא תוכל להשלים את הסקת המסקנות במסגרת מגבלת הזמן.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
מצב כזה יכול לקרות כששירות ההסקה של Agent Platform נרשם בשירות ממשק הקצה של Google (GFE), שמשמש כפרוקסי לחיבורים מהלקוח אל Agent Platform Inference API.
אם שירות ממשק הקצה של Google לא מקבל תגובה מממשק ה-API תוך 10 דקות, הוא מפסיק את החיבור ומחזיר ללקוח קוד תגובה מסוג תגובת HTTP 500.
הפתרון
כדי לפתור את הבעיה, אפשר לנסות את הפתרונות הבאים:
- להגדיל את מספר צמתי החישוב או לשנות את סוג המכונה.
- צריך ליצור את מאגר ההסקה כך שישלח קודי תגובת HTTP 102 באופן תקופתי. הפעולה הזו מאפסת את הטיימר של 10 דקות בשירות ממשק הקצה של Google.
הפרויקט כבר מקושר ל-VPC
בעיה
כשפורסים נקודת קצה, יכול להיות שתופיע הודעת שגיאה כמו זו שבהמשך, שמציינת שנקודות הקצה של Agent Platform השתמשו בעבר ברשת ענן וירטואלי פרטי (VPC) והמשאבים לא נוקו בצורה מתאימה.
Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.
הפתרון
כדי לפתור את הבעיה, מריצים את הפקודה הזו ב-Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
הפעולה הזו תנתק באופן ידני את רשת ה-VPC הישנה מרשת ה-VPC של Service Networking.
כשל בלתי צפוי בפריסה או מחיקה של נקודת קצה
בעיה
פריסת מודל נכשלת באופן בלתי צפוי, נקודת קצה נמחקת או שמודל שנפרס בעבר לא נפרס יותר.
יכול להיות שהחשבון לחיוב לא תקין. אם החשבון לחיוב לא פעיל למשך תקופה ממושכת, יכול להיות שחלק מהמשאבים יוסרו מהפרויקטים שמשויכים לחשבון. לדוגמה, יכול להיות שהנקודות והמודלים שלכם יימחקו. אי אפשר לשחזר משאבים שהוסרו.
הפתרון
כדי לפתור את הבעיה, אפשר לנסות את הפתרונות הבאים:
- אימות סטטוס החיוב של פרויקטים
- פונים לתמיכה בחיוב ב-Cloud כדי לקבל עזרה בשאלות בנושא חיוב.
מידע נוסף זמין במאמר שאלות בנושא חיוב.
בעיות בחשבונות שירות מותאמים אישית ב-Agent Platform
בקטע הזה מתוארים שלבים לפתרון בעיות שקשורות לחשבונות שירות.
פריסת המודל נכשלת עם שגיאה בחשבון השירות serviceAccountAdmin
בעיה
פריסת המודל נכשלת עם שגיאה כמו:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
הפתרון
השגיאה הזו מציינת שחשבון השירות המותאם אישית לא הוגדר בצורה נכונה. כדי ליצור חשבון שירות בהתאמה אישית עם הרשאות IAM נכונות, אפשר לעיין במאמר שימוש בחשבון שירות בהתאמה אישית.
לא ניתן לאחזר אסימון זהות כשמשתמשים בחשבון שירות בהתאמה אישית
בעיה
כשמשתמשים בחשבון שירות בהתאמה אישית, משימות אימון שפועלות בשכפול יחיד לא יכולות להגיע לשירות המטא-נתונים של Compute Engine שנדרש לאחזור אסימון.
תוצג שגיאה דומה לזו:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
הפתרון
כדי לאחזר את אסימון הזהות באמצעות חשבון שירות בהתאמה אישית, צריך להשתמש ב-iamcredentials.googleapis.com.
מודלים עם אימון בהתאמה אישית
בקטע הזה מתוארות פעולות לפתרון בעיות שיכולות לעזור לכם אם נתקלתם בבעיות במודלים שעברו אימון בהתאמה אישית.
בעיות בהדרכה בהתאמה אישית
יכולות להתרחש הבעיות הבאות במהלך אימון בהתאמה אישית. הבעיות רלוונטיות למשאבי CustomJob ולמשאבי HyperparameterTuningJob, כולל משאבים שנוצרו על ידי משאבי TrainingPipeline.
קוד שגיאה: 400
בעיה
מופיעה השגיאה הבאה:
400 Machine type MACHINE_TYPE is not supported.
יכול להיות שתראו את הודעת השגיאה הזו אם סוג המכונה שנבחר לא נתמך באימון של Gemini Enterprise Agent Platform, או אם משאב ספציפי לא זמין באזור שנבחר.
הפתרון
אפשר להשתמש רק בסוגי מכונות זמינים באזורים המתאימים.
השכפול הסתיים עם קוד סטטוס שאינו אפס
בעיה
במהלך אימון מבוזר, שגיאה מכל worker גורמת לכשל באימון.
הפתרון
כדי לבדוק את דוח הקריסות של ה-worker, צופים ביומני האימון בהתאמה אישית במסוףGoogle Cloud .
כדאי לעיין בנושאים אחרים לפתרון בעיות כדי לתקן שגיאות נפוצות, ואז ליצור משאב חדש מסוג CustomJob, HyperparameterTuningJob או TrainingPipeline. במקרים רבים, קודי השגיאה נובעים מבעיות בקוד האימון, ולא משירות Agent Platform. כדי לבדוק אם זה המצב, אפשר להריץ את קוד האימון במחשב המקומי או ב-Compute Engine.
הזיכרון של העותק המשוכפל אזל
בעיה
יכולה להתרחש שגיאה אם למכונה וירטואלית (VM) לאימון נגמר הזיכרון במהלך האימון.
הפתרון
אפשר לראות את השימוש בזיכרון של מכונות וירטואליות לאימון ב Google Cloud מסוף.
גם אם השגיאה הזו מופיעה, יכול להיות שלא תראו שימוש של 100% בזיכרון במכונה הווירטואלית, כי שירותים אחרים שפועלים במכונה הווירטואלית (מלבד אפליקציית האימון) צורכים גם הם משאבים. בסוגי מכונות עם פחות זיכרון, שירותים אחרים עשויים לצרוך אחוז גדול יחסית מהזיכרון.
לדוגמה, במכונה וירטואלית n1-standard-4, השירותים יכולים לצרוך עד 40% מהזיכרון.
אפשר לבצע אופטימיזציה של צריכת הזיכרון של אפליקציית האימון, או לבחור סוג מכונה גדול יותר עם יותר זיכרון.
אין מספיק משאבים באזור מסוים
בעיה
נתקלתם בבעיה של חוסר במלאי באזור מסוים.
הפתרון
Agent Platform מאמנת את המודלים שלכם באמצעות משאבי Compute Engine. Agent Platform לא יכולה לתזמן את עומס העבודה אם קיבולת ה-CPU או ה-GPU באזור מסוים ב-Compute Engine מלאה. הבעיה הזו לא קשורה למכסת הפרויקט שלך.
כשמגיעים לקיבולת של Compute Engine, Agent Platform מנסה אוטומטית לבצע שוב את CustomJob או HyperparameterTuningJob עד שלוש פעמים. אם כל הניסיונות החוזרים נכשלים, העבודה נכשלת.
מצב של חוסר במלאי מתרחש בדרך כלל כשמשתמשים במעבדים גרפיים. אם נתקלתם בשגיאה הזו כשאתם משתמשים ב-GPU, נסו לעבור לסוג אחר של GPU. אם אתם יכולים להשתמש באזור אחר, נסו לאמן את המודל באזור אחר.
שגיאת הרשאה כשניגשים לשירות אחר של Google Cloud
אם נתקלתם בשגיאת הרשאה כשניסיתם לגשת לשירות אחר Google Cloud
מתוך קוד ההדרכה (לדוגמה:google.api_core.exceptions.PermissionDenied: 403), יכול להיות שנתקלתם באחת מהבעיות הבאות:
-
בעיה
לסוכן השירות או לחשבון השירות שמריצים את הקוד (או סוכן השירות של Gemini Enterprise Agent Platform Custom Code בפרויקט או חשבון שירות בהתאמה אישית) אין את ההרשאה הנדרשת.
הפתרון
איך נותנים הרשאות לסוכן של שירות הקוד המותאם אישית של Gemini Enterprise Agent Platform או איך מגדירים חשבון שירות מותאם אישית עם ההרשאות הנדרשות.
-
בעיה
לסוכן השירות או לחשבון השירות שדרכו הקוד פועל יש את ההרשאה הנדרשת, אבל הקוד מנסה לגשת למשאב בפרויקט הלא נכון. הבעיה הזו סביר שתתרחש במיוחד אם הודעת השגיאה מתייחסת למזהה פרויקט שמסתיים ב-
-tp.הפתרון
בגלל האופן שבו פועל קוד האימון של Agent Platform, הבעיה הזו יכולה להתרחש בטעות אם לא מציינים במפורש מזהה פרויקט או מספר פרויקט בקוד.
-
בעיה
משימת האימון שלכם ב-Vertex AI פועלת בהצלחה עם נתונים מקומיים, אבל לא עם נתונים מ-Cloud Storage.
הפתרון
מוסיפים את ההרשאה
storage.buckets.createלתפקיד הסוכן של שירות הקוד המותאם אישית ב-Gemini Enterprise Agent Platform בפרויקט.כדי לפתור את הבעיה הזו, צריך להוסיף תפקידים ספציפיים לסוכני השירות של Agent Platform.
בעיות בביצועים כשמשתמשים ב-Cloud Storage FUSE
בעיה
משימות של Cloud Storage FUSE פועלות לאט.
הפתרון
במאמר שימוש ב-Cloud Storage כמערכת קבצים מוצמדת מפורטות הנחיות לאופטימיזציה של הביצועים.
pip install נכשל כשמשתמשים ב-KFP עם VPC Service Controls
בעיה
מופיעה השגיאה הבאה:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
הפתרון
גבולות גזרה לשירות של VPC Service Controls חוסמים את הגישה מ-Agent Platform לממשקי API ולשירותים של צד שלישי באינטרנט. כדי להתקין את החבילות, משתמשים ב-packageUris כדי להתקין את התלות מקטגוריות של Cloud Storage. דיון כללי על השימוש בטכניקה הזו מופיע במאמר VPC Service Controls עם Agent Platform בקטע 'שימוש במאגרי תמונות (container) בהתאמה אישית'.
שגיאה פנימית
בעיה
האימון נכשל בגלל שגיאת מערכת.
הפתרון
יכול להיות שהבעיה זמנית. כדאי לנסות לשלוח מחדש את CustomJob, HyperparameterTuningJob או TrainingPipeline. אם השגיאה נמשכת, פנו לתמיכה.
קוד שגיאה 500 כשמשתמשים בקובץ אימג' של קונטיינר מותאם אישית
בעיה
מופיעה שגיאת 500 ביומנים.
הפתרון
סביר להניח שהשגיאה הזו היא בעיה בקובץ האימג' של הקונטיינר המותאם אישית, ולא שגיאה ב-Agent Platform.
לחשבון השירות אין גישה לקטגוריה של Cloud Storage כשפורסים לנקודת קצה
בעיה
כשמנסים לפרוס מודל לנקודת קצה ולחשבון השירות אין גישה storage.objects.list לקטגוריה של Cloud Storage, יכול להיות שתופיע השגיאה הבאה:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
כברירת מחדל, מאגר התמונות המותאם אישית שפורס את המודל משתמש בחשבון שירות שאין לו גישה לקטגוריה של Cloud Storage.
הפתרון
כדי לפתור את הבעיה, אפשר לנסות את הפתרונות הבאים:
כשמעלים את המודל, מעתיקים את הקובץ שמנסים לגשת אליו מהקונטיינר אל model artifacts. פלטפורמת הסוכנים של Gemini Enterprise תעתיק אותו למיקום שלחשבון השירות שמוגדר כברירת מחדל יש גישה אליו, בדומה לכל הארטיפקטים האחרים של המודל.
מעתיקים את הקובץ לקונטיינר כחלק מתהליך build.
מציינים חשבון שירות בהתאמה אישית.
Agent Platform Neural Architecture Search
בעיות מוכרות
- אחרי שמבטלים את עבודת ה-NAS, העבודה הראשית (האב) נעצרת, אבל חלק מהניסויים המשניים ממשיכים להציג את המצב פועל. אפשר להתעלם ממצב תקופת הניסיון של חשבון הילד או הילדה שמוצג כפועל במקרה הזה. הניסויים הסתיימו, אבל בממשק המשתמש עדיין מוצג המצב פועל. כל עוד העבודה הראשית הופסקה, לא תחויבו בחיובים נוספים.
- אחרי שמדווחים על תגמולים במאמן, מחכים (ממתינים) 10 דקות לפני שהעבודות של הניסוי מסתיימות.
כשמשתמשים ב-Cloud Shell כדי להריץ את
TensorBoard, יכול להיות שהקישור שנוצר בפלט לא יעבוד. במקרה כזה, צריך לרשום את מספר היציאה, להשתמש בכלי Web Preview ולבחור את מספר היציאה הנכון כדי להציג את התרשימים.כדי לגשת לכלי
Web Preview:
אם מופיעות הודעות שגיאה כמו אלה ביומני ההדרכה:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]להשתמש במחשב עם יותר RAM, כי מצב OOM גורם לשגיאה הזו.
אם המאמן המותאם אישית לא מצליח למצוא את ספריית המשרות
job-dirFLAG, צריך לייבא אתjob_dirעם קו תחתון במקום מקף. הסבר על כך מופיע בהערה במדריך 1.שגיאת NaN במהלך האימון יכול להיות שיהיו שגיאות NaN במשימת האימון, כמו
NaN : Tensor had NaN values. יכול להיות שקצב הלמידה גדול מדי בשביל הארכיטקטורה המוצעת. מידע נוסף זמין במאמר בנושא שגיאות שקשורות לזיכרון (OOM) ולקצב הלמידה.שגיאת OOM במהלך האימון יכול להיות שיהיו שגיאות OOM (out-of-memory) במשימת האימון. יכול להיות שגודל האצווה גדול מדי בשביל הזיכרון של המאיץ. מידע נוסף זמין במאמר בנושא שגיאות שקשורות לזיכרון (OOM) ולקצב הלמידה.
התהליך של בקר בחירת מודל של משימת proxy נכשל במקרים נדירים, התהליך של בקר בחירת מודל של משימת proxy נכשל. כדי להמשיך את התהליך, אפשר לפעול לפי השלבים האלה.
התהליך של בקר החיפוש של משימת ה-Proxy נכשל במקרה הנדיר שהתהליך של בקר החיפוש של משימת ה-Proxy נכשל, אפשר להפעיל מחדש את התהליך לפי השלבים האלה.
לחשבון השירות אין הרשאה לגשת ל-Artifact Registry או לקטגוריית היעד. אם מופיעה שגיאה כמו
Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nasאו שגיאה דומה לגבי גישה לקטגוריה, צריך לתת לחשבון השירות הזה תפקיד של עורך אחסון בפרויקט.
מאגר התכונות של Agent Platform Neural Architecture Search
בקטע הזה מתוארים שלבים לפתרון בעיות שיכולים לעזור לכם אם נתקלתם בבעיות ב-Agent Platform Neural Architecture Search Feature Store.
שגיאת Resource not found בשליחת בקשה להטמעת עדכונים בזמן אמת או למילוי בקשה באופן מיידי
בעיה
אחרי שמגדירים מאגר תכונות, סוג ישות או משאבי תכונות, יש עיכוב עד שהמשאבים האלה מועברים לשירות FeaturestoreOnlineServingService. לפעמים העיכוב בהפצה עלול לגרום לשגיאה resource not found כששולחים בקשה להטמעת עדכונים בזמן אמת או בקשה למילוי בקשה באופן מיידי מיד אחרי שיוצרים משאב.
הפתרון
אם מופיעה השגיאה הזו, צריך להמתין כמה דקות ולנסות שוב לשלוח את הבקשה.
הטמעת הנתונים (ingestion) של תכונות חדשות שנוצרו בוצעה בהצלחה, אבל בקשת ההצגה אונליין מחזירה ערכים ריקים
בעיה
רק לגבי תכונות שנוצרו לאחרונה, יש עיכוב עד שהתכונות האלה מועברות לשירות FeaturestoreOnlineServingService. התכונות והערכים קיימים, אבל לוקח זמן עד שהם מופצים. יכול להיות שבקשת הצגת המודעות באינטרנט תחזיר ערכים ריקים.
הפתרון
אם אתם רואים את חוסר העקביות הזה, כדאי להמתין כמה דקות ואז לנסות שוב לשלוח את בקשת הצגת המודעות באינטרנט.
ניצול המעבד (CPU) גבוה בצומת של שרת אונליין
בעיה
ניצול המעבד (CPU) שלכם בצומת מילוי בקשה באופן מיידי גבוה.
הפתרון
כדי לפתור את הבעיה הזו, אפשר להגדיל את מספר הצמתים של שרתים אונליין באופן ידני או להפעיל שינוי גודל אוטומטי. הערה: גם אם מופעלת התאמה אוטומטית לעומס, Feature Store של Vertex AI צריך זמן כדי לאזן מחדש את הנתונים כשמוסיפים או מסירים צמתים. מידע על צפייה במדדי חלוקת ערכי התכונות לאורך זמן זמין במאמר צפייה במדדי ערכי התכונות.
ניצול המעבד (CPU) גבוה מדי בצומת המרכזי ביותר של שרת אונליין
בעיה
אם ניצול המעבד (CPU) גבוה בצומת הכי פעיל, אפשר להגדיל את מספר הצמתים שמשרתים את המודל או לשנות את דפוס הגישה לישות לדפוס פסאודו-אקראי.
הפתרון
הגדרת דפוס הגישה לישות כפסאודו-אקראי מפחיתה את השימוש הגבוה במעבד (CPU) שנובע מגישה תכופה לישויות שנמצאות קרוב זו לזו במאגר התכונות. אם אף אחד מהפתרונות לא יעיל, כדאי להטמיע מטמון בצד הלקוח כדי להימנע מגישה חוזרת לאותם ישויות.
זמן האחזור של הצגת מודעות אונליין גבוה כשערכי השאילתות לשנייה (QPS) נמוכים
בעיה
תקופת חוסר הפעילות או הפעילות הנמוכה ב-QPS נמוך עלולה לגרום לפקיעת התוקף של חלק מהמטמונים בצד השרת. התוצאה יכולה להיות זמן אחזור ארוך כשהתנועה לצמתים של שרתים אונליין מתחדשת בקצב רגיל או גבוה יותר של שאילתות לשנייה.
הפתרון
כדי לפתור את הבעיה הזו, צריך לשמור על חיבור פעיל על ידי שליחת תעבורת נתונים מלאכותית של לפחות 5 QPS אל מאגר פיצ'רים.
עבודת הטמעה של נתונים בקבוצות נכשלת אחרי שש שעות
בעיה
יכול להיות שהעבודה של הטמעת הנתונים באצווה תיכשל כי תוקף הסשן לקריאה פג אחרי שש שעות.
הפתרון
כדי להימנע מהזמן הקצוב לתפוגה, צריך להגדיל את מספר העובדים כדי להשלים את משימת ההטמעה בתוך מגבלת הזמן של שש שעות.
שגיאה [Resource exceeded] בייצוא של ערכי מאפיינים
בעיה
אם מנסים לייצא נפח גדול של נתונים, יכול להיות שהייצוא ייכשל עם שגיאה של חריגה ממכסת המשאבים, אם משימת הייצוא חורגת מהמכסה הפנימית.
הפתרון
כדי למנוע את השגיאה הזו, אפשר להגדיר את פרמטרים של טווח הזמן, start_time
ו-end_time, כך שיוכלו לעבד כמויות קטנות יותר של נתונים בכל פעם. מידע על ייצוא מלא זמין במאמר בנושא ייצוא מלא.
Agent Platform Neural Architecture Search Vizier
יכול להיות שתיתקלו בבעיות הבאות כשמשתמשים ב-Agent Platform Neural Architecture Search Vizier.
שגיאה פנימית
בעיה
השגיאה הפנימית מתרחשת כשיש שגיאת מערכת.
הפתרון
יכול להיות שזו בעיה זמנית. כדאי לנסות לשלוח מחדש את הבקשה. אם השגיאה נמשכת, צריך לפנות לתמיכה.
שגיאות הרשאות כשמשתמשים בתפקידים של חשבון שירות עם Agent Platform Neural Architecture Search
בעיה
כשמשתמשים בתפקידים של חשבון שירות עם Agent Platform Neural Architecture Search, מקבלים שגיאות כלליות של הרשאות.
השגיאות האלה יכולות להופיע ב-Cloud Logging ביומנים של רכיב המוצר או ביומני הביקורת. יכול להיות שהם יופיעו גם בכל שילוב של הפרויקטים המושפעים.
הבעיות האלה יכולות להיגרם מאחת מהסיבות הבאות, או משתיהן:
שימוש בתפקיד
Service Account Token Creatorבמקום בתפקידService Account User, או להיפך. התפקידים האלה מעניקים הרשאות שונות בחשבון שירות, ואי אפשר להשתמש בהם לסירוגין. מידע על ההבדלים בין התפקידיםService Account Token Creatorו-Service Account Userמופיע במאמר תפקידים בחשבונות שירות.נתתם לחשבון שירות הרשאות בכמה פרויקטים, וזה לא מותר כברירת מחדל.
הפתרון
כדי לפתור את הבעיה, נסו אחד או יותר מהפתרונות הבאים:
בודקים אם צריך את התפקיד
Service Account Token CreatorאוService Account User. מידע נוסף זמין במאמרי העזרה של IAM עבור שירותי Agent Platform Neural Architecture Search שבהם אתם משתמשים, וגם של שילובי מוצרים אחרים שבהם אתם משתמשים.אם הענקתם לחשבון שירות הרשאות בכמה פרויקטים, צריך להפעיל את האפשרות לצירוף חשבונות שירות בין פרויקטים. כדי לעשות את זה, מוודאים ש
iam.disableCrossProjectServiceAccountUsage. לא נאכפת. כדי לוודא ש-iam.disableCrossProjectServiceAccountUsageלא נאכף, מריצים את הפקודה הבאה:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID