במדריך הזה נסביר איך לכוונן את מודל השפה הגדול (LLM) Gemma, משפחה של מודלים פתוחים, באמצעות יחידות עיבוד גרפי (GPU) ב-Google Kubernetes Engine (GKE) עם ספריית Transformers מ-Hugging Face. התאמה עדינה היא תהליך למידה מפוקחת שמשפר את היכולת של מודל שאומן מראש לבצע משימות ספציפיות, על ידי עדכון הפרמטרים שלו באמצעות מערך נתונים חדש. במדריך הזה מורידים מודלים של משפחת Gemma שעברו אימון מראש עם 2 מיליארד פרמטרים מ-Hugging Face, ומבצעים כוונון עדין שלהם באשכול Autopilot או Standard של GKE.
המדריך הזה הוא נקודת התחלה טובה אם אתם צריכים שליטה מדויקת, מדרגיות, חוסן (resilience), ניידות ויעילות כלכלית של Kubernetes מנוהל כשאתם מכווננים מודל שפה גדול (LLM).
אם אתם צריכים פלטפורמת AI מנוהלת ואחידה כדי ליצור ולהכניס לשימוש בסביבת הייצור במהירות מודלים של למידת מכונה בצורה חסכונית, כדאי לנסות את הפתרון Vertex AI שלנו.
רקע
כשמפעילים את Gemma באמצעות GPUs ב-GKE עם ספריית ה-transformers, אפשר להטמיע פתרון חזק להסקת מסקנות שמוכן לייצור, עם כל היתרונות של Kubernetes מנוהל, כולל יכולת הרחבה יעילה וזמינות גבוהה יותר. בקטע הזה מתוארות הטכנולוגיות העיקריות שמופיעות במדריך הזה.
Gemma
Gemma הוא קבוצה של מודלים קלים של בינה מלאכותית (AI) גנרטיבית שזמינים לשימוש חופשי ופורסמו ברישיון קוד פתוח. מודלים של AI זמינים להרצה באפליקציות, בחומרה, במכשירים ניידים או בשירותים מתארחים.
במדריך הזה אנחנו מציגים את Gemma ליצירת טקסט. אפשר גם לכוונן את המודלים האלה כדי להתמחות בביצוע משימות ספציפיות.
מערך הנתונים שבו משתמשים במסמך הזה הוא b-mc2/sql-create-context.
מידע נוסף מופיע במאמרי העזרה בנושא Gemma.
יחידות GPU
מעבדי GPU מאפשרים להאיץ עומסי עבודה ספציפיים שפועלים בצמתים, כמו למידת מכונה ועיבוד נתונים. GKE מספק מגוון אפשרויות של סוגי מכונות להגדרת צמתים, כולל סוגי מכונות עם מעבדי GPU של NVIDIA H100, L4 ו-A100.
לפני שמשתמשים ביחידות GPU ב-GKE, כדאי לעבור על תוכנית הלימודים הבאה:
Hugging Face Transformers
באמצעות ספריית Transformers של Hugging Face, אפשר לגשת למודלים מתקדמים שעברו אימון מראש. ספריית Transformers מאפשרת לצמצם את הזמן, המשאבים והעלויות החישוביות שקשורים לאימון המודל המלא.
במדריך הזה תשתמשו בממשקי ה-API ובכלים של Hugging Face כדי להוריד את המודלים האלה שאומנו מראש ולשפר אותם.
מטרות
המדריך הזה מיועד למשתמשים חדשים או קיימים ב-GKE, למהנדסי ML, למהנדסי MLOps (DevOps) או לאדמינים של פלטפורמות שרוצים להשתמש ביכולות של Kubernetes לניהול קונטיינרים כדי לכוונן מודלים גדולים של שפה (LLM) בחומרת GPU מסוג H100, A100 ו-L4.
בסיום המדריך הזה, תוכלו לבצע את השלבים הבאים:
- מכינים את הסביבה עם אשכול GKE במצב Autopilot.
- יוצרים מאגר תגים לשיפור הדיוק.
- שימוש ביחידות GPU כדי לבצע כוונון עדין של מודל Gemma 2B והעלאת המודל ל-Hugging Face.
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the required APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the required APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
צריך לוודא שיש לכם בפרויקט את התפקיד או התפקידים הבאים: roles/container.admin, roles/iam.serviceAccountAdmin, roles/cloudbuild.builds.editor
בדיקת התפקידים
-
נכנסים לדף IAM במסוף Google Cloud .
כניסה לדף IAM - בוחרים את הפרויקט.
-
בעמודה Principal (חשבון המשתמש), מוצאים את כל השורות שבהן מופיע השם שלכם או של קבוצה שאתם נכללים בה. כדי לברר באילו קבוצות אתם נכללים, פנו לאדמין.
- בודקים את העמודה Role בכל השורות שבהן מצוין או מופיע השם שלכם, כדי לראות אם רשימת התפקידים כוללת את התפקידים הנדרשים.
מתן התפקידים
-
נכנסים לדף IAM במסוף Google Cloud .
כניסה לדף IAM - בוחרים את הפרויקט.
- לוחצים על Grant access.
-
בשדה New principals, מזינים את מזהה המשתמש. בדרך כלל מזהה המשתמש הוא כתובת האימייל של חשבון Google.
- לוחצים על Select a role ומחפשים את התפקיד.
- כדי לתת עוד תפקידים, לוחצים על Add another role ומוסיפים אותם.
- לוחצים על Save.
-
- יוצרים חשבון ב-Hugging Face, אם עדיין אין לכם חשבון.
- מוודאים שיש בפרויקט מכסה מספקת ל-GPU L4. מידע נוסף זמין במאמרים מידע על יחידות GPU ומכסות הקצאה.
גישה למודל
כדי לקבל גישה למודלים של Gemma לצורך פריסה ב-GKE, קודם צריך לחתום על הסכם הרישיון ואז ליצור טוקן גישה ל-Hugging Face.
חתימה על הסכם הסכמה לרישיון
כדי להשתמש ב-Gemma, צריך לחתום על הסכם ההסכמה. פועלים לפי ההוראות הבאות:
- נכנסים אל דף ההסכמה לשימוש במודל באתר Kaggle.com.
- צריך לאמת את ההסכמה באמצעות חשבון Hugging Face.
- מאשרים את התנאים של המודל.
יצירת אסימון גישה
כדי לגשת למודל דרך Hugging Face, תצטרכו טוקן של Hugging Face.
אם עדיין אין לכם אסימון, אתם יכולים ליצור אסימון חדש באמצעות השלבים הבאים:
- לוחצים על הפרופיל שלך > הגדרות > טוקנים של גישה.
- בוחרים באפשרות New Token (טוקן חדש).
- מציינים שם לבחירתכם ותפקיד ברמה של
Writeלפחות. - לוחצים על יצירת אסימון.
- מעתיקים את הטוקן שנוצר ללוח.
הכנת הסביבה
במדריך הזה משתמשים ב-Cloud Shell כדי לנהל משאבים שמתארחים ב-Google Cloud. ב-Cloud Shell מותקן מראש התוכנה שצריך למדריך הזה, כולל kubectl ו-
gcloud CLI.
כדי להגדיר את הסביבה באמצעות Cloud Shell:
ב Google Cloud מסוף, מפעילים סשן של Cloud Shell על ידי לחיצה על Activate Cloud Shell בGoogle Cloud מסוף.
תופעל סשן בחלונית התחתונה של Google Cloud המסוף.
מגדירים את משתני הסביבה שמוגדרים כברירת מחדל:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export CONTROL_PLANE_LOCATION=CONTROL_PLANE_LOCATION export CLUSTER_NAME=CLUSTER_NAME export HF_TOKEN=HF_TOKEN export HF_PROFILE=HF_PROFILEמחליפים את הערכים הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud. -
CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה,us-central1למעבדי GPU מסוג L4. -
CLUSTER_NAME: השם של האשכול. -
HF_TOKEN: אסימון Hugging Face שיצרתם קודם. -
HF_PROFILE: מזהה הפרופיל ב-Hugging Face שיצרתם קודם.
-
משכפלים את מאגר הקוד לדוגמה מ-GitHub:
git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples cd kubernetes-engine-samples/ai-ml/llm-finetuning-gemma
יצירה והגדרה של Google Cloud משאבים
כדי ליצור את המשאבים הנדרשים, פועלים לפי ההוראות הבאות.
יצירת אשכול GKE ומאגר צמתים
אפשר להפעיל את Gemma במעבדים גרפיים באשכול GKE Autopilot או באשכול רגיל. כדי לבחור את מצב הפעולה של GKE שהכי מתאים לעומסי העבודה שלכם, אפשר לעיין במאמר בחירת מצב פעולה של GKE.
כדי ליהנות מחוויית Kubernetes מנוהלת לחלוטין, אפשר להשתמש ב-Autopilot.
טייס אוטומטי
ב-Cloud Shell, מריצים את הפקודה הבאה:
gcloud container clusters create-auto CLUSTER_NAME \
--project=PROJECT_ID \
--location=CONTROL_PLANE_LOCATION \
--release-channel=rapid \
--cluster-version=CLUSTER_VERSION
מחליפים את הערכים הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud. -
CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה,us-central1למעבדי GPU מסוג L4. -
CLUSTER_NAME: השם של האשכול. -
CLUSTER_VERSION: גרסת GKE, שצריכה לתמוך בערוץ ההפצה המהירה. מידע נוסף זמין במאמר בנושא בדיקת הגרסאות הזמינות וגרסאות ברירת המחדל.
GKE יוצר אשכול Autopilot עם צמתים של מעבד ו-GPU לפי הבקשה של עומסי העבודה שנפרסו.
רגילה
ב-Cloud Shell, מריצים את הפקודה הבאה כדי ליצור אשכול Standard:
gcloud container clusters create CLUSTER_NAME \ --project=PROJECT_ID \ --location=CONTROL_PLANE_LOCATION \ --workload-pool=PROJECT_ID.svc.id.goog \ --release-channel=rapid \ --num-nodes=1מחליפים את הערכים הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud. -
CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה,us-central1למעבדי GPU מסוג L4. -
CLUSTER_NAME: השם של האשכול.
יצירת האשכול עשויה להימשך כמה דקות.
-
מריצים את הפקודה הבאה כדי ליצור מאגר צמתים עבור האשכול:
gcloud container node-pools create gpupool \ --accelerator type=nvidia-l4,count=8,gpu-driver-version=latest \ --project=PROJECT_ID \ --location=CONTROL_PLANE_LOCATION \ --node-locations=CONTROL_PLANE_LOCATION-a \ --cluster=CLUSTER_NAME \ --machine-type=g2-standard-96 \ --num-nodes=1GKE יוצר מאגר צמתים יחיד שמכיל שני GPU מסוג L4 לכל צומת.
יצירת סוד ב-Kubernetes לפרטי הכניסה של Hugging Face
ב-Cloud Shell, מבצעים את הפעולות הבאות:
מגדירים את
kubectlלתקשורת עם האשכול:gcloud container clusters get-credentials CLUSTER_NAME \ --location=CONTROL_PLANE_LOCATIONמחליפים את הערכים הבאים:
-
CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. -
CLUSTER_NAME: השם של האשכול.
-
יוצרים סוד של Kubernetes שמכיל את הטוקן של Hugging Face:
kubectl create secret generic hf-secret \ --from-literal=hf_api_token=$HF_TOKEN \ --dry-run=client -o yaml | kubectl apply -f -מחליפים את
$HF_TOKENבטוקן של Hugging Face שיצרתם קודם, או משתמשים במשתנה הסביבה אם הגדרתם אותו.
יצירת קונטיינר לכוונון עדין באמצעות Docker ו-Cloud Build
הקונטיינר הזה משתמש בקוד PyTorch ובקוד Hugging Face Transformers כדי לשפר את מודל Gemma הקיים שעבר אימון מראש.
יוצרים מאגר Docker ב-Artifact Registry:
gcloud artifacts repositories create gemma \ --project=PROJECT_ID \ --repository-format=docker \ --location=us \ --description="Gemma Repo"מחליפים את
PROJECT_IDבמזהה הפרויקט ב- Google Cloud.בנייה והעלאה של התמונה:
gcloud builds submit .מייצאים את
IMAGE_URLלשימוש בהמשך המדריך הזה.export IMAGE_URL=us-docker.pkg.dev/PROJECT_ID/gemma/finetune-gemma-gpu:1.0.0
הרצת משימת כוונון עדין ב-GKE
בקטע הזה פורסים את משימת הכוונון העדין של Gemma. ב-Kubernetes, בקר משימות יוצר פוד אחד או יותר ועוזר לוודא שהם מבצעים משימה ספציפית בהצלחה.
פותחים את הקובץ
finetune.yaml.מחילים את המניפסט כדי ליצור את משימת הכוונון העדין:
envsubst < finetune.yaml | kubectl apply -f -ההוראה הזו מחליפה את
IMAGE_URLבמשתנה במניפסט.מריצים את הפקודה הבאה כדי לעקוב אחרי העבודה:
watch kubectl get podsמריצים את הפקודה הבאה כדי לבדוק את היומנים של העבודה:
kubectl logs job.batch/finetune-job -fמשאב ה-Job מוריד את נתוני המודל ואז מבצע כוונון עדין של המודל בכל שמונת מעבדי ה-GPU. התהליך הזה יכול להימשך עד 20 דקות.
אחרי שהעבודה תושלם, עוברים לחשבון Hugging Face. מודל חדש בשם
HF_PROFILE/gemma-2b-sql-finetunedמופיע בפרופיל שלכם ב-Hugging Face.
הצגת המודל המכוונן ב-GKE
בקטע הזה פורסים את מאגר התגים vLLM כדי להפעיל את מודל Gemma. במדריך הזה משתמשים ב-Kubernetes Deployment כדי לפרוס את הקונטיינר vLLM. פריסה היא אובייקט Kubernetes API שמאפשר להפעיל כמה רפליקות של Pods שמפוזרות בין הצמתים באשכול.
יוצרים את קובץ המניפסט
serve-gemma.yamlהבא:יוצרים את משתנה הסביבה בשביל
MODEL_IDחדש:export MODEL_ID=HF_PROFILE/gemma-2b-sql-finetunedמחליפים את
HF_PROFILEבמזהה הפרופיל ב-Hugging Face שיצרתם קודם.מחליפים את
MODEL_IDבמניפסט:sed -i "s|google/gemma-2b|$MODEL_ID|g" serve-gemma.yamlהחלת המניפסט:
kubectl apply -f serve-gemma.yamlPod באשכול מוריד את משקלי המודל מ-Hugging Face ומתחיל את מנוע ההצגה.
ממתינים עד שהפריסה תהיה זמינה:
kubectl wait --for=condition=Available --timeout=700s deployment/vllm-gemma-deploymentצפייה ביומנים מהפריסה הפעילה:
kubectl logs -f -l app=gemma-server
המשאב Deployment מוריד את נתוני המודל. התהליך הזה יכול לקחת כמה דקות. הפלט אמור להיראות כך:
INFO 01-26 19:02:54 model_runner.py:689] Graph capturing finished in 4 secs.
INFO: Started server process [1]
INFO: Waiting for application startup.
INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
לפני שממשיכים לקטע הבא, מוודאים שהמודל הורד במלואו.
פרסום המודל
בקטע הזה אתם מנהלים אינטראקציה עם המודל.
הגדרת העברה ליציאה אחרת
אחרי פריסת המודל, מריצים את הפקודה הבאה כדי להגדיר העברת נתונים (port forwarding) למודל:
kubectl port-forward service/llm-service 8000:8000
הפלט אמור להיראות כך:
Forwarding from 127.0.0.1:8000 -> 8000
אינטראקציה עם המודל באמצעות curl
בסשן חדש של מסוף, משתמשים ב-curl כדי לשוחח עם המודל:
הדוגמה הבאה היא פקודה ל-TGI:
USER_PROMPT="Question: What is the total number of attendees with age over 30 at kubecon eu? Context: CREATE TABLE attendees (name VARCHAR, age INTEGER, kubecon VARCHAR)"
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d @- <<EOF
{
"prompt": "${USER_PROMPT}",
"temperature": 0.1,
"top_p": 1.0,
"max_tokens": 24
}
EOF
בדוגמה הבאה אפשר לראות את התשובה של המודל:
{"generated_text":" Answer: SELECT COUNT(age) FROM attendees WHERE age > 30 AND kubecon = 'eu'\n"}
יכול להיות שתצטרכו לשנות את max_token כדי לקבל תוצאה טובה יותר, בהתאם לשאילתה. אתם יכולים גם להשתמש במודל שעבר התאמה להוראות כדי לשפר את חוויית השימוש בצ'אט.
הסרת המשאבים
כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
מחיקת המשאבים שנפרסו
כדי להימנע מחיובים בחשבון Google Cloud על המשאבים שיצרתם במדריך הזה, מריצים את הפקודה הבאה:
gcloud container clusters delete CLUSTER_NAME \
--location=CONTROL_PLANE_LOCATION
מחליפים את הערכים הבאים:
-
CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה,us-central1למעבדי GPU מסוג L4. -
CLUSTER_NAME: השם של האשכול.
המאמרים הבאים
- מידע נוסף על יחידות GPU ב-GKE
- כדי ללמוד איך להשתמש ב-Gemma עם TGI במאיצים אחרים, כולל מעבדי GPU מסוג A100 ו-H100, אפשר לעיין בקוד לדוגמה ב-GitHub.
- איך פורסים עומסי עבודה של GPU בטייס אוטומטי
- איך פורסים עומסי עבודה של GPU ב-Standard
- מעיינים ב-Vertex AI Model Garden.
- כך מריצים עומסי עבודה של AI/ML שעברו אופטימיזציה באמצעות יכולות התזמור של פלטפורמת GKE.
- איך משתמשים ב-Assured Workloads כדי להחיל אמצעי בקרה על תיקייה ב- Google Cloudכדי לעמוד בדרישות הרגולטוריות.