Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ביצוע התאמה עדינה של מודלים פתוחים של Gemma באמצעות כמה יחידות GPU ב-GKE

טייס אוטומטי רגילה

במדריך הזה נסביר איך לכוונן את מודל השפה הגדול (LLM) Gemma, משפחה של מודלים פתוחים, באמצעות יחידות עיבוד גרפי (GPU) ב-Google Kubernetes Engine ‏ (GKE) עם ספריית Transformers מ-Hugging Face. התאמה עדינה היא תהליך למידה מפוקחת שמשפר את היכולת של מודל שאומן מראש לבצע משימות ספציפיות, על ידי עדכון הפרמטרים שלו באמצעות מערך נתונים חדש. במדריך הזה מורידים מודלים של משפחת Gemma שעברו אימון מראש עם 2 מיליארד פרמטרים מ-Hugging Face, ומבצעים כוונון עדין שלהם באשכול Autopilot או Standard של GKE.

המדריך הזה הוא נקודת התחלה טובה אם אתם צריכים שליטה מדויקת, מדרגיות, חוסן (resilience), ניידות ויעילות כלכלית של Kubernetes מנוהל כשאתם מכווננים מודל שפה גדול (LLM).

שיטה מומלצת:

אם אתם צריכים פלטפורמת AI מנוהלת ואחידה כדי ליצור ולהכניס לשימוש בסביבת הייצור במהירות מודלים של למידת מכונה בצורה חסכונית, כדאי לנסות את הפתרון Vertex AI שלנו.

רקע

כשמפעילים את Gemma באמצעות GPUs ב-GKE עם ספריית ה-transformers, אפשר להטמיע פתרון חזק להסקת מסקנות שמוכן לייצור, עם כל היתרונות של Kubernetes מנוהל, כולל יכולת הרחבה יעילה וזמינות גבוהה יותר. בקטע הזה מתוארות הטכנולוגיות העיקריות שמופיעות במדריך הזה.

‏Gemma

‫Gemma הוא קבוצה של מודלים קלים של בינה מלאכותית (AI) גנרטיבית שזמינים לשימוש חופשי ופורסמו ברישיון קוד פתוח. מודלים של AI זמינים להרצה באפליקציות, בחומרה, במכשירים ניידים או בשירותים מתארחים.

במדריך הזה אנחנו מציגים את Gemma ליצירת טקסט. אפשר גם לכוונן את המודלים האלה כדי להתמחות בביצוע משימות ספציפיות.

מערך הנתונים שבו משתמשים במסמך הזה הוא b-mc2/sql-create-context.

מידע נוסף מופיע במאמרי העזרה בנושא Gemma.

יחידות GPU

מעבדי GPU מאפשרים להאיץ עומסי עבודה ספציפיים שפועלים בצמתים, כמו למידת מכונה ועיבוד נתונים. ‫GKE מספק מגוון אפשרויות של סוגי מכונות להגדרת צמתים, כולל סוגי מכונות עם מעבדי GPU של NVIDIA H100,‏ L4 ו-A100.

לפני שמשתמשים ביחידות GPU ב-GKE, כדאי לעבור על תוכנית הלימודים הבאה:

Hugging Face Transformers

באמצעות ספריית Transformers של Hugging Face, אפשר לגשת למודלים מתקדמים שעברו אימון מראש. ספריית Transformers מאפשרת לצמצם את הזמן, המשאבים והעלויות החישוביות שקשורים לאימון המודל המלא.

במדריך הזה תשתמשו בממשקי ה-API ובכלים של Hugging Face כדי להוריד את המודלים האלה שאומנו מראש ולשפר אותם.

מטרות

המדריך הזה מיועד למשתמשים חדשים או קיימים ב-GKE, למהנדסי ML, למהנדסי MLOps (DevOps) או לאדמינים של פלטפורמות שרוצים להשתמש ביכולות של Kubernetes לניהול קונטיינרים כדי לכוונן מודלים גדולים של שפה (LLM) בחומרת GPU מסוג H100,‏ A100 ו-L4.

בסיום המדריך הזה, תוכלו לבצע את השלבים הבאים:

מכינים את הסביבה עם אשכול GKE במצב Autopilot.
יוצרים מאגר תגים לשיפור הדיוק.
שימוש ביחידות GPU כדי לבצע כוונון עדין של מודל Gemma 2B והעלאת המודל ל-Hugging Face.

לפני שמתחילים

נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

צריך לוודא שיש לכם בפרויקט את התפקיד או התפקידים הבאים: roles/container.admin, roles/iam.serviceAccountAdmin, roles/cloudbuild.builds.editor
בדיקת התפקידים
1. נכנסים לדף IAM במסוף Google Cloud .
  כניסה לדף IAM
2. בוחרים את הפרויקט.
3. בעמודה Principal (חשבון המשתמש), מוצאים את כל השורות שבהן מופיע השם שלכם או של קבוצה שאתם נכללים בה. כדי לברר באילו קבוצות אתם נכללים, פנו לאדמין.
4. בודקים את העמודה Role בכל השורות שבהן מצוין או מופיע השם שלכם, כדי לראות אם רשימת התפקידים כוללת את התפקידים הנדרשים.
מתן התפקידים
1. נכנסים לדף IAM במסוף Google Cloud .
  כניסה לדף IAM
2. בוחרים את הפרויקט.
3. לוחצים על Grant access.
4. בשדה New principals, מזינים את מזהה המשתמש. ‫ בדרך כלל מזהה המשתמש הוא כתובת האימייל של חשבון Google.
  ‫
5. לוחצים על Select a role ומחפשים את התפקיד.
6. כדי לתת עוד תפקידים, לוחצים על Add another role ומוסיפים אותם.
7. לוחצים על Save.

יוצרים חשבון ב-Hugging Face, אם עדיין אין לכם חשבון.
מוודאים שיש בפרויקט מכסה מספקת ל-GPU L4. מידע נוסף זמין במאמרים מידע על יחידות GPU ומכסות הקצאה.

גישה למודל

כדי לקבל גישה למודלים של Gemma לצורך פריסה ב-GKE, קודם צריך לחתום על הסכם הרישיון ואז ליצור טוקן גישה ל-Hugging Face.

כדי להשתמש ב-Gemma, צריך לחתום על הסכם ההסכמה. פועלים לפי ההוראות הבאות:

נכנסים אל דף ההסכמה לשימוש במודל באתר Kaggle.com.
צריך לאמת את ההסכמה באמצעות חשבון Hugging Face.
מאשרים את התנאים של המודל.

יצירת אסימון גישה

כדי לגשת למודל דרך Hugging Face, תצטרכו טוקן של Hugging Face.

אם עדיין אין לכם אסימון, אתם יכולים ליצור אסימון חדש באמצעות השלבים הבאים:

לוחצים על הפרופיל שלך > הגדרות > טוקנים של גישה.
בוחרים באפשרות New Token (טוקן חדש).
מציינים שם לבחירתכם ותפקיד ברמה של Write לפחות.
לוחצים על יצירת אסימון.
מעתיקים את הטוקן שנוצר ללוח.

הכנת הסביבה

במדריך הזה משתמשים ב-Cloud Shell כדי לנהל משאבים שמתארחים ב-Google Cloud. ב-Cloud Shell מותקן מראש התוכנה שצריך למדריך הזה, כולל kubectl ו- gcloud CLI.

כדי להגדיר את הסביבה באמצעות Cloud Shell:

ב Google Cloud מסוף, מפעילים סשן של Cloud Shell על ידי לחיצה על Activate Cloud Shell בGoogle Cloud מסוף. תופעל סשן בחלונית התחתונה של Google Cloud המסוף.
מגדירים את משתני הסביבה שמוגדרים כברירת מחדל:
```
gcloud config set project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export CONTROL_PLANE_LOCATION=CONTROL_PLANE_LOCATION
export CLUSTER_NAME=CLUSTER_NAME
export HF_TOKEN=HF_TOKEN
export HF_PROFILE=HF_PROFILE
```
מחליפים את הערכים הבאים:
- ‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud.
- ‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה, us-central1 למעבדי GPU מסוג L4.
- ‫CLUSTER_NAME: השם של האשכול.
- ‫HF_TOKEN: אסימון Hugging Face שיצרתם קודם.
- ‫HF_PROFILE: מזהה הפרופיל ב-Hugging Face שיצרתם קודם.

משכפלים את מאגר הקוד לדוגמה מ-GitHub:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
cd kubernetes-engine-samples/ai-ml/llm-finetuning-gemma

יצירה והגדרה של Google Cloud משאבים

כדי ליצור את המשאבים הנדרשים, פועלים לפי ההוראות הבאות.

יצירת אשכול GKE ומאגר צמתים

אפשר להפעיל את Gemma במעבדים גרפיים באשכול GKE Autopilot או באשכול רגיל. כדי לבחור את מצב הפעולה של GKE שהכי מתאים לעומסי העבודה שלכם, אפשר לעיין במאמר בחירת מצב פעולה של GKE.

שיטה מומלצת:

כדי ליהנות מחוויית Kubernetes מנוהלת לחלוטין, אפשר להשתמש ב-Autopilot.

טייס אוטומטי

ב-Cloud Shell, מריצים את הפקודה הבאה:

gcloud container clusters create-auto CLUSTER_NAME \
    --project=PROJECT_ID \
    --location=CONTROL_PLANE_LOCATION \
    --release-channel=rapid \
    --cluster-version=CLUSTER_VERSION

מחליפים את הערכים הבאים:

‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud.
‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה, us-central1 למעבדי GPU מסוג L4.
‫CLUSTER_NAME: השם של האשכול.
‫CLUSTER_VERSION: גרסת GKE, שצריכה לתמוך בערוץ ההפצה המהירה. מידע נוסף זמין במאמר בנושא בדיקת הגרסאות הזמינות וגרסאות ברירת המחדל.

‫GKE יוצר אשכול Autopilot עם צמתים של מעבד ו-GPU לפי הבקשה של עומסי העבודה שנפרסו.

רגילה

ב-Cloud Shell, מריצים את הפקודה הבאה כדי ליצור אשכול Standard:
```
gcloud container clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --location=CONTROL_PLANE_LOCATION \
    --workload-pool=PROJECT_ID.svc.id.goog \
    --release-channel=rapid \
    --num-nodes=1
```
מחליפים את הערכים הבאים:
- ‫PROJECT_ID: מזהה הפרויקט ב- Google Cloud.
- ‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה, us-central1 למעבדי GPU מסוג L4.
- ‫CLUSTER_NAME: השם של האשכול.
יצירת האשכול עשויה להימשך כמה דקות.

מריצים את הפקודה הבאה כדי ליצור מאגר צמתים עבור האשכול:

gcloud container node-pools create gpupool \
    --accelerator type=nvidia-l4,count=8,gpu-driver-version=latest \
    --project=PROJECT_ID \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=CONTROL_PLANE_LOCATION-a \
    --cluster=CLUSTER_NAME \
    --machine-type=g2-standard-96 \
    --num-nodes=1

‫GKE יוצר מאגר צמתים יחיד שמכיל שני GPU מסוג L4 לכל צומת.

יצירת סוד ב-Kubernetes לפרטי הכניסה של Hugging Face

ב-Cloud Shell, מבצעים את הפעולות הבאות:

מגדירים את kubectl לתקשורת עם האשכול:
```
gcloud container clusters get-credentials CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION
```
מחליפים את הערכים הבאים:
- ‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול.
- ‫CLUSTER_NAME: השם של האשכול.
יוצרים סוד של Kubernetes שמכיל את הטוקן של Hugging Face:
```
kubectl create secret generic hf-secret \
    --from-literal=hf_api_token=$HF_TOKEN \
    --dry-run=client -o yaml | kubectl apply -f -
```
מחליפים את $HF_TOKEN בטוקן של Hugging Face שיצרתם קודם, או משתמשים במשתנה הסביבה אם הגדרתם אותו.

יצירת קונטיינר לכוונון עדין באמצעות Docker ו-Cloud Build

הקונטיינר הזה משתמש בקוד PyTorch ובקוד Hugging Face Transformers כדי לשפר את מודל Gemma הקיים שעבר אימון מראש.

יוצרים מאגר Docker ב-Artifact Registry:

gcloud artifacts repositories create gemma \
    --project=PROJECT_ID \
    --repository-format=docker \
    --location=us \
    --description="Gemma Repo"

מחליפים את PROJECT_ID במזהה הפרויקט ב- Google Cloud.

בנייה והעלאה של התמונה:
```
gcloud builds submit .
```

מייצאים את IMAGE_URL לשימוש בהמשך המדריך הזה.

export IMAGE_URL=us-docker.pkg.dev/PROJECT_ID/gemma/finetune-gemma-gpu:1.0.0

הרצת משימת כוונון עדין ב-GKE

בקטע הזה פורסים את משימת הכוונון העדין של Gemma. ב-Kubernetes, בקר משימות יוצר פוד אחד או יותר ועוזר לוודא שהם מבצעים משימה ספציפית בהצלחה.

פותחים את הקובץ finetune.yaml.

apiVersion: batch/v1
kind: Job
metadata:
  name: finetune-job
  namespace: default
spec:
  backoffLimit: 2
  template:
    metadata:
      annotations:
        kubectl.kubernetes.io/default-container: finetuner
    spec:
      terminationGracePeriodSeconds: 600
      containers:
      - name: finetuner
        image: $IMAGE_URL
        resources:
          limits:
            nvidia.com/gpu: "8"
        env:
        - name: MODEL_NAME
          value: "google/gemma-2b"
        - name: NEW_MODEL
          value: "gemma-2b-sql-finetuned"
        - name: LORA_R
          value: "8"
        - name: LORA_ALPHA
          value: "16"
        - name: TRAIN_BATCH_SIZE
          value: "1"
        - name: EVAL_BATCH_SIZE
          value: "2"
        - name: GRADIENT_ACCUMULATION_STEPS
          value: "2"
        - name: DATASET_LIMIT
          value: "1000"
        - name: MAX_SEQ_LENGTH
          value: "512"
        - name: LOGGING_STEPS
          value: "5"
        - name: HF_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
      volumes:
      - name: dshm
        emptyDir:
          medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
      restartPolicy: OnFailure

מחילים את המניפסט כדי ליצור את משימת הכוונון העדין:
```
envsubst < finetune.yaml | kubectl apply -f -
```
ההוראה הזו מחליפה את IMAGE_URL במשתנה במניפסט.
מריצים את הפקודה הבאה כדי לעקוב אחרי העבודה:
```
watch kubectl get pods
```
מריצים את הפקודה הבאה כדי לבדוק את היומנים של העבודה:
```
kubectl logs job.batch/finetune-job -f
```
משאב ה-Job מוריד את נתוני המודל ואז מבצע כוונון עדין של המודל בכל שמונת מעבדי ה-GPU. התהליך הזה יכול להימשך עד 20 דקות.
אחרי שהעבודה תושלם, עוברים לחשבון Hugging Face. מודל חדש בשם HF_PROFILE/gemma-2b-sql-finetuned מופיע בפרופיל שלכם ב-Hugging Face.

הצגת המודל המכוונן ב-GKE

בקטע הזה פורסים את מאגר התגים vLLM כדי להפעיל את מודל Gemma. במדריך הזה משתמשים ב-Kubernetes Deployment כדי לפרוס את הקונטיינר vLLM. פריסה היא אובייקט Kubernetes API שמאפשר להפעיל כמה רפליקות של Pods שמפוזרות בין הצמתים באשכול.

יוצרים את קובץ המניפסט serve-gemma.yaml הבא:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-gemma-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gemma-server
  template:
    metadata:
      labels:
        app: gemma-server
        ai.gke.io/model: gemma-2b
        ai.gke.io/inference-server: vllm
        examples.ai.gke.io/source: user-guide
    spec:
      containers:
      - name: inference-server
        image: docker.io/vllm/vllm-openai:v0.10.0
        resources:
          requests:
            cpu: "2"
            memory: "7Gi"
            ephemeral-storage: "10Gi"
            nvidia.com/gpu: 1
          limits:
            cpu: "2"
            memory: "7Gi"
            ephemeral-storage: "10Gi"
            nvidia.com/gpu: 1
        command: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
        args:
        - --model=$(MODEL_ID)
        - --tensor-parallel-size=1
        env:
        - name: LD_LIBRARY_PATH
          value: ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64
        - name: MODEL_ID
          value: google/gemma-2b
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: hf-secret
              key: hf_api_token
        volumeMounts:
        - mountPath: /dev/shm
          name: dshm
      volumes:
      - name: dshm
        emptyDir:
            medium: Memory
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4
---
apiVersion: v1
kind: Service
metadata:
  name: llm-service
spec:
  selector:
    app: gemma-server
  type: ClusterIP
  ports:
    - protocol: TCP
      port: 8000
      targetPort: 8000

יוצרים את משתנה הסביבה בשביל MODEL_ID חדש:
```
export MODEL_ID=HF_PROFILE/gemma-2b-sql-finetuned
```
מחליפים את HF_PROFILE במזהה הפרופיל ב-Hugging Face שיצרתם קודם.

מחליפים את MODEL_ID במניפסט:

sed -i "s|google/gemma-2b|$MODEL_ID|g" serve-gemma.yaml

החלת המניפסט:
```
kubectl apply -f serve-gemma.yaml
```
‫Pod באשכול מוריד את משקלי המודל מ-Hugging Face ומתחיל את מנוע ההצגה.

ממתינים עד שהפריסה תהיה זמינה:

kubectl wait --for=condition=Available --timeout=700s deployment/vllm-gemma-deployment

צפייה ביומנים מהפריסה הפעילה:
```
kubectl logs -f -l app=gemma-server
```

המשאב Deployment מוריד את נתוני המודל. התהליך הזה יכול לקחת כמה דקות. הפלט אמור להיראות כך:

INFO 01-26 19:02:54 model_runner.py:689] Graph capturing finished in 4 secs.
INFO:     Started server process [1]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

לפני שממשיכים לקטע הבא, מוודאים שהמודל הורד במלואו.

פרסום המודל

בקטע הזה אתם מנהלים אינטראקציה עם המודל.

הגדרת העברה ליציאה אחרת

אחרי פריסת המודל, מריצים את הפקודה הבאה כדי להגדיר העברת נתונים (port forwarding) למודל:

kubectl port-forward service/llm-service 8000:8000

הפלט אמור להיראות כך:

Forwarding from 127.0.0.1:8000 -> 8000

אינטראקציה עם המודל באמצעות curl

בסשן חדש של מסוף, משתמשים ב-curl כדי לשוחח עם המודל:

הדוגמה הבאה היא פקודה ל-TGI:

USER_PROMPT="Question: What is the total number of attendees with age over 30 at kubecon eu? Context: CREATE TABLE attendees (name VARCHAR, age INTEGER, kubecon VARCHAR)"

curl -X POST http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d @- <<EOF
{
    "prompt": "${USER_PROMPT}",
    "temperature": 0.1,
    "top_p": 1.0,
    "max_tokens": 24
}
EOF

בדוגמה הבאה אפשר לראות את התשובה של המודל:

{"generated_text":" Answer: SELECT COUNT(age) FROM attendees WHERE age > 30 AND kubecon = 'eu'\n"}

יכול להיות שתצטרכו לשנות את max_token כדי לקבל תוצאה טובה יותר, בהתאם לשאילתה. אתם יכולים גם להשתמש במודל שעבר התאמה להוראות כדי לשפר את חוויית השימוש בצ'אט.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.

מחיקת המשאבים שנפרסו

כדי להימנע מחיובים בחשבון Google Cloud על המשאבים שיצרתם במדריך הזה, מריצים את הפקודה הבאה:

gcloud container clusters delete CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION

מחליפים את הערכים הבאים:

‫CONTROL_PLANE_LOCATION: האזור של Compute Engine במישור הבקרה של האשכול. מציינים אזור שתומך בסוג המאיץ שרוצים להשתמש בו, לדוגמה, us-central1 למעבדי GPU מסוג L4.
‫CLUSTER_NAME: השם של האשכול.

המאמרים הבאים

מידע נוסף על יחידות GPU ב-GKE
כדי ללמוד איך להשתמש ב-Gemma עם TGI במאיצים אחרים, כולל מעבדי GPU מסוג A100 ו-H100, אפשר לעיין בקוד לדוגמה ב-GitHub.
איך פורסים עומסי עבודה של GPU בטייס אוטומטי
איך פורסים עומסי עבודה של GPU ב-Standard
מעיינים ב-Vertex AI Model Garden.
כך מריצים עומסי עבודה של AI/ML שעברו אופטימיזציה באמצעות יכולות התזמור של פלטפורמת GKE.
איך משתמשים ב-Assured Workloads כדי להחיל אמצעי בקרה על תיקייה ב- Google Cloudכדי לעמוד בדרישות הרגולטוריות.

ביצוע התאמה עדינה של מודלים פתוחים של Gemma באמצעות כמה יחידות GPU ב-GKE קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

רקע

‏Gemma

יחידות GPU

Hugging Face Transformers

מטרות

לפני שמתחילים

בדיקת התפקידים

מתן התפקידים

גישה למודל

חתימה על הסכם הסכמה לרישיון

יצירת אסימון גישה

הכנת הסביבה

יצירה והגדרה של Google Cloud משאבים

יצירת אשכול GKE ומאגר צמתים

טייס אוטומטי

רגילה

יצירת סוד ב-Kubernetes לפרטי הכניסה של Hugging Face

יצירת קונטיינר לכוונון עדין באמצעות Docker ו-Cloud Build

הרצת משימת כוונון עדין ב-GKE

הצגת המודל המכוונן ב-GKE

פרסום המודל

הגדרת העברה ליציאה אחרת

אינטראקציה עם המודל באמצעות curl

הסרת המשאבים

מחיקת המשאבים שנפרסו

המאמרים הבאים

ביצוע התאמה עדינה של מודלים פתוחים של Gemma באמצעות כמה יחידות GPU ב-GKE