מודל LLM לתרגום (TLLM)

מודל התרגום המתקדם ביותר של Google, ‏ TLLM, הוא מודל שפה גדול (LLM) שמספק את איכות התרגום הגבוהה ביותר שזמינה. הוא השיג ציונים טובים משמעותית במדד MetricX ובמדד COMET בעומסי עבודה מורכבים, בהשוואה למודלים אחרים לתרגום. היא תומכת בהתאמה אישית וגם בתרגום אדפטיבי קל משקל יותר.

מזהה המודל הוא general/translation-llm.

כדי לגשת למודל TLLM, צריך Google Cloud פרויקט שבו מופעל Cloud Translation - Advanced API, עם פרטי כניסה לביצוע קריאות מאומתות. כדי לגשת למודל באמצעות Python או שפת תכנות אחרת, צריך להתקין את ספריית הלקוח המתאימה בגרסה 3 .

בדוגמאות שמוצגות כאן, PROJECT_ID מייצג את מזהה הפרויקט, ו-REGION_NAME מייצג את השם הטכני של האזור Google Cloud שבו רוצים להריץ את פעולת התרגום (למשל us-central1). כשצריך, משתמשים בקודים לפי תקן ISO-639 כדי לזהות את שפת המקור ואת שפת היעד.

דוגמה לתרגום טקסט באמצעות REST

אפשר להשתמש ב-API בארכיטקטורת REST כדי לקרוא ל-TranslateText במודל TLLM. אפשר להכניס את שדות הבקשה לקובץ JSON בשם כלשהו, למשל request.json:

{
  "contents": ["This is text that I would like to have translated.",
               "It can include up to 1024 strings."],
  "mimeType": "text/plain",
  "sourceLanguageCode": "en"
  "targetLanguageCode": "it",
  "model": "projects/PROJECT_ID/locations/REGION_NAME/models/general/translation-llm"
}

אחר כך אפשר להשתמש בפקודה curl כדי לשלוח את הבקשה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID:translateText"

התגובה היא מסמך JSON שנראה כך:

{
  "translations": [
    {
      "translatedText": "Este es el texto que me gustaría traducir.",
      "model": "projects/PROJECT_ID/locations/REGION_NAME/models/general/translation-llm"
    },
    {
      "translatedText": "Puede incluir hasta 1024 cadenas.",
      "model": "projects/PROJECT_ID/locations/REGION_NAME/models/general/translation-llm"
    }
  ]
}

דוגמה לתרגום טקסט ב-Python

קוד Python לדוגמה לקריאה ל-TranslateText באמצעות מודל TLLM:

from google.cloud import translate_v3

def translate():

  response = translate_v3.TranslationServiceClient().translate_text(
      contents=["Life is short.",
                  "Art is long."],
      target_language_code='fr',
      source_language_code='en',
      parent=f"projects/PROJECT_ID/locations/REGION_NAME",
      model=f"projects/PROJECT_ID/locations/REGION_NAME/models/general/translation-llm"
  )

  print(response)

  return response

translate()

התגובה היא בצורת אובייקטים של JSON:

translations {
  translated_text: "La vie est courte."
  model: "projects/261347268520/locations/us-central1/models/general/translation-llm"
}
translations {
  translated_text: "L'art est long."
  model: "projects/261347268520/locations/us-central1/models/general/translation-llm"
}

translations {
  translated_text: "La vie est courte."
  model: "projects/261347268520/locations/us-central1/models/general/translation-llm"
}
translations {
  translated_text: "L'art est long."
  model: "projects/261347268520/locations/us-central1/models/general/translation-llm"