Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

תרגום מסמכים

‫Cloud Translation – Advanced מספק API לתרגום מסמכים, לתרגום ישיר של מסמכים מפורמטים כמו PDF ו-DOCX. בהשוואה לתרגומים של טקסט פשוט, תרגום מסמכים שומר על העיצוב והפריסה המקוריים במסמכים המתורגמים, ועוזר לשמור על חלק גדול מההקשר המקורי, כמו מעברי פסקאות.

בקטעים הבאים מוסבר איך לתרגם מסמכים ואיך להשתמש בתרגום מסמכים עם תכונות מתקדמות אחרות של Cloud Translation, כמו מילונים ומודלים של AutoML Translation. הכלי לתרגום מסמכים תומך בבקשות תרגום אונליין ובבקשות תרגום באצווה.

לתרגומים של טקסט פשוט ו-HTML, אפשר לעיין במאמר בנושא תרגום טקסט.

פורמטים נתמכים של קבצים

הכלי 'תרגום מסמכים' תומך בסוגי קבצים להזנה הבאים ובסוגי קבצים משויכים לפלט.

קלט	סוג MIME של המסמך	תשובה
DOC^*	application/msword	DOC, DOCX
‫DOCX^*	application/vnd.openxmlformats-officedocument.wordprocessingml.document	DOCX
‫PDF^†	application/pdf	‫PDF, ‏ DOCX
PPT	application/vnd.ms-powerpoint	PPT, ‏ PPTX
PPTX	application/vnd.openxmlformats-officedocument.presentationml.presentation	PPTX
XLS	application/vnd.ms-excel	XLS, ‏ XLSX
XLSX	application/vnd.openxmlformats-officedocument.spreadsheetml.sheet	XLSX

^*התוכן בתיבות טקסט לא מתורגם ונשאר בשפת המקור.

^†הכלי לתרגום מסמכים תומך במסמכי PDF מקוריים ובמסמכי PDF סרוקים, עם כמה הבדלים. כדי לטפל בפורמט בצורה אופטימלית, מומלץ להשתמש בקובצי PDF מקוריים כשזה אפשרי. תרגום של קובצי PDF סרוקים גורם לאובדן של חלק מהעיצוב. פריסות מורכבות של קובצי PDF עלולות גם לגרום לאובדן של חלק מהעיצוב, כולל טבלאות נתונים, פריסות עם כמה עמודות וגרפים עם תוויות או מקרא.

אם יש לכם תוכן בפורמט PDF בפורמט DOCX או PPTX, מומלץ לתרגם את התוכן באמצעות הפורמטים האלה לפני שממירים אותו ל-PDF. באופן כללי, תרגום מסמכים שומר על הפריסה והסגנון של קובצי DOCX ו-PPTX בצורה טובה יותר מאשר של קובצי PDF. אחרי תרגום מסמך, אפשר להמיר את התוצאות לקובצי PDF.

תרגומים של מסמכי PDF מקוריים וסרוקים

הכלי 'תרגום מסמכים' תומך בקובצי PDF מקוריים ובקובצי PDF סרוקים, כולל תרגומים לשפות שנכתבות מימין לשמאל או משפות שנכתבות מימין לשמאל. התמיכה בהמרות מ-PDF ל-DOCX זמינה רק לתרגום של קבוצת מסמכים בקובצי PDF מקוריים. בנוסף, התרגום של מסמכים שומר על היפר-קישורים, גודל הגופן וצבע הגופן רק בקובצי PDF מקוריים (גם בתרגומים סינכרוניים וגם בתרגומים באצווה).

אם תתרגמו קובץ PDF עם תוכן סרוק ותוכן PDF מקורי, התוכן הסרוק לא יתורגם.

לפני שמתחילים

לפני שמתחילים להשתמש ב-Cloud Translation API, צריך להשלים את השלבים שמפורטים בדף הגדרת Cloud Translation, כולל יצירת פרויקט, הפעלת Cloud Translation API והגדרת אימות. בדף ההגדרה יש גם הוראות להתקנת ספריות לקוח לשפות תכנות נפוצות, אבל זה לא חובה.

ההרשאות הנדרשות

עבור בקשות שדורשות גישה ל-Cloud Storage, כמו תרגום מסמכים באצווה, יכול להיות שתצטרכו הרשאות ל-Cloud Storage כדי לקרוא קובצי קלט או לשלוח קובצי פלט לקטגוריה. לדוגמה, כדי לקרוא קובצי קלט מקטגוריה, צריכות להיות לכם לפחות הרשאות קריאה של אובייקטים (שניתנות על ידי התפקיד roles/storage.objectViewer) בקטגוריה. מידע נוסף על תפקידים ב-Cloud Storage זמין במאמרי העזרה של Cloud Storage.

תרגום מסמכים (אונליין)

תרגום אונליין מספק עיבוד בזמן אמת (עיבוד סינכרוני) של קובץ יחיד.

במקרה של קובצי PDF, גודל הקובץ יכול להיות עד 20MB, ועד 300 דפים בקובצי PDF מקוריים (נדרש שהשדה isTranslateNativePdfOnly יהיה true). אם מפעילים את השדה enableShadowRemovalNativePdf, המגבלה היא 20 דפים. בקובצי PDF סרוקים, המגבלה היא 20 דפים.

בסוגי מסמכים אחרים, גודל הקובץ יכול להיות עד 20MB ללא מגבלות על מספר העמודים.

תרגום מסמך מ-Cloud Storage

בדוגמה הבאה מתורגם קובץ מקטגוריה של Cloud Storage והתוצאה מועברת לקטגוריה של Cloud Storage. התגובה מחזירה גם זרם של בייטים. אפשר לציין את סוג ה-MIME. אם לא תציינו, הכלי לתרגום מסמכים יקבע אותו לפי הסיומת של קובץ הקלט.

אם לא תציינו קוד של שפת מקור, הכלי לתרגום מסמכים יזהה את השפה בשבילכם. השפה שזוהתה כלולה בפלט בשדה detectedLanguageCode.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה, us-central1.
‫SOURCE_LANGUAGE: (אופציונלי) קוד השפה של מסמך הקלט. אם ידוע, צריך להגדיר את אחד מקודי השפה שמופיעים בתמיכה בשפות.
TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך הקלט.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
‫IS_NATIVE: (אופציונלי) עבור מסמכי PDF מקוריים, ערך בוליאני שמציין אם הבקשה משתמשת במגבלת הדפים המקוריים או הסרוקים של PDF. אם הערך הוא true, מגבלת הדפים עולה ל-300 דפים רק במסמכי PDF מקוריים. אם הערך הוא false או לא צוין, נעשה שימוש במגבלת הדפים של קובץ ה-PDF שנסרק (20 דפים).

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_code": "TARGET_LANGUAGE",
  "document_input_config": {
    "gcsSource": {
      "inputUri": "gs://INPUT_FILE_PATH"
    }
  },
  "document_output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  },
  "isTranslateNativePdfOnly": IS_NATIVE
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

הערה: הפקודה הבאה מבוססת על ההנחה שנכנסתם ל-CLI של gcloud באמצעות חשבון המשתמש שלכם, על ידי הרצת gcloud init או gcloud auth login, או באמצעות Cloud Shell שמחבר אתכם אוטומטית ל-CLI של gcloud. כדי לבדוק איזה חשבון פעיל, אפשר להריץ את הפקודה gcloud auth list.

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument"

‎PowerShell (Windows)

הערה: הפקודה הבאה מבוססת על ההנחה שנכנסתם ל-CLI של gcloud באמצעות חשבון המשתמש שלכם, על ידי הרצת gcloud init או gcloud auth login. כדי לבדוק איזה חשבון פעיל, אפשר להריץ את הפקודה gcloud auth list.

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument" | Select-Object -Expand Content

אתם אמורים לקבל תגובת JSON שדומה לזו:

{
  "documentTranslation": {
    "byteStreamOutputs": ["BYTE_STREAM"],
    "mimeType": "MIME_TYPE"
  },
  "model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt"
}

Node.js

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Node.js API.

כדי לבצע אימות ב-Cloud Translation, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

/**
 * TODO(developer): Uncomment these variables before running the sample.
 */
// const projectId = 'YOUR_PROJECT_ID';
// const location = 'global';
// const inputUri = 'path_to_your_file';

// Imports the Google Cloud Translation library
const {TranslationServiceClient} = require('@google-cloud/translate').v3beta1;

// Instantiates a client
const translationClient = new TranslationServiceClient();

const documentInputConfig = {
  gcsSource: {
    inputUri: inputUri,
  },
};

async function translateDocument() {
  // Construct request
  const request = {
    parent: translationClient.locationPath(projectId, location),
    documentInputConfig: documentInputConfig,
    sourceLanguageCode: 'en-US',
    targetLanguageCode: 'sr-Latn',
  };

  // Run request
  const [response] = await translationClient.translateDocument(request);

  console.log(
    `Response: Mime Type - ${response.documentTranslation.mimeType}`
  );
}

translateDocument();

תרגום מסמך בתוך השורה

בדוגמה הבאה, מסמך נשלח בתוך הבקשה. חובה לכלול את סוג ה-MIME לתרגומים של מסמכים מוטבעים.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה, us-central1.
‫SOURCE_LANGUAGE: (אופציונלי) קוד השפה של מסמך הקלט. אם ידוע, צריך להגדיר את אחד מקודי השפה שמופיעים בתמיכה בשפות.
TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫MIME_TYPE: הפורמט של מסמך המקור, למשל application/pdf.
‫INPUT_BYTE_STREAM: תוכן מסמך הקלט שמיוצג כזרם של בייטים.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
‫IS_NATIVE: (אופציונלי) עבור מסמכי PDF מקוריים, ערך בוליאני שמציין אם הבקשה משתמשת במגבלת הדפים המקוריים או הסרוקים של PDF. אם הערך הוא true, מגבלת הדפים עולה ל-300 דפים רק במסמכי PDF מקוריים. אם הערך הוא false או לא צוין, נעשה שימוש במגבלת הדפים של קובץ ה-PDF שנסרק (20 דפים).

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_code": "TARGET_LANGUAGE",
  "document_input_config": {
    "mimeType": "MIME_TYPE",
    "content": "INPUT_BYTE_STREAM"
  },
  "document_output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  },
  "isTranslateNativePdfOnly": IS_NATIVE
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument"

‎PowerShell (Windows)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument" | Select-Object -Expand Content

אתם אמורים לקבל תגובת JSON שדומה לזו:

{
  "documentTranslation": {
    "byteStreamOutputs": ["BYTE_STREAM"],
    "mimeType": "MIME_TYPE"
  },
  "model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt"
}

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonהוראות ההגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Python API.

from google.cloud import translate_v3beta1 as translate


def translate_document(
    project_id: str,
    file_path: str,
) -> translate.TranslationServiceClient:
    """Translates a document.

    Args:
        project_id: The GCP project ID.
        file_path: The path to the file to be translated.

    Returns:
        The translated document.
    """

    client = translate.TranslationServiceClient()
    location = "us-central1"
    parent = f"projects/{project_id}/locations/{location}"

    # Supported file types: https://cloud.google.com/translate/docs/supported-formats
    with open(file_path, "rb") as document:
        document_content = document.read()

    document_input_config = {
        "content": document_content,
        "mime_type": "application/pdf",
    }

    response = client.translate_document(
        request={
            "parent": parent,
            "target_language_code": "fr-FR",
            "document_input_config": document_input_config,
        }
    )

    # To output the translated document, uncomment the code below.
    # f = open('/tmp/output', 'wb')
    # f.write(response.document_translation.byte_stream_outputs[0])
    # f.close()

    # If not provided in the TranslationRequest, the translated file will only be returned through a byte-stream
    # and its output mime type will be the same as the input file's mime type
    print(
        f"Response: Detected Language Code - {response.document_translation.detected_language_code}"
    )

    return response

שימוש במודל AutoML או במילון מונחים

במקום במודל שמנוהל על ידי Google, אתם יכולים להשתמש במודלים שלכם לתרגום AutoML כדי לתרגם מסמכים. בנוסף לציון מודל, אפשר גם לכלול מילון מונחים לטיפול במינוח ספציפי לתחום. אם מציינים מודל או מילון מונחים, צריך לציין את שפת המקור. בדוגמה הבאה נעשה שימוש במודל AutoML ובמילון מונחים. אם המודל או המילון נמצאים בפרויקט אחר, צריך לקבל את הרשאת ה-IAM המתאימה כדי לגשת למשאבים האלה.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו, למשל us-central1. המיקום צריך להיות זהה לאזור שבו נמצאים המודל, המילון או שניהם.
‫SOURCE_LANGUAGE: קוד השפה של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך הקלט.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
‫MODEL_PROJECT_ID: מזהה הפרויקט שבו נמצא המודל.
‫MODEL_LOCATION: האזור שבו נמצא המודל.
‫MODEL_ID: המזהה של המודל שרוצים להשתמש בו.
‫GLOSSARY_PROJECT_ID: מזהה הפרויקט שבו נמצא המילון.
‫GLOSSARY_LOCATION: האזור שבו נמצא המילון.
‫GLOSSARY_ID: המזהה של המילון המונחים שרוצים להשתמש בו.

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_code": "TARGET_LANGUAGE",
  "document_input_config": {
    "gcsSource": {
      "inputUri": "gs://INPUT_FILE_PATH"
    }
  },
  "document_output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  },
  "model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
  "glossary_config": {
    "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
  }
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument"

‎PowerShell (Windows)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument" | Select-Object -Expand Content

אתם אמורים לקבל תגובת JSON שדומה לזו:

{
  "documentTranslation": {
    "byteStreamOutputs": ["BYTE_STREAM"],
    "mimeType": "MIME_TYPE"
  },
  "glossary_document_translation": {
    "byteStreamOutputs": ["BYTE_STREAM_USING_GLOSSARY"],
    "mimeType": "MIME_TYPE"
  },
  "model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
  "glossaryConfig": {
    "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
  }
}

תרגום מסמכים (בתהליך אצווה)

תרגום באצווה מאפשר לכם לתרגם כמה קבצים לכמה שפות בבקשה אחת. בכל בקשה אפשר לשלוח עד 100 קבצים, עם גודל תוכן כולל של עד 1GB או 100 מיליון נקודות קוד של Unicode, לפי המגבלה שתגיע קודם. אפשר לציין מודל תרגום מסוים לכל שפה.

תרגום של כמה מסמכים

בדוגמה הבאה מוצגות כמה הגדרות קלט. כל הגדרת קלט היא מצביע לקובץ בקטגוריה של Cloud Storage.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה, us-central1.
SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫TARGET_LANGUAGE: שפת היעד או השפות שאליהן יתורגמו מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
‫INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך קלט אחד או יותר.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_codes": ["TARGET_LANGUAGE", ...],
  "input_configs": [
    {
      "gcsSource": {
        "inputUri": "gs://INPUT_FILE_PATH_1"
      }
    },
    {
      "gcsSource": {
        "inputUri": "gs://INPUT_FILE_PATH_2"
      }
    },
    ...
  ],
  "output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  }
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument"

‎PowerShell (Windows)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument" | Select-Object -Expand Content

התשובה מכילה את המזהה של פעולה ממושכת.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
    "state": "RUNNING"
  }
}

Node.js

/**
 * TODO(developer): Uncomment these variables before running the sample.
 */
// const projectId = 'YOUR_PROJECT_ID';
// const location = 'us-central1';
// const inputUri = 'path_to_your_files';
// const outputUri = 'path_to_your_output_bucket';

// Imports the Google Cloud Translation library
const {TranslationServiceClient} = require('@google-cloud/translate').v3beta1;

// Instantiates a client
const translationClient = new TranslationServiceClient();

const documentInputConfig = {
  gcsSource: {
    inputUri: inputUri,
  },
};

async function batchTranslateDocument() {
  // Construct request
  const request = {
    parent: translationClient.locationPath(projectId, location),
    documentInputConfig: documentInputConfig,
    sourceLanguageCode: 'en-US',
    targetLanguageCodes: ['sr-Latn'],
    inputConfigs: [
      {
        gcsSource: {
          inputUri: inputUri,
        },
      },
    ],
    outputConfig: {
      gcsDestination: {
        outputUriPrefix: outputUri,
      },
    },
  };

  // Batch translate documents using a long-running operation.
  // You can wait for now, or get results later.
  const [operation] = await translationClient.batchTranslateDocument(request);

  // Wait for operation to complete.
  const [response] = await operation.promise();

  console.log(`Total Pages: ${response.totalPages}`);
}

batchTranslateDocument();

Python


from google.cloud import translate_v3beta1 as translate


def batch_translate_document(
    input_uri: str,
    output_uri: str,
    project_id: str,
    timeout: int = 180,
) -> translate.BatchTranslateDocumentResponse:
    """Batch translate documents.

    Args:
        input_uri: Google Cloud Storage location of the input document.
        output_uri: Google Cloud Storage location of the output document.
        project_id: The GCP project ID.
        timeout: The timeout for this request.

    Returns:
        Translated document response
    """
    client = translate.TranslationServiceClient()

    # The ``global`` location is not supported for batch translation
    location = "us-central1"

    # Google Cloud Storage location for the source input. This can be a single file
    # (for example, ``gs://translation-test/input.docx``) or a wildcard
    # (for example, ``gs://translation-test/*``).
    # Supported file types: https://cloud.google.com/translate/docs/supported-formats
    gcs_source = {"input_uri": input_uri}

    batch_document_input_configs = {
        "gcs_source": gcs_source,
    }
    gcs_destination = {"output_uri_prefix": output_uri}
    batch_document_output_config = {"gcs_destination": gcs_destination}
    parent = f"projects/{project_id}/locations/{location}"

    # Supported language codes: https://cloud.google.com/translate/docs/language
    operation = client.batch_translate_document(
        request={
            "parent": parent,
            "source_language_code": "en-US",
            "target_language_codes": ["fr-FR"],
            "input_configs": [batch_document_input_configs],
            "output_config": batch_document_output_config,
        }
    )

    print("Waiting for operation to complete...")
    response = operation.result(timeout)

    print(f"Total Pages: {response.total_pages}")

    return response

תרגום והמרה של קובץ PDF מקורי

בדוגמה הבאה מתבצעת תרגום והמרה של קובץ PDF מקורי לקובץ DOCX. אפשר לציין כמה קלטים מסוגים שונים של קבצים. לא חייבים להיות קובצי PDF מקוריים. עם זאת, אי אפשר לכלול קובצי PDF סרוקים כשמבקשים המרה. הבקשה נדחית ולא מתבצע תרגום. רק קובצי PDF מקוריים מתורגמים ומומרים לקובצי DOCX. לדוגמה, אם כוללים קובצי PPTX, הם מתורגמים ומוחזרים כקובצי PPTX.

אם אתם מתרגמים באופן קבוע קבצי PDF סרוקים וקבצי PDF מקוריים, מומלץ לארגן אותם בדלי Cloud Storage נפרדים. כך, כשמבקשים תרגום והמרה של קבוצת קבצים, אפשר להחריג בקלות את ה-Bucket שמכיל קובצי PDF סרוקים, במקום להחריג קבצים בודדים.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה, us-central1.
SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫TARGET_LANGUAGE: שפת היעד או השפות שאליהן יתורגמו מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
‫INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של קובץ PDF מקורי אחד או יותר.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_codes": ["TARGET_LANGUAGE", ...],
  "input_configs": [
    {
      "gcsSource": {
        "inputUri": "gs://INPUT_FILE_PATH_1"
      }
    },
    {
      "gcsSource": {
        "inputUri": "gs://INPUT_FILE_PATH_2"
      }
    },
    ...
  ],
  "output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  },
  "format_conversions": {
    "application/pdf": "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
  }
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument"

‎PowerShell (Windows)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument" | Select-Object -Expand Content

התשובה מכילה את המזהה של פעולה ממושכת.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
    "state": "RUNNING"
  }
}

שימוש במודל AutoML או במילון מונחים

במקום במודל שמנוהל על ידי Google, אתם יכולים להשתמש במודלים שלכם לתרגום AutoML כדי לתרגם מסמכים. בנוסף לציון מודל, אפשר גם לכלול מילון מונחים לטיפול במינוח ספציפי לתחום. אם מציינים מודל או מילון מונחים, צריך לציין את שפת המקור. בדוגמה הבאה נעשה שימוש במודל AutoML ובמילון מונחים. אפשר לציין עד 10 שפות יעד עם מודל ומילון מונחים משלהן.

אם מציינים מודל לשפות יעד מסוימות ולא לשפות אחרות, הכלי לתרגום מסמכים משתמש במודל שמנוהל על ידי Google לשפות שלא צוינו. באופן דומה, אם תציינו מילון מונחים לשפות יעד מסוימות, המערכת לא תשתמש במילון מונחים לשפות שלא צוינו.

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
‫LOCATION: האזור שבו רוצים להריץ את הפעולה הזו, למשל us-central1. המיקום צריך להיות זהה לאזור שבו נמצאים המודל, המילון או שניהם.
SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
‫TARGET_LANGUAGE: שפת היעד או השפות שאליהן יתורגמו מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
‫INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך קלט אחד או יותר.
‫OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.
‫MODEL_PROJECT_ID: מזהה הפרויקט שבו נמצא המודל.
‫MODEL_LOCATION: האזור שבו נמצא המודל.
‫MODEL_ID: המזהה של המודל שרוצים להשתמש בו.
‫GLOSSARY_PROJECT_ID: מזהה הפרויקט שבו נמצא המילון.
‫GLOSSARY_LOCATION: האזור שבו נמצא המילון.
‫GLOSSARY_ID: המזהה של המילון המונחים שרוצים להשתמש בו.

ה-method של ה-HTTP וכתובת ה-URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument

תוכן בקשת JSON:

{
  "source_language_code": "SOURCE_LANGUAGE",
  "target_language_codes": "[TARGET_LANGUAGE, ...]",
  "input_configs": [
    {
      "gcsSource": {
        "inputUri": "gs://INPUT_FILE_PATH"
      }
    }
  ],
  "output_config": {
    "gcsDestination": {
      "outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
    }
  },
  "models": {
    "TARGET_LANGUAGE": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
    ...
  },
  "glossaries": {
    "TARGET_LANGUAGE": {
      "glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
    },
    ...
  }
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_NUMBER_OR_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument"

‎PowerShell (Windows)

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_NUMBER_OR_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument" | Select-Object -Expand Content

התשובה מכילה את המזהה של פעולה ממושכת.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
    "state": "RUNNING"
  }
}

טקסט חופף

במקרים מסוימים, תרגומים מקוריים של קובצי PDF עשויים לכלול טקסט מתורגם שמוצג על טקסט המקור. הבעיה הזו נקראת טקסט צל.

במקרים מסוימים, אפשר להסיר את הטקסט עם הצללה על ידי הפעלת האפשרות enableShadowRemovalNativePdf. אם מפעילים את האפשרות הזו, זמן האחזור של התגובה גדל, ובמקרה של תרגום מסמכים אונליין, מגבלת הדפים מצטמצמת ל-20. אפשר לדעת אם צריך להסיר טקסט מוצלל מהמסמך רק אחרי שהוא מתורגם.

במקרים אחרים, אם האפשרות enableShadowRemovalNativePdf לא פועלת, אפשר להמיר את ה-PDF לתמונה ואז לתרגם אותה. בדרך כלל, המקרים האלה כוללים טקסט בכמה שכבות, למשל כשמעל תמונת רקע שכוללת גם טקסט מופיע טקסט שאפשר לבחור. המרת ה-PDF לתמונה מאפשרת ל-Cloud Translation לעבד את המסמך כקובץ PDF סרוק. כדי לבצע את ההמרה, אפשר להשתמש ב-Chrome (הדפסה כתמונה) או בכלים אחרים של צד שלישי.

כיוון הטקסט

במקרה של תרגום קובצי PDF סרוקים, טקסט המקור צריך להיות אופקי. לדוגמה, אם מסמך סרוק כולל טקסט שמוטה כלפי מעלה או מטה, יכול להיות ש-Cloud Translation לא ינתח את כל הטקסט בצורה נכונה, ולכן התרגומים יהיו לא נכונים או לא מלאים.

אם המסמכים שלכם לא מוצגים באותו כיוון, אתם יכולים להשתמש ב-Cloud Translation כדי לשנות את הכיוון שלהם. בבקשת התרגום, מפעילים את האפשרות enableRotationCorrection כדי שהטקסט יהיה בכיוון הנכון לפני התרגום.

המאמרים הבאים

התמחור של תרגום מסמכים הוא לפי דף. מידע נוסף מפורט בקטע תמחור.