תרגום מסמכים
Cloud Translation – Advanced מספק API לתרגום מסמכים, לתרגום ישיר של מסמכים מפורמטים כמו PDF ו-DOCX. בהשוואה לתרגומים של טקסט פשוט, תרגום מסמכים שומר על הפורמט והפריסה המקוריים במסמכים המתורגמים, ועוזר לשמור על חלק גדול מההקשר המקורי, כמו מעברי פסקאות.
בקטעים הבאים מוסבר איך לתרגם מסמכים ואיך להשתמש בתרגום מסמכים עם תכונות מתקדמות אחרות של Cloud Translation, כמו מילונים ומודלים של AutoML Translation. הכלי לתרגום מסמכים תומך בבקשות תרגום אונליין ובבקשות תרגום באצווה.
לתרגומים של טקסט רגיל ו-HTML, אפשר לעיין במאמר בנושא תרגום טקסט.
פורמטים נתמכים של קבצים
הכלי 'תרגום מסמכים' תומך בסוגי קבצים להזנה הבאים ובסוגי קבצים משויכים לפלט.
| נתוני קלט | סוג MIME של המסמך | תשובה |
|---|---|---|
| DOC* | application/msword | DOC, DOCX |
| DOCX* | application/vnd.openxmlformats-officedocument.wordprocessingml.document | DOCX |
| PDF† | application/pdf | PDF, DOCX |
| PPT | application/vnd.ms-powerpoint | PPT, PPTX |
| PPTX | application/vnd.openxmlformats-officedocument.presentationml.presentation | PPTX |
| XLS | application/vnd.ms-excel | XLS, XLSX |
| XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | XLSX |
*התוכן בתיבות טקסט לא מתורגם ונשאר בשפת המקור.
†הכלי לתרגום מסמכים תומך במסמכי PDF מקוריים ובמסמכי PDF סרוקים, אבל יש כמה הבדלים. כדי לטפל בפורמט בצורה אופטימלית, מומלץ להשתמש בקובצי PDF מקוריים כשזה אפשרי. תרגום של קובצי PDF סרוקים גורם לאובדן של חלק מהעיצוב. פריסות מורכבות של קובצי PDF עלולות גם לגרום לאובדן של חלק מהעיצוב, כולל טבלאות נתונים, פריסות עם כמה עמודות וגרפים עם תוויות או מקרא.
אם יש לכם תוכן בפורמט PDF בפורמט DOCX או PPTX, מומלץ לתרגם את התוכן באמצעות הפורמטים האלה לפני שממירים אותו ל-PDF. באופן כללי, תרגום מסמכים שומר על הפריסה והסגנון של קובצי DOCX ו-PPTX טוב יותר מאשר של קובצי PDF. אחרי תרגום מסמך, אפשר להמיר את התוצאות לקובצי PDF.
תרגומים של מסמכי PDF מקוריים וסרוקים
הכלי 'תרגום מסמכים' תומך בקובצי PDF מקוריים ובקובצי PDF סרוקים, כולל תרגומים לשפות שנכתבות מימין לשמאל או משפות שנכתבות מימין לשמאל. התמיכה בהמרת PDF ל-DOCX זמינה רק לתרגום קבוצתי של מסמכים בקובצי PDF מקוריים. בנוסף, התרגום של מסמכים שומר על היפר-קישורים, גודל הגופן וצבע הגופן רק בקובצי PDF מקוריים (גם בתרגומים סינכרוניים וגם בתרגומים של קבוצות קבצים).
אם תתרגמו קובץ PDF עם תוכן סרוק ותוכן PDF מקורי, התוכן הסרוק לא יתורגם.
לפני שמתחילים
כדי להתחיל להשתמש ב-Cloud Translation API, צריך שיהיה לכם פרויקט שבו ה-API הזה מופעל, וצריכים להיות לכם פרטי הכניסה המתאימים. אפשר גם להתקין ספריות לקוח לשפות תכנות נפוצות כדי לעזור לכם לבצע קריאות ל-API. מידע נוסף זמין בדף הגדרה.
ההרשאות הנדרשות
עבור בקשות שדורשות גישה ל-Cloud Storage, כמו תרגום מסמכים באצווה, יכול להיות שתצטרכו הרשאות ל-Cloud Storage כדי לקרוא קובצי קלט או לשלוח קובצי פלט לקטגוריה. לדוגמה, כדי לקרוא קובצי קלט מקטגוריה, צריכות להיות לכם הרשאות לקריאת אובייקטים לפחות (שניתנות על ידי התפקיד roles/storage.objectViewer) בקטגוריה. מידע נוסף על תפקידים ב-Cloud Storage זמין במאמרי העזרה של Cloud Storage.
תרגום מסמכים (אונליין)
תרגום אונליין מספק עיבוד בזמן אמת (עיבוד סינכרוני) של קובץ יחיד.
במקרה של קובצי PDF, גודל הקובץ יכול להיות עד 20MB, ועד 300 דפים לקובצי PDF מקוריים (נדרש שהשדה isTranslateNativePdfOnly יהיה true). אם מפעילים את השדה enableShadowRemovalNativePdf, המגבלה היא 20 דפים. בקובצי PDF סרוקים, המגבלה היא 20 דפים.
בסוגי מסמכים אחרים, גודל הקובץ יכול להיות עד 20MB ללא מגבלות על מספר העמודים.
תרגום מסמך מ-Cloud Storage
בדוגמה הבאה מתורגם קובץ מקטגוריה של Cloud Storage והתוצאה מועברת לקטגוריה של Cloud Storage. התגובה מחזירה גם זרם של בייטים. אפשר לציין את סוג ה-MIME. אם לא תציינו, הכלי לתרגום מסמכים יקבע אותו לפי הסיומת של קובץ הקלט.
אם לא תציינו קוד של שפת מקור, הכלי לתרגום מסמכים יזהה את השפה בשבילכם. השפה שזוהתה כלולה בפלט בשדה detectedLanguageCode.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה,
us-central1. - SOURCE_LANGUAGE: (אופציונלי) קוד השפה של מסמך הקלט. אם ידוע, צריך להגדיר את אחד מקודי השפה שמופיעים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך הקלט.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
- IS_NATIVE: (אופציונלי) עבור מסמכי PDF מקוריים, ערך בוליאני שמציין אם הבקשה משתמשת במגבלת הדפים המקוריים או הסרוקים של PDF. אם הערך הוא true, מגבלת הדפים עולה ל-300 דפים רק במסמכי PDF מקוריים. אם הערך הוא false או לא צוין, נעשה שימוש במגבלת הדפים של קובץ ה-PDF שנסרק (20 דפים).
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_code": "TARGET_LANGUAGE",
"document_input_config": {
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH"
}
},
"document_output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
},
"isTranslateNativePdfOnly": IS_NATIVE
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"documentTranslation": {
"byteStreamOutputs": ["BYTE_STREAM"],
"mimeType": "MIME_TYPE"
},
"model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt"
}
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Node.js API.
כדי לבצע אימות ב-Cloud Translation, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
תרגום מסמך בתוך השורה
בדוגמה הבאה מוצגת שליחה של מסמך בתוך הבקשה. חובה לכלול את סוג ה-MIME לתרגומים של מסמכים מוטבעים.
אם לא תציינו קוד של שפת מקור, הכלי לתרגום מסמכים יזהה את השפה בשבילכם. השפה שזוהתה כלולה בפלט בשדה detectedLanguageCode.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה,
us-central1. - SOURCE_LANGUAGE: (אופציונלי) קוד השפה של מסמך הקלט. אם ידוע, צריך להגדיר את אחד מקודי השפה שמופיעים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- MIME_TYPE: הפורמט של מסמך המקור, למשל
application/pdf. - INPUT_BYTE_STREAM: תוכן מסמך הקלט שמיוצג כזרם של בייטים.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
- IS_NATIVE: (אופציונלי) עבור מסמכי PDF מקוריים, ערך בוליאני שמציין אם הבקשה משתמשת במגבלת הדפים המקוריים או הסרוקים של PDF. אם הערך הוא true, מגבלת הדפים עולה ל-300 דפים רק במסמכי PDF מקוריים. אם הערך הוא false או לא צוין, נעשה שימוש במגבלת הדפים של קובץ ה-PDF שנסרק (20 דפים).
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_code": "TARGET_LANGUAGE",
"document_input_config": {
"mimeType": "MIME_TYPE",
"content": "INPUT_BYTE_STREAM"
},
"document_output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
},
"isTranslateNativePdfOnly": IS_NATIVE
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"documentTranslation": {
"byteStreamOutputs": ["BYTE_STREAM"],
"mimeType": "MIME_TYPE"
},
"model": "projects/PROJECT_NUMBER/locations/LOCATION/models/general/nmt"
}
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Python API.
כדי לבצע אימות ב-Cloud Translation, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
שימוש במודל AutoML או במילון מונחים
במקום במודל שמנוהל על ידי Google, אתם יכולים להשתמש במודלים משלכם של AutoML Translation כדי לתרגם מסמכים. בנוסף לציון מודל, אפשר גם לכלול מילון מונחים כדי לטפל במינוח ספציפי לתחום. אם מציינים מודל או מילון מונחים, צריך לציין את שפת המקור. בדוגמה הבאה נעשה שימוש במודל AutoML ובמילון מונחים. אם המודל או המילון נמצאים בפרויקט אחר, צריך לקבל את הרשאת ה-IAM המתאימה כדי לגשת למשאבים האלה.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של הפרויקט ב- Google Cloud .
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו, למשל
us-central1. המיקום צריך להיות זהה לאזור שבו נמצאים המודל, המילון או שניהם. - SOURCE_LANGUAGE: קוד השפה של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד לתרגום של מסמך הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך הקלט.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו יישמר מסמך הפלט.
- MODEL_PROJECT_ID: מזהה הפרויקט שבו נמצא המודל.
- MODEL_LOCATION: האזור שבו נמצא המודל.
- MODEL_ID: המזהה של המודל לשימוש.
- GLOSSARY_PROJECT_ID: מזהה הפרויקט שבו נמצא המילון.
- GLOSSARY_LOCATION: האזור שבו נמצא המילון.
- GLOSSARY_ID: המזהה של המילון המונחים לשימוש.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_code": "TARGET_LANGUAGE",
"document_input_config": {
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH"
}
},
"document_output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
},
"model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
"glossary_config": {
"glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
אתם אמורים לקבל תגובת JSON שדומה לזו:
{
"documentTranslation": {
"byteStreamOutputs": ["BYTE_STREAM"],
"mimeType": "MIME_TYPE"
},
"glossary_document_translation": {
"byteStreamOutputs": ["BYTE_STREAM_USING_GLOSSARY"],
"mimeType": "MIME_TYPE"
},
"model": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
"glossaryConfig": {
"glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
}
}
תרגום מסמכים (בתהליך אצווה)
תרגום באצווה מאפשר לכם לתרגם כמה קבצים לכמה שפות בבקשה אחת. בכל בקשה אפשר לשלוח עד 100 קבצים, עם גודל תוכן כולל של עד 1GB או 100 מיליון נקודות קוד של Unicode, לפי המגבלה שתגיע קודם. אפשר לציין מודל תרגום מסוים לכל שפה.
תרגום של כמה מסמכים
בדוגמה הבאה מוצגות כמה הגדרות קלט. כל הגדרת קלט היא מצביע לקובץ בקטגוריה של Cloud Storage.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה,
us-central1. - SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד או השפות שאליהן רוצים לתרגם את מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
- INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך קלט אחד או יותר.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_codes": ["TARGET_LANGUAGE", ...],
"input_configs": [
{
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH_1"
}
},
{
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH_2"
}
},
...
],
"output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
התשובה מכילה את המזהה של פעולה ממושכת.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
"state": "RUNNING"
}
}
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Node.js API.
כדי לבצע אימות ב-Cloud Translation, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במדריך למתחילים בנושא Cloud Translation באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Cloud Translation Python API.
כדי לבצע אימות ב-Cloud Translation, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
תרגום והמרה של קובץ PDF מקורי
בדוגמה הבאה מתבצע תרגום והמרה של קובץ PDF מקורי לקובץ DOCX. אפשר לציין כמה קלטים מסוגים שונים של קבצים. לא כולם צריכים להיות קובצי PDF מקוריים. עם זאת, אי אפשר לכלול קובצי PDF סרוקים כשמבקשים המרה. הבקשה נדחית ולא מתבצע תרגום. רק קובצי PDF מקוריים מתורגמים ומומרים לקובצי DOCX. לדוגמה, אם אתם כוללים קובצי PPTX, הם מתורגמים ומוחזרים כקובצי PPTX.
אם אתם מתרגמים באופן קבוע קבצים שכוללים גם קובצי PDF סרוקים וגם קובצי PDF מקוריים, מומלץ לארגן אותם בדלי Cloud Storage נפרדים. כך, כשמבקשים תרגום והמרה של קבוצת קבצים, אפשר להחריג בקלות את ה-bucket שמכיל קובצי PDF סרוקים, במקום להחריג קבצים בודדים.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו. לדוגמה,
us-central1. - SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד או השפות שאליהן רוצים לתרגם את מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
- INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של קובץ PDF מקורי אחד או יותר.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:batchTranslateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_codes": ["TARGET_LANGUAGE", ...],
"input_configs": [
{
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH_1"
}
},
{
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH_2"
}
},
...
],
"output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
},
"format_conversions": {
"application/pdf": "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
התשובה מכילה את המזהה של פעולה ממושכת.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
"state": "RUNNING"
}
}
שימוש במודל AutoML או במילון מונחים
במקום במודל שמנוהל על ידי Google, אתם יכולים להשתמש במודלים משלכם של AutoML Translation כדי לתרגם מסמכים. בנוסף לציון מודל, אפשר גם לכלול מילון מונחים כדי לטפל במינוח ספציפי לתחום. אם מציינים מודל או מילון מונחים, צריך לציין את שפת המקור. בדוגמה הבאה נעשה שימוש במודל AutoML ובמילון מונחים. אפשר לציין עד 10 שפות יעד עם מודל ומילון מונחים משלהן.
אם מציינים מודל לחלק משפות היעד ולא לאחרות, הכלי לתרגום מסמכים משתמש במודל שמנוהל על ידי Google עבור השפות שלא צוינו. באופן דומה, אם תציינו מילון מונחים עבור חלק משפות היעד, המערכת לא תשתמש במילון מונחים עבור השפות שלא צוינו.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_NUMBER_OR_ID: המזהה המספרי או האלפאנומרי של פרויקט Google Cloud
- LOCATION: האזור שבו רוצים להריץ את הפעולה הזו, למשל
us-central1. המיקום צריך להיות זהה לאזור שבו נמצאים המודל, המילון או שניהם. - SOURCE_LANGUAGE: קוד השפה של מסמכי הקלט. הערך צריך להיות אחד מקודי השפות שמפורטים בתמיכה בשפות.
- TARGET_LANGUAGE: שפת היעד או השפות שאליהן רוצים לתרגם את מסמכי הקלט. משתמשים בקודים של השפות שמופיעים בתמיכה בשפות.
- INPUT_FILE_PATH: המיקום ב-Cloud Storage ושם הקובץ של מסמך קלט אחד או יותר.
- OUTPUT_FILE_PREFIX: המיקום ב-Cloud Storage שבו מאוחסנים כל מסמכי הפלט.
- MODEL_PROJECT_ID: מזהה הפרויקט שבו נמצא המודל.
- MODEL_LOCATION: האזור שבו נמצא המודל.
- MODEL_ID: המזהה של המודל לשימוש.
- GLOSSARY_PROJECT_ID: מזהה הפרויקט שבו נמצא המילון.
- GLOSSARY_LOCATION: האזור שבו נמצא המילון.
- GLOSSARY_ID: המזהה של המילון המונחים לשימוש.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_NUMBER_OR_ID/locations/LOCATION:translateDocument
תוכן בקשת JSON:
{
"source_language_code": "SOURCE_LANGUAGE",
"target_language_codes": "[TARGET_LANGUAGE, ...]",
"input_configs": [
{
"gcsSource": {
"inputUri": "gs://INPUT_FILE_PATH"
}
}
],
"output_config": {
"gcsDestination": {
"outputUriPrefix": "gs://OUTPUT_FILE_PREFIX"
}
},
"models": {
"TARGET_LANGUAGE": "projects/MODEL_PROJECT_ID/locations/MODEL_LOCATION/models/MODEL_ID",
...
},
"glossaries": {
"TARGET_LANGUAGE": {
"glossary": "projects/GLOSSARY_PROJECT_ID/locations/MODEL_LOCATION/glossaries/GLOSSARY_ID"
},
...
}
}
כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:
התשובה מכילה את המזהה של פעולה ממושכת.
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.BatchTranslateDocumentMetadata",
"state": "RUNNING"
}
}
טקסט חופף
במקרים מסוימים, תרגומים מקוריים של קובצי PDF עשויים לכלול טקסט מתורגם שמוצג על טקסט המקור. הבעיה הזו נקראת טקסט צל.
במקרים מסוימים, אפשר להסיר את הטקסט המוצלל על ידי הפעלת האפשרות enableShadowRemovalNativePdf. אם מפעילים את האפשרות הזו, זמן האחזור של התגובה גדל, ובמקרה של תרגום מסמכים אונליין, מגבלת הדפים מצטמצמת ל-20. אפשר לדעת אם צריך להסיר טקסט מוצלל מהמסמך רק אחרי שהוא מתורגם.
במקרים אחרים, אם האפשרות enableShadowRemovalNativePdf לא פועלת, אפשר להמיר את ה-PDF לתמונה ואז לתרגם אותה. בדרך כלל, המקרים האלה כוללים טקסט בכמה שכבות, למשל כשמעל תמונת רקע שכוללת גם טקסט מוצג טקסט שאפשר לבחור. המרת ה-PDF לתמונה מאפשרת ל-Cloud Translation לעבד את המסמך כקובץ PDF סרוק. כדי לבצע את ההמרה, אפשר להשתמש ב-Chrome (הדפסה כתמונה) או בכלים אחרים של צד שלישי.
כיוון הטקסט
במקרה של תרגומים של קובצי PDF סרוקים, טקסט המקור צריך להיות אופקי. לדוגמה, אם מסמך סרוק כולל טקסט שמוטה כלפי מעלה או מטה, יכול להיות ש-Cloud Translation לא ינתח את כל הטקסט בצורה נכונה, ולכן התרגומים יהיו לא נכונים או לא מלאים.
אם המסמכים שלכם לא מוצגים באותו כיוון, אתם יכולים להשתמש ב-Cloud Translation כדי לשנות את הכיוון שלהם. בבקשת התרגום, מפעילים את האפשרות
enableRotationCorrection
כדי שהטקסט יהיה בכיוון הנכון לפני התרגום.
המאמרים הבאים
- התמחור של תרגום מסמכים הוא לפי דף. מידע נוסף מפורט בקטע תמחור.