索引
ImageAnnotator(介面)AnnotateFileRequest(訊息)AnnotateFileResponse(訊息)AnnotateImageRequest(訊息)AnnotateImageResponse(訊息)BatchAnnotateFilesRequest(訊息)BatchAnnotateFilesResponse(訊息)BatchAnnotateImagesRequest(訊息)BatchAnnotateImagesResponse(訊息)Block(訊息)Block.BlockType(enum)BoundingPoly(訊息)EntityAnnotation(訊息)Feature(訊息)Feature.Type(enum)Image(訊息)ImageAnnotationContext(訊息)ImageContext(訊息)InputConfig(訊息)NormalizedVertex(訊息)Page(訊息)Paragraph(訊息)Property(訊息)Symbol(訊息)TextAnnotation(訊息)TextAnnotation.DetectedBreak(訊息)TextAnnotation.DetectedBreak.BreakType(enum)TextAnnotation.DetectedLanguage(訊息)TextAnnotation.TextProperty(訊息)TextDetectionParams(訊息)Vertex(訊息)Word(訊息)
ImageAnnotator
這項服務會對用戶端圖片執行 Google Cloud Vision API 偵測工作,例如偵測臉部、地標、標誌、標籤和文字。ImageAnnotator 服務會從圖片傳回偵測到的實體。
| BatchAnnotateFiles |
|---|
|
這項服務可對批次檔案執行圖片偵測和註解作業。目前僅支援「application/pdf」、「image/tiff」和「image/gif」。 這項服務會從提供的每個檔案中,擷取最多 5 個影格 (GIF) 或頁面 (PDF 或 TIFF),並對擷取的每張圖片執行偵測和註解作業。客戶可以在 AnnotateFileRequest.pages 中指定要擷取的 5 個影格/頁面。
|
| BatchAnnotateImages |
|---|
|
對一批圖片執行圖片偵測和註解。
|
AnnotateFileRequest
要求為單一檔案 (例如 PDF、TIFF 或 GIF 檔案) 加註。
| 欄位 | |
|---|---|
input_config |
這是必要旗標,輸入檔案的相關資訊。 |
features[] |
這是必要旗標,要求的功能。 |
image_context |
檔案中可能隨附圖片的其他背景資訊。 |
pages[] |
要執行圖片註解的檔案頁面。 頁碼從 1 開始,我們假設檔案的第一頁是第 1 頁。每項要求最多支援 5 個網頁。頁數可為負數。 第 1 頁是指第一頁。第 2 頁是指第二個頁面。頁碼 -1 代表最後一頁。-2 頁表示倒數第二頁。 如果檔案是 GIF 而非 PDF 或 TIFF,則頁面是指 GIF 影格。 如果這個欄位留空,服務預設會對檔案的前 5 頁執行圖片註解。 |
註解檔案回應
單一檔案註解要求的相關回應。檔案可能包含一或多張圖片,每張圖片都有各自的回覆。
| 欄位 | |
|---|---|
input_config |
系統產生這則回覆時所參照的檔案相關資訊。 |
responses[] |
針對檔案中找到的圖片提供個別回應。如果已設定 |
total_pages |
這個欄位會顯示檔案的總頁數。 |
error |
如果已設定,則代表要求失敗的錯誤訊息。在此情況下,系統不會設定 |
AnnotateImageRequest
要求對使用者提供的圖片執行 Google Cloud Vision API 工作,並提供使用者要求的功能和情境資訊。
| 欄位 | |
|---|---|
image |
要處理的圖片。 |
features[] |
要求的功能。 |
image_context |
圖片可能附帶的額外背景資訊。 |
AnnotateImageResponse
圖片註解要求的回應。
| 欄位 | |
|---|---|
text_annotations[] |
如果存在,表示文字 (OCR) 偵測已順利完成。 |
full_text_annotation |
如果顯示文字 (OCR) 偵測或文件 (OCR) 文字偵測已成功完成,這項註解提供 OCR 偵測到的文字結構階層。 |
error |
如果已設定,則代表作業的錯誤訊息。請注意,即使已設定 |
context |
如有這類資訊,請提供背景資訊,瞭解圖片來源。 |
批次註解檔案要求
使用 BatchAnnotateFiles API 為檔案加上註解的要求清單。
| 欄位 | |
|---|---|
requests[] |
這是必要旗標,檔案註解要求清單。目前 BatchAnnotateFilesRequest 中僅支援一個 AnnotateFileRequest。 |
parent |
(選用步驟) 要撥打電話的目標專案和位置。 格式: 如未指定父項,系統會自動選擇區域。 支援的位置 ID: 範例: |
BatchAnnotateFilesResponse
檔案註解回應清單。
| 欄位 | |
|---|---|
responses[] |
檔案註解回應清單,每個回應對應 BatchAnnotateFilesRequest 中的每個 AnnotateFileRequest。 |
批次註解圖片要求
多個圖片註解要求會批次處理,並納入單一服務呼叫。
| 欄位 | |
|---|---|
requests[] |
這是必要旗標,這個批次的個別圖片註解要求。 |
parent |
(選用步驟) 要撥打電話的目標專案和位置。 格式: 如未指定父項,系統會自動選擇區域。 支援的位置 ID: 範例: |
BatchAnnotateImagesResponse
批次圖片註解要求的相關回應。
| 欄位 | |
|---|---|
responses[] |
批次中圖片註解要求的個別回應。 |
封鎖
網頁上的邏輯元素。
| 欄位 | |
|---|---|
property |
系統偵測到該區塊的其他資訊。 |
bounding_box |
區塊的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。例如:
頂點順序仍為 (0, 1, 2, 3)。 |
paragraphs[] |
這個區塊中的段落清單 (如果這個區塊是文字類型)。 |
block_type |
這個區塊的偵測區塊類型 (文字、圖片等)。 |
confidence |
OCR 結果對區塊的信心程度。範圍為 [0, 1]。 |
封鎖類型
OCR 識別的區塊類型 (文字、圖片等)。
| 列舉 | |
|---|---|
UNKNOWN |
不明的區塊類型。 |
TEXT |
一般文字區塊。 |
TABLE |
表格區塊。 |
PICTURE |
圖片區塊。 |
RULER |
水平/垂直線方塊。 |
BARCODE |
條碼區塊。 |
BoundingPoly
偵測到的圖片註解定界多邊形。
| 欄位 | |
|---|---|
vertices[] |
定界多邊形頂點。 |
normalized_vertices[] |
定界多邊形正規化頂點。 |
實體註解
偵測到的實體特徵集。
| 欄位 | |
|---|---|
mid |
不透明的實體 ID。部分 ID 可能會顯示在 Google Knowledge Graph Search API 中。 |
locale |
實體文字 |
description |
實體的文字說明,以 |
score |
結果的整體分數。範圍為 [0, 1]。 |
confidence |
已淘汰;請改用 |
topicality |
ICA (圖片內容註解) 標籤與圖片的相關性。舉例來說,即使兩張圖片中都有高塔,但如果其中一張圖片偵測到「艾菲爾鐵塔」,「高塔」與這張圖片的關聯性可能就高於另一張圖片。範圍為 [0, 1]。 |
bounding_poly |
這個實體所屬的圖片區域。未針對 |
properties[] |
部分實體可能會有選用的使用者提供 |
功能
要執行的 Google Cloud Vision API 偵測類型,以及該類型要傳回的結果數上限。features 清單中可以指定多個 Feature 物件。
| 欄位 | |
|---|---|
type |
功能類型。 |
model |
這項功能使用的模型。支援的值:「builtin/stable」(如果未設定,則為預設值) 和「builtin/latest」。 |
類型
要擷取的 Google Cloud Vision API 功能類型。
| 列舉 | |
|---|---|
TYPE_UNSPECIFIED |
未指定功能類型。 |
TEXT_DETECTION |
執行文字偵測 / 光學字元辨識 (OCR)。文字偵測已針對大型圖片中的文字區域進行最佳化;如果圖片是文件,請改用 DOCUMENT_TEXT_DETECTION。 |
DOCUMENT_TEXT_DETECTION |
執行密集文字文件 OCR。如果 DOCUMENT_TEXT_DETECTION 和 TEXT_DETECTION 同時存在,則優先採用。 |
圖片
用戶端圖片,用於執行 Google Cloud Vision API 工作。
| 欄位 | |
|---|---|
content |
圖片內容,以位元組串流表示。注意:與所有 目前這個欄位僅適用於 BatchAnnotateImages 要求。不適用於 AsyncBatchAnnotateImages 要求。 |
圖片註解內容
如果圖片是從檔案 (例如 PDF) 產生,這則訊息會提供圖片來源的相關資訊。
| 欄位 | |
|---|---|
uri |
用於產生圖片的檔案 URI。 |
page_number |
如果檔案是 PDF 或 TIFF,這個欄位會顯示用於產生圖片的檔案頁碼。 |
ImageContext
圖片內容和/或特定功能參數。
| 欄位 | |
|---|---|
language_hints[] |
用於 TEXT_DETECTION 的語言清單。在大多數情況下,空白值可啟用自動語言偵測功能,因此能產生最佳結果。如果語言使用拉丁字母,則不需要設定 |
text_detection_params |
文字偵測和文件文字偵測的參數。 |
InputConfig
所需輸入位置和中繼資料。
| 欄位 | |
|---|---|
content |
檔案內容,以位元組串流表示。注意:與所有 目前這個欄位僅適用於 BatchAnnotateFiles 要求。不適用於 AsyncBatchAnnotateFiles 要求。 |
mime_type |
檔案類型。目前僅支援「application/pdf」、「image/tiff」和「image/gif」。不支援萬用字元。 |
正規化 Vertex
頂點代表圖片中的 2D 點。注意:正規化後的頂點座標是相對於原始圖片,範圍介於 0 到 1 之間。
| 欄位 | |
|---|---|
x |
X 座標。 |
y |
Y 座標。 |
頁面
OCR 偵測到的頁面。
| 欄位 | |
|---|---|
property |
網頁上偵測到其他資訊。 |
width |
頁面寬度。如果是 PDF,單位為點。如果是圖片 (包括 TIFF),單位是像素。 |
height |
頁面高度。如果是 PDF,單位為點。如果是圖片 (包括 TIFF),單位是像素。 |
blocks[] |
這個頁面上的文字區塊、圖片等清單。 |
confidence |
網頁上 OCR 結果的信賴度。範圍為 [0, 1]。 |
段落
文字的結構單元,代表特定順序的字詞。
| 欄位 | |
|---|---|
property |
系統偵測到段落的其他資訊。 |
bounding_box |
段落的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。 |
words[] |
這個段落中的所有字詞清單。 |
confidence |
段落 OCR 結果的信賴度。範圍為 [0, 1]。 |
屬性
Property 包含使用者提供的名稱/值組合。
| 欄位 | |
|---|---|
name |
房源名稱。 |
value |
屬性的值。 |
uint64_value |
數值屬性的值。 |
符號
單一符號表示法。
| 欄位 | |
|---|---|
property |
系統偵測到符號的其他資訊。 |
bounding_box |
符號的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。 |
text |
符號的實際 UTF-8 表示法。 |
confidence |
符號 OCR 結果的信賴度。範圍為 [0, 1]。 |
文字註解
TextAnnotation 包含以結構化形式表示的 OCR 擷取文字。OCR 擷取文字結構的階層如下:
TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol
TextAnnotation.TextProperty 訊息定義。
| 欄位 | |
|---|---|
pages[] |
OCR 偵測到的頁面清單。 |
text |
系統在網頁上偵測到 UTF-8 文字。 |
DetectedBreak
偵測到結構化元件的開頭或結尾。
| 欄位 | |
|---|---|
type |
偵測到的中斷類型。 |
is_prefix |
如果換行符號會加在元素前面,則為 True。 |
分隔類型
以列舉方式表示找到的間斷類型。換行、空格等。
| 列舉 | |
|---|---|
UNKNOWN |
不明的休息標籤類型。 |
SPACE |
一般空間。 |
SURE_SPACE |
確定間距 (非常寬)。 |
EOL_SURE_SPACE |
換行符號。 |
HYPHEN |
文字中沒有行尾連字號,且不會與 SPACE、LEADER_SPACE 或 LINE_BREAK 同時出現。 |
LINE_BREAK |
結束段落的換行符號。 |
DetectedLanguage
偵測到結構元件的語言。
| 欄位 | |
|---|---|
language_code |
BCP-47 語言代碼,例如「en-US」或「sr-Latn」。詳情請參閱 https://www.unicode.org/reports/tr35/#Unicode_locale_identifier。 |
confidence |
偵測到的語言的信賴度。範圍為 [0, 1]。 |
TextProperty
在結構性元件上偵測到其他資訊。
| 欄位 | |
|---|---|
detected_languages[] |
偵測到的語言清單和信賴度。 |
detected_break |
偵測到文字片段的開頭或結尾。 |
TextDetectionParams
文字偵測的參數。這項設定可用來控管 TEXT_DETECTION 和 DOCUMENT_TEXT_DETECTION 功能。
| 欄位 | |
|---|---|
enable_text_detection_confidence_score |
根據預設,Cloud Vision API 只會納入 DOCUMENT_TEXT_DETECTION 結果的可信度分數。將標記設為 true,即可一併納入 TEXT_DETECTION 的信賴分數。 |
advanced_ocr_options[] |
進階 OCR 選項清單,可微調 OCR 行為。 |
Vertex
頂點代表圖片中的 2D 點。注意:頂點座標的比例與原始圖片相同。
| 欄位 | |
|---|---|
x |
X 座標。 |
y |
Y 座標。 |
Word
字詞表示法。
| 欄位 | |
|---|---|
property |
系統偵測到該字詞的其他資訊。 |
bounding_box |
這個字的定界框。頂點順序為左上、右上、右下、左下。如果系統偵測到邊界框旋轉,就會以左上角為中心,以「自然」方向讀取文字時定義的角度表示旋轉。舉例來說: * 文字水平時可能如下所示: 0----1 | | 3----2 * 如果文字繞左上角旋轉 180 度,會變成: 2----3 | | 1----0 頂點順序仍為 (0、1、2、3)。 |
symbols[] |
字詞中的符號清單。符號順序會遵循自然閱讀順序。 |
confidence |
這個字 OCR 結果的信賴度。範圍為 [0, 1]。 |