インデックス
ImageAnnotator(インターフェース)AnnotateFileRequest(メッセージ)AnnotateFileResponse(メッセージ)AnnotateImageRequest(メッセージ)AnnotateImageResponse(メッセージ)BatchAnnotateFilesRequest(メッセージ)BatchAnnotateFilesResponse(メッセージ)BatchAnnotateImagesRequest(メッセージ)BatchAnnotateImagesResponse(メッセージ)Block(メッセージ)Block.BlockType(列挙型)BoundingPoly(メッセージ)EntityAnnotation(メッセージ)Feature(メッセージ)Feature.Type(列挙型)Image(メッセージ)ImageAnnotationContext(メッセージ)ImageContext(メッセージ)InputConfig(メッセージ)NormalizedVertex(メッセージ)Page(メッセージ)Paragraph(メッセージ)Property(メッセージ)Symbol(メッセージ)TextAnnotation(メッセージ)TextAnnotation.DetectedBreak(メッセージ)TextAnnotation.DetectedBreak.BreakType(列挙型)TextAnnotation.DetectedLanguage(メッセージ)TextAnnotation.TextProperty(メッセージ)TextDetectionParams(メッセージ)Vertex(メッセージ)Word(メッセージ)
ImageAnnotator
クライアント画像に対して Google Cloud Vision API の顔検出、ランドマーク検出、ロゴ検出、ラベル検出、テキスト検出などの検出タスクを実行するサービス。ImageAnnotator サービスは、画像から検出されたエンティティを返します。
| BatchAnnotateFiles |
|---|
|
複数のファイルに対して一括で画像検出とアノテーションを実行するサービス。現在、「application/pdf」、「image/tiff」、「image/gif」のみがサポートされています。 このサービスは、指定されたファイルから最大で 5 個のフレーム(gif)またはページ(PDF または tiff)を抽出して、抽出した各画像の検出とアノテーションを実行します(抽出対象は AnnotateFileRequest.pages で指定できます)。
|
| BatchAnnotateImages |
|---|
|
画像のバッチに対して画像の検出とアノテーションを実行します。
|
AnnotateFileRequest
1 つのファイル(PDF、TIFF、GIF など)にアノテーションを付けるリクエスト。
| フィールド | |
|---|---|
input_config |
必須。入力ファイルに関する情報。 |
features[] |
必須。リクエストされた機能。 |
image_context |
ファイル内の画像に付随する可能性のある追加のコンテキスト。 |
pages[] |
画像アノテーションを実行するファイルのページ数。 ページは 1 から始まり、ファイルの先頭ページが 1 ページであるとみなされます。1 回のリクエストにつき最大 5 ページがサポートされています。ページには負の値を設定できます。 ページ 1 は最初のページを意味します。ページ 2 は 2 ページ目を意味します。ページ -1 は最後のページを意味します。ページ -2 は最後から 2 番目のページを意味します。 ファイルが PDF や TIFF ではなく GIF の場合、ページは GIF フレームになります。 このフィールドが空の場合、デフォルトでは、ファイルの最初の 5 ページに対して画像アノテーションが実行されます。 |
AnnotateFileResponse
単一ファイルのアノテーション リクエストへのレスポンス。1 つのファイルには 1 つ以上の画像が含まれる場合があります。各画像にそれぞれ固有のレスポンスが存在します。
| フィールド | |
|---|---|
input_config |
このレスポンスが生成されるファイルに関する情報。 |
responses[] |
ファイルに含まれる画像に対する個々のレスポンス。 |
total_pages |
このフィールドには、ファイル内の総ページ数が含まれます。 |
error |
設定されている場合、失敗したリクエストのエラー メッセージを表します。この場合、 |
AnnotateImageRequest
ユーザーがリクエストした機能とコンテキスト情報を使用して、ユーザーが指定した画像に対して Google Cloud Vision API タスクを実行するようにリクエストします。
| フィールド | |
|---|---|
image |
処理される画像。 |
features[] |
リクエストされた機能。 |
image_context |
画像に関連する追加のコンテキスト。 |
AnnotateImageResponse
画像アノテーション リクエストに対するレスポンス。
| フィールド | |
|---|---|
text_annotations[] |
存在する場合、テキスト(OCR)検出が正常に完了しています。 |
full_text_annotation |
存在する場合、テキスト(OCR)検出またはドキュメント(OCR)テキスト検出が正常に完了しています。このアノテーションは、OCR で検出されたテキストの構造的階層を提供します。 |
error |
設定されている場合、オペレーションのエラー メッセージを表します。 |
context |
存在する場合は、この画像の取得元を特定するためにコンテキスト情報が必要になります。 |
BatchAnnotateFilesRequest
BatchAnnotateFiles API を使用してファイルにアノテーションを設定するリクエストのリスト。
| フィールド | |
|---|---|
requests[] |
必須。ファイル アノテーション リクエストのリスト。現在、BatchAnnotateFilesRequest では AnnotateFileRequest が 1 つだけサポートされています。 |
parent |
省略可。呼び出しを行うターゲット プロジェクトとロケーション。 形式: 親が指定されていない場合、リージョンが自動的に選択されます。 サポートされているロケーション ID: 例: |
BatchAnnotateFilesResponse
ファイル アノテーション レスポンスのリスト。
| フィールド | |
|---|---|
responses[] |
ファイル アノテーション レスポンスのリスト。各レスポンスは、BatchAnnotateFilesRequest 内の各 AnnotateFileRequest に対応しています。 |
BatchAnnotateImagesRequest
複数の画像アノテーション リクエストが 1 回のサービス呼び出しでバッチ処理されます。
| フィールド | |
|---|---|
requests[] |
必須。このバッチの個々の画像アノテーション リクエスト。 |
parent |
省略可。呼び出しを行うターゲット プロジェクトとロケーション。 形式: 親が指定されていない場合、リージョンが自動的に選択されます。 サポートされているロケーション ID: 例: |
BatchAnnotateImagesResponse
バッチ画像アノテーション リクエストに対するレスポンス。
| フィールド | |
|---|---|
responses[] |
バッチ内の画像アノテーション リクエストに対する個々のレスポンス。 |
ブロック
ページ上の論理的な要素。
| フィールド | |
|---|---|
property |
ブロックについて検出された追加情報。 |
bounding_box |
ブロックの境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例:
頂点の順序は (0, 1, 2, 3) のままです。 |
paragraphs[] |
このブロック内の段落のリスト(このブロックのタイプがテキストの場合)。 |
block_type |
このブロックの検出されたブロックタイプ(テキスト、イメージなど)。 |
confidence |
このブロックの OCR 実行結果の信頼性。範囲は [0, 1] です。 |
BlockType
OCR で特定されたブロックのタイプ(テキスト、画像など)。
| 列挙型 | |
|---|---|
UNKNOWN |
不明なブロックタイプ。 |
TEXT |
標準テキスト ブロック。 |
TABLE |
テーブル ブロック。 |
PICTURE |
画像ブロック。 |
RULER |
水平線 / 垂直線ボックス。 |
BARCODE |
バーコード ブロック。 |
BoundingPoly
検出された画像アノテーションの境界ポリゴン。
| フィールド | |
|---|---|
vertices[] |
境界ポリゴンの頂点。 |
normalized_vertices[] |
境界ポリゴンの正規化された頂点。 |
EntityAnnotation
検出されたエンティティの特徴のセット。
| フィールド | |
|---|---|
mid |
不透明エンティティの ID。一部の ID は Google Knowledge Graph Search API で使用できます。 |
locale |
エンティティ テキスト |
description |
エンティティ テキストの説明。 |
score |
結果の全体的なスコア。範囲は [0, 1] です。 |
confidence |
サポートを終了しました。代わりに |
topicality |
画像に対する ICA(Image Content Annotation)ラベルの関連度。たとえば、「Eiffel Tower」が検出された画像と遠方にある塔(Tower)が検出された画像の場合、塔があることの信頼度が同一であっても、「Tower」の関連度は「Eiffel Tower」が検出された画像の方が高くなります。範囲は [0, 1] です。 |
bounding_poly |
このエンティティが属する画像領域。 |
properties[] |
エンティティの中には、エンティティを修飾するスコアや文字列など、オプションのユーザー指定 |
機能
実行する Google Cloud Vision API 検出のタイプ。そのタイプで返される結果の最大数。features リストでは複数の Feature オブジェクトを指定できます。
| フィールド | |
|---|---|
type |
機能のタイプ。 |
model |
この機能で使用するモデル。サポートされている値: builtin/stable(未設定の場合のデフォルト)、builtin/latest |
タイプ
抽出される Google Cloud Vision API 機能のタイプ。
| 列挙型 | |
|---|---|
TYPE_UNSPECIFIED |
機能タイプを指定しません。 |
TEXT_DETECTION |
テキスト検出 / 光学式文字認識(OCR)を実行します。テキスト検出は、より大きな画像のテキスト領域用に最適化されています。画像がドキュメントの場合は、代わりに DOCUMENT_TEXT_DETECTION を使用します。 |
DOCUMENT_TEXT_DETECTION |
高密度テキスト ドキュメントの OCR を実行します。DOCUMENT_TEXT_DETECTION と TEXT_DETECTION の両方が存在する場合に優先されます。 |
画像
Google Cloud Vision API タスクの実行対象クライアント画像。
| フィールド | |
|---|---|
content |
バイト ストリームとして表される画像コンテンツ。注: すべての 現在、このフィールドは BatchAnnotateImages リクエストでのみ機能します。AsyncBatchAnnotateImages リクエストでは機能しません。 |
ImageAnnotationContext
ファイルから(PDF など)画像が生成された場合は、このメッセージに画像のソースに関する情報が表示されます。
| フィールド | |
|---|---|
uri |
画像の生成に使用されるファイルの URI。 |
page_number |
ファイルが PDF または TIFF の場合、このフィールドには、画像の生成に使用されたファイル内のページ番号が示されます。 |
ImageContext
画像コンテキストおよび機能固有のパラメータ。
| フィールド | |
|---|---|
language_hints[] |
TEXT_DETECTION に使用する言語のリスト。ほとんどの場合、値を空にして自動言語検出を有効にしておくことによって最善の結果が得られます。ラテン アルファベット系の言語の場合、 |
text_detection_params |
テキスト検出とドキュメント テキスト検出のパラメータ。 |
InputConfig
目的の入力ロケーションとメタデータ。
| フィールド | |
|---|---|
content |
バイト ストリームとして表されるファイル コンテンツ。注: すべての 現在、このフィールドは BatchAnnotateFiles リクエストでのみ機能します。AsyncBatchAnnotateFiles リクエストでは機能しません。 |
mime_type |
ファイルのタイプ。現在、application/pdf、image/tiff、image/gif のみがサポートされています。ワイルドカードはサポートされていません。 |
NormalizedVertex
頂点は、画像上の 2D の点を表します。注: 正規化された頂点座標は、元の画像と相対しており、0~1 の範囲になります。
| フィールド | |
|---|---|
x |
X 座標。 |
y |
Y 座標。 |
ページ
OCR から検出されたページ。
| フィールド | |
|---|---|
property |
ページで検出された追加情報。 |
width |
ページの幅。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。 |
height |
ページの高さ。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。 |
blocks[] |
このページのテキスト、画像などのブロックのリスト。 |
confidence |
ページの OCR 結果の信頼度。範囲は [0, 1] です。 |
Paragraph
多数の単語を特定の順序で示すテキストの構造単位。
| フィールド | |
|---|---|
property |
段落について検出された追加情報。 |
bounding_box |
段落の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。 |
words[] |
この段落にあるすべての単語のリスト。 |
confidence |
この段落の OCR 結果の信頼度。範囲は [0, 1] です。 |
プロパティ
Property は、ユーザー指定の名前と値のペアで構成されます。
| フィールド | |
|---|---|
name |
プロパティの名前。 |
value |
プロパティの値。 |
uint64_value |
数値プロパティの値。 |
記号
1 つの記号表現。
| フィールド | |
|---|---|
property |
記号について検出された追加情報。 |
bounding_box |
記号の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。 |
text |
記号の実際の UTF-8 表現。 |
confidence |
記号の OCR 結果の信頼度。範囲は [0, 1] です。 |
TextAnnotation
TextAnnotation には、OCR で抽出されたテキストの構造化された表現が含まれます。OCR で抽出されたテキスト構造の階層は次のようになります。
TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol
TextAnnotation.TextProperty メッセージ定義をご覧ください。
| フィールド | |
|---|---|
pages[] |
OCR によって検出されたページのリスト。 |
text |
ページで検出された UTF-8 テキスト。 |
DetectedBreak
検出された構造コンポーネントの開始または終了。
| フィールド | |
|---|---|
type |
検出された区切りのタイプ。 |
is_prefix |
区切りが要素の前にある場合は True。 |
BreakType
検出された区切りのタイプを示す列挙型。改行、スペースなどです。
| 列挙型 | |
|---|---|
UNKNOWN |
不明な区切りラベルタイプ。 |
SPACE |
標準スペース。 |
SURE_SPACE |
広幅のスペース。 |
EOL_SURE_SPACE |
行折り返しの区切り。 |
HYPHEN |
テキストに存在しない行末ハイフン。SPACE、LEADER_SPACE、LINE_BREAK と組み合わせて出現することはありません。 |
LINE_BREAK |
段落を終了する改行。 |
DetectedLanguage
検出された構造コンポーネントの言語。
| フィールド | |
|---|---|
language_code |
「en-US」や「sr-Latn」などの BCP-47 言語コード。詳細については、https://www.unicode.org/reports/tr35/#Unicode_locale_identifier をご覧ください。 |
confidence |
検出された言語の信頼度。範囲は [0, 1] です。 |
TextProperty
構造コンポーネントで検出された追加情報。
| フィールド | |
|---|---|
detected_languages[] |
検出された言語と信頼度のリスト。 |
detected_break |
検出されたテキスト セグメントの開始または終了。 |
TextDetectionParams
テキスト検出のパラメータ。TEXT_DETECTION 機能と DOCUMENT_TEXT_DETECTION 機能の制御に使用されます。
| フィールド | |
|---|---|
enable_text_detection_confidence_score |
デフォルトでは、Cloud Vision API には DOCUMENT_TEXT_DETECTION 結果の信頼スコアのみが含まれます。フラグを true に設定すると、TEXT_DETECTION の信頼スコアも含まれます。 |
advanced_ocr_options[] |
OCR の動作を微調整するための高度な OCR オプションのリスト。 |
Vertex
頂点は、画像上の 2D の点を表します。注: 頂点の座標は元の画像と同じスケールです。
| フィールド | |
|---|---|
x |
X 座標。 |
y |
Y 座標。 |
Word
単語の表現。
| フィールド | |
|---|---|
property |
単語について検出された追加情報。 |
bounding_box |
単語の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。 |
symbols[] |
単語内の記号のリスト。記号の順序は、自然な読み順に従います。 |
confidence |
単語に対する OCR 結果の信頼度。範囲は [0, 1] です。 |