Package google.cloud.vision.v1

インデックス

ImageAnnotator

クライアント画像に対して Google Cloud Vision API の顔検出、ランドマーク検出、ロゴ検出、ラベル検出、テキスト検出などの検出タスクを実行するサービス。ImageAnnotator サービスは、画像から検出されたエンティティを返します。

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

複数のファイルに対して一括で画像検出とアノテーションを実行するサービス。現在、「application/pdf」、「image/tiff」、「image/gif」のみがサポートされています。

このサービスは、指定されたファイルから最大で 5 個のフレーム(gif)またはページ(PDF または tiff)を抽出して、抽出した各画像の検出とアノテーションを実行します(抽出対象は AnnotateFileRequest.pages で指定できます)。

認証スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

画像のバッチに対して画像の検出とアノテーションを実行します。

認証スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

1 つのファイル(PDF、TIFF、GIF など)にアノテーションを付けるリクエスト。

フィールド
input_config

InputConfig

必須。入力ファイルに関する情報。

features[]

Feature

必須。リクエストされた機能。

image_context

ImageContext

ファイル内の画像に付随する可能性のある追加のコンテキスト。

pages[]

int32

画像アノテーションを実行するファイルのページ数。

ページは 1 から始まり、ファイルの先頭ページが 1 ページであるとみなされます。1 回のリクエストにつき最大 5 ページがサポートされています。ページには負の値を設定できます。

ページ 1 は最初のページを意味します。ページ 2 は 2 ページ目を意味します。ページ -1 は最後のページを意味します。ページ -2 は最後から 2 番目のページを意味します。

ファイルが PDF や TIFF ではなく GIF の場合、ページは GIF フレームになります。

このフィールドが空の場合、デフォルトでは、ファイルの最初の 5 ページに対して画像アノテーションが実行されます。

AnnotateFileResponse

単一ファイルのアノテーション リクエストへのレスポンス。1 つのファイルには 1 つ以上の画像が含まれる場合があります。各画像にそれぞれ固有のレスポンスが存在します。

フィールド
input_config

InputConfig

このレスポンスが生成されるファイルに関する情報。

responses[]

AnnotateImageResponse

ファイルに含まれる画像に対する個々のレスポンス。error フィールドが設定されている場合、このフィールドは空になります。

total_pages

int32

このフィールドには、ファイル内の総ページ数が含まれます。

error

Status

設定されている場合、失敗したリクエストのエラー メッセージを表します。この場合、responses フィールドは設定されません。

AnnotateImageRequest

ユーザーがリクエストした機能とコンテキスト情報を使用して、ユーザーが指定した画像に対して Google Cloud Vision API タスクを実行するようにリクエストします。

フィールド
image

Image

処理される画像。

features[]

Feature

リクエストされた機能。

image_context

ImageContext

画像に関連する追加のコンテキスト。

AnnotateImageResponse

画像アノテーション リクエストに対するレスポンス。

フィールド
text_annotations[]

EntityAnnotation

存在する場合、テキスト(OCR)検出が正常に完了しています。

full_text_annotation

TextAnnotation

存在する場合、テキスト(OCR)検出またはドキュメント(OCR)テキスト検出が正常に完了しています。このアノテーションは、OCR で検出されたテキストの構造的階層を提供します。

error

Status

設定されている場合、オペレーションのエラー メッセージを表します。error が設定されている場合でも、存在する画像アノテーションは正しいことが保証されます。

context

ImageAnnotationContext

存在する場合は、この画像の取得元を特定するためにコンテキスト情報が必要になります。

BatchAnnotateFilesRequest

BatchAnnotateFiles API を使用してファイルにアノテーションを設定するリクエストのリスト。

フィールド
requests[]

AnnotateFileRequest

必須。ファイル アノテーション リクエストのリスト。現在、BatchAnnotateFilesRequest では AnnotateFileRequest が 1 つだけサポートされています。

parent

string

省略可。呼び出しを行うターゲット プロジェクトとロケーション。

形式: projects/{project-id}/locations/{location-id}

親が指定されていない場合、リージョンが自動的に選択されます。

サポートされているロケーション ID: us: 米国のみ。asia: 東アジア地域(日本、台湾など)。eu: EU。

例: projects/project-A/locations/eu

BatchAnnotateFilesResponse

ファイル アノテーション レスポンスのリスト。

フィールド
responses[]

AnnotateFileResponse

ファイル アノテーション レスポンスのリスト。各レスポンスは、BatchAnnotateFilesRequest 内の各 AnnotateFileRequest に対応しています。

BatchAnnotateImagesRequest

複数の画像アノテーション リクエストが 1 回のサービス呼び出しでバッチ処理されます。

フィールド
requests[]

AnnotateImageRequest

必須。このバッチの個々の画像アノテーション リクエスト。

parent

string

省略可。呼び出しを行うターゲット プロジェクトとロケーション。

形式: projects/{project-id}/locations/{location-id}

親が指定されていない場合、リージョンが自動的に選択されます。

サポートされているロケーション ID: us: 米国のみ。asia: 東アジア地域(日本、台湾など)。eu: EU。

例: projects/project-A/locations/eu

BatchAnnotateImagesResponse

バッチ画像アノテーション リクエストに対するレスポンス。

フィールド
responses[]

AnnotateImageResponse

バッチ内の画像アノテーション リクエストに対する個々のレスポンス。

ブロック

ページ上の論理的な要素。

フィールド
property

TextProperty

ブロックについて検出された追加情報。

bounding_box

BoundingPoly

ブロックの境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例:

  • テキストが水平の場合、次のようになります。
    0----1
    |    |
    3----2
  • テキストが左上隅を中心として 180 度回転した場合は、次のようになります。
    2----3
    |    |
    1----0

頂点の順序は (0, 1, 2, 3) のままです。

paragraphs[]

Paragraph

このブロック内の段落のリスト(このブロックのタイプがテキストの場合)。

block_type

BlockType

このブロックの検出されたブロックタイプ(テキスト、イメージなど)。

confidence

float

このブロックの OCR 実行結果の信頼性。範囲は [0, 1] です。

BlockType

OCR で特定されたブロックのタイプ(テキスト、画像など)。

列挙型
UNKNOWN 不明なブロックタイプ。
TEXT 標準テキスト ブロック。
TABLE テーブル ブロック。
PICTURE 画像ブロック。
RULER 水平線 / 垂直線ボックス。
BARCODE バーコード ブロック。

BoundingPoly

検出された画像アノテーションの境界ポリゴン。

フィールド
vertices[]

Vertex

境界ポリゴンの頂点。

normalized_vertices[]

NormalizedVertex

境界ポリゴンの正規化された頂点。

EntityAnnotation

検出されたエンティティの特徴のセット。

フィールド
mid

string

不透明エンティティの ID。一部の ID は Google Knowledge Graph Search API で使用できます。

locale

string

エンティティ テキスト description が表現されているロケールの言語コード。

description

string

エンティティ テキストの説明。locale の言語で表現されます。

score

float

結果の全体的なスコア。範囲は [0, 1] です。

confidence
(deprecated)

float

サポートを終了しました。代わりに score を使用してください。画像でのエンティティ検出の精度。たとえば、「Eiffel Tower」というエンティティが検出された画像の場合、このフィールドは、クエリ画像内に塔があることの信頼度を表します。範囲は [0, 1] です。

topicality

float

画像に対する ICA(Image Content Annotation)ラベルの関連度。たとえば、「Eiffel Tower」が検出された画像と遠方にある塔(Tower)が検出された画像の場合、塔があることの信頼度が同一であっても、「Tower」の関連度は「Eiffel Tower」が検出された画像の方が高くなります。範囲は [0, 1] です。

bounding_poly

BoundingPoly

このエンティティが属する画像領域。LABEL_DETECTION 機能では作成されません。

properties[]

Property

エンティティの中には、エンティティを修飾するスコアや文字列など、オプションのユーザー指定 Property(名前/値)フィールドを持つものがあります。

機能

実行する Google Cloud Vision API 検出のタイプ。そのタイプで返される結果の最大数。features リストでは複数の Feature オブジェクトを指定できます。

フィールド
type

Type

機能のタイプ。

model

string

この機能で使用するモデル。サポートされている値: builtin/stable(未設定の場合のデフォルト)、builtin/latestDOCUMENT_TEXT_DETECTIONTEXT_DETECTION は、毎週更新される最先端のリリース用の「builtin/weekly」もサポートしています。

タイプ

抽出される Google Cloud Vision API 機能のタイプ。

列挙型
TYPE_UNSPECIFIED 機能タイプを指定しません。
TEXT_DETECTION テキスト検出 / 光学式文字認識(OCR)を実行します。テキスト検出は、より大きな画像のテキスト領域用に最適化されています。画像がドキュメントの場合は、代わりに DOCUMENT_TEXT_DETECTION を使用します。
DOCUMENT_TEXT_DETECTION 高密度テキスト ドキュメントの OCR を実行します。DOCUMENT_TEXT_DETECTIONTEXT_DETECTION の両方が存在する場合に優先されます。

画像

Google Cloud Vision API タスクの実行対象クライアント画像。

フィールド
content

bytes

バイト ストリームとして表される画像コンテンツ。注: すべての bytes フィールドと同様に、protobuffers では純 2 進表現が使用され、JSON 表現では base64 が使用されます。

現在、このフィールドは BatchAnnotateImages リクエストでのみ機能します。AsyncBatchAnnotateImages リクエストでは機能しません。

ImageAnnotationContext

ファイルから(PDF など)画像が生成された場合は、このメッセージに画像のソースに関する情報が表示されます。

フィールド
uri

string

画像の生成に使用されるファイルの URI。

page_number

int32

ファイルが PDF または TIFF の場合、このフィールドには、画像の生成に使用されたファイル内のページ番号が示されます。

ImageContext

画像コンテキストおよび機能固有のパラメータ。

フィールド
language_hints[]

string

TEXT_DETECTION に使用する言語のリスト。ほとんどの場合、値を空にして自動言語検出を有効にしておくことによって最善の結果が得られます。ラテン アルファベット系の言語の場合、language_hints の設定は不要です。画像中のテキストの言語がわかっている場合などに、ヒントを設定すると結果が少し良くなります(逆に、ヒントを間違えると大きく阻害します)。サポートされる言語以外の言語が 1 つでも指定されていると、テキスト検出でエラーが返されます。

text_detection_params

TextDetectionParams

テキスト検出とドキュメント テキスト検出のパラメータ。

InputConfig

目的の入力ロケーションとメタデータ。

フィールド
content

bytes

バイト ストリームとして表されるファイル コンテンツ。注: すべての bytes フィールドと同様に、protobuffers では純 2 進表現が使用され、JSON 表現では base64 が使用されます。

現在、このフィールドは BatchAnnotateFiles リクエストでのみ機能します。AsyncBatchAnnotateFiles リクエストでは機能しません。

mime_type

string

ファイルのタイプ。現在、application/pdf、image/tiff、image/gif のみがサポートされています。ワイルドカードはサポートされていません。

NormalizedVertex

頂点は、画像上の 2D の点を表します。注: 正規化された頂点座標は、元の画像と相対しており、0~1 の範囲になります。

フィールド
x

float

X 座標。

y

float

Y 座標。

ページ

OCR から検出されたページ。

フィールド
property

TextProperty

ページで検出された追加情報。

width

int32

ページの幅。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。

height

int32

ページの高さ。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。

blocks[]

Block

このページのテキスト、画像などのブロックのリスト。

confidence

float

ページの OCR 結果の信頼度。範囲は [0, 1] です。

Paragraph

多数の単語を特定の順序で示すテキストの構造単位。

フィールド
property

TextProperty

段落について検出された追加情報。

bounding_box

BoundingPoly

段落の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

words[]

Word

この段落にあるすべての単語のリスト。

confidence

float

この段落の OCR 結果の信頼度。範囲は [0, 1] です。

プロパティ

Property は、ユーザー指定の名前と値のペアで構成されます。

フィールド
name

string

プロパティの名前。

value

string

プロパティの値。

uint64_value

uint64

数値プロパティの値。

記号

1 つの記号表現。

フィールド
property

TextProperty

記号について検出された追加情報。

bounding_box

BoundingPoly

記号の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

text

string

記号の実際の UTF-8 表現。

confidence

float

記号の OCR 結果の信頼度。範囲は [0, 1] です。

TextAnnotation

TextAnnotation には、OCR で抽出されたテキストの構造化された表現が含まれます。OCR で抽出されたテキスト構造の階層は次のようになります。

TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol

Page 以降の各構造要素には、検出された言語、区切りなどを記述するプロパティがある場合があります。詳しくは、次の TextAnnotation.TextProperty メッセージ定義をご覧ください。

フィールド
pages[]

Page

OCR によって検出されたページのリスト。

text

string

ページで検出された UTF-8 テキスト。

DetectedBreak

検出された構造コンポーネントの開始または終了。

フィールド
type

BreakType

検出された区切りのタイプ。

is_prefix

bool

区切りが要素の前にある場合は True。

BreakType

検出された区切りのタイプを示す列挙型。改行、スペースなどです。

列挙型
UNKNOWN 不明な区切りラベルタイプ。
SPACE 標準スペース。
SURE_SPACE 広幅のスペース。
EOL_SURE_SPACE 行折り返しの区切り。
HYPHEN テキストに存在しない行末ハイフン。SPACELEADER_SPACELINE_BREAK と組み合わせて出現することはありません。
LINE_BREAK 段落を終了する改行。

DetectedLanguage

検出された構造コンポーネントの言語。

フィールド
language_code

string

「en-US」や「sr-Latn」などの BCP-47 言語コード。詳細については、https://www.unicode.org/reports/tr35/#Unicode_locale_identifier をご覧ください。

confidence

float

検出された言語の信頼度。範囲は [0, 1] です。

TextProperty

構造コンポーネントで検出された追加情報。

フィールド
detected_languages[]

DetectedLanguage

検出された言語と信頼度のリスト。

detected_break

DetectedBreak

検出されたテキスト セグメントの開始または終了。

TextDetectionParams

テキスト検出のパラメータ。TEXT_DETECTION 機能と DOCUMENT_TEXT_DETECTION 機能の制御に使用されます。

フィールド
enable_text_detection_confidence_score

bool

デフォルトでは、Cloud Vision API には DOCUMENT_TEXT_DETECTION 結果の信頼スコアのみが含まれます。フラグを true に設定すると、TEXT_DETECTION の信頼スコアも含まれます。

advanced_ocr_options[]

string

OCR の動作を微調整するための高度な OCR オプションのリスト。

Vertex

頂点は、画像上の 2D の点を表します。注: 頂点の座標は元の画像と同じスケールです。

フィールド
x

int32

X 座標。

y

int32

Y 座標。

Word

単語の表現。

フィールド
property

TextProperty

単語について検出された追加情報。

bounding_box

BoundingPoly

単語の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

symbols[]

Symbol

単語内の記号のリスト。記号の順序は、自然な読み順に従います。

confidence

float

単語に対する OCR 結果の信頼度。範囲は [0, 1] です。