색인
ImageAnnotator(인터페이스)AnnotateFileRequest(메시지)AnnotateFileResponse(메시지)AnnotateImageRequest(메시지)AnnotateImageResponse(메시지)BatchAnnotateFilesRequest(메시지)BatchAnnotateFilesResponse(메시지)BatchAnnotateImagesRequest(메시지)BatchAnnotateImagesResponse(메시지)Block(메시지)Block.BlockType(열거형)BoundingPoly(메시지)EntityAnnotation(메시지)Feature(메시지)Feature.Type(열거형)Image(메시지)ImageAnnotationContext(메시지)ImageContext(메시지)InputConfig(메시지)NormalizedVertex(메시지)Page(메시지)Paragraph(메시지)Property(메시지)Symbol(메시지)TextAnnotation(메시지)TextAnnotation.DetectedBreak(메시지)TextAnnotation.DetectedBreak.BreakType(열거형)TextAnnotation.DetectedLanguage(메시지)TextAnnotation.TextProperty(메시지)TextDetectionParams(메시지)Vertex(메시지)Word(메시지)
ImageAnnotator
얼굴, 랜드마크, 로고, 라벨, 텍스트 인식 등 클라이언트 이미지에 대한 Google Cloud Vision API 감지 태스크를 수행하는 서비스입니다. ImageAnnotator 서비스는 이미지에서 감지된 항목을 반환합니다.
| BatchAnnotateFiles |
|---|
|
파일 배치에 대한 이미지 감지 및 주석을 수행하는 서비스입니다. 이제 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다. 이 서비스는 제공된 각 파일에서 최대 5개(AnnotateFileRequest.pages에 지정 가능)의 프레임(gif) 또는 페이지(pdf 또는 tiff)를 추출하고 추출된 각 이미지에 대한 감지 및 주석을 수행합니다.
|
| BatchAnnotateImages |
|---|
|
이미지 배치에 대한 이미지 감지 및 주석을 실행합니다.
|
AnnotateFileRequest
PDF, TIFF 또는 GIF 파일 등 단일 파일에 주석을 달기 위한 요청입니다.
| 필드 | |
|---|---|
input_config |
필수 항목입니다. 입력 파일에 대한 정보입니다. |
features[] |
필수 항목입니다. 요청한 기능입니다. |
image_context |
파일의 이미지와 함께 제공될 수 있는 추가 컨텍스트입니다. |
pages[] |
이미지 주석을 수행할 파일의 페이지입니다. 페이지는 1부터 시작되며 파일의 첫 번째 페이지를 1페이지로 가정합니다. 요청당 최대 5개 페이지가 지원됩니다. 페이지는 음수일 수 있습니다. 1페이지는 첫 번째 페이지를 의미합니다. 2페이지는 두 번째 페이지를 의미합니다. -1페이지는 마지막 페이지를 의미합니다. -2페이지는 마지막 페이지의 두 번째 페이지를 의미합니다. 파일이 PDF 또는 TIFF가 아닌 GIF인 경우 페이지는 GIF 프레임을 의미합니다. 이 필드가 비어 있으면 기본적으로 서비스가 파일의 처음 5 페이지에 대해 이미지 주석을 수행합니다. |
AnnotateFileResponse
단일 파일 주석 요청에 대한 응답입니다. 파일에는 개별 응답이 있는 하나 이상의 이미지가 포함될 수 있습니다.
| 필드 | |
|---|---|
input_config |
이 응답이 생성된 파일에 대한 정보입니다. |
responses[] |
파일 내에서 발견된 이미지에 대한 개별 응답입니다. |
total_pages |
이 필드는 파일의 총 페이지 수를 제공합니다. |
error |
설정한 경우 실패한 요청의 오류 메시지가 표시됩니다. 이 경우에는 |
AnnotateImageRequest
사용자가 제공한 기능과 컨텍스트 정보로 사용자가 제공한 이미지에 대한 Google Cloud Vision API 작업을 수행하기 위한 요청입니다.
| 필드 | |
|---|---|
image |
처리할 이미지입니다. |
features[] |
요청한 기능입니다. |
image_context |
이미지와 함께 제공될 수 있는 추가 컨텍스트입니다. |
AnnotateImageResponse
이미지 주석 요청에 대한 응답입니다.
| 필드 | |
|---|---|
text_annotations[] |
있는 경우 텍스트(OCR) 인식이 성공적으로 완료된 것입니다. |
full_text_annotation |
있는 경우 텍스트(OCR) 인식 또는 문서(OCR) 텍스트 인식이 성공적으로 완료된 것입니다. 이 주석은 OCR에서 감지한 텍스트의 계층 구조를 보여줍니다. |
error |
설정한 경우 작업의 오류 메시지가 표시됩니다. |
context |
있는 경우 이미지의 출처를 파악하기 위해 컨텍스트 정보가 필요합니다. |
BatchAnnotateFilesRequest
BatchAnnotateFiles API를 사용하여 파일에 주석을 다는 요청의 목록입니다.
| 필드 | |
|---|---|
requests[] |
필수 항목입니다. 파일 주석 요청 목록입니다. 현재는 BatchAnnotateFilesRequest에서 AnnotateFileRequest가 한 개만 지원됩니다. |
parent |
선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다. 형식은 상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다. 지원되는 위치 ID는 다음과 같습니다. 예: |
BatchAnnotateFilesResponse
파일 주석 응답의 목록입니다.
| 필드 | |
|---|---|
responses[] |
파일 주석 응답의 목록으로, 각 응답은 BatchAnnotateFilesRequest의 각 AnnotateFileRequest에 해당합니다. |
BatchAnnotateImagesRequest
여러 이미지 주석 요청이 단일 서비스 호출로 일괄 처리됩니다.
| 필드 | |
|---|---|
requests[] |
필수 항목입니다. 이 배치에 대한 개별 이미지 주석 요청입니다. |
parent |
선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다. 형식은 상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다. 지원되는 위치 ID는 다음과 같습니다. 예: |
BatchAnnotateImagesResponse
배치 이미지 주석 요청에 대한 응답입니다.
| 필드 | |
|---|---|
responses[] |
배치 내의 이미지 주석 요청에 대한 개별 응답입니다. |
차단
페이지의 논리적 요소
| 필드 | |
|---|---|
property |
블록에 대해 인식된 추가 정보입니다. |
bounding_box |
블록의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예를 들면 다음과 같습니다.
꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
paragraphs[] |
이 블록의 단락 목록입니다(이 블록이 텍스트 유형인 경우). |
block_type |
이 블록에서 인식된 블록 유형(텍스트, 이미지 등)입니다. |
confidence |
블록에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1] |
BlockType
OCR에서 식별한 블록 유형(텍스트, 이미지 등)입니다.
| 열거형 | |
|---|---|
UNKNOWN |
알 수 없는 블록 유형입니다. |
TEXT |
일반 텍스트 블록입니다. |
TABLE |
테이블 블록입니다. |
PICTURE |
이미지 블록입니다. |
RULER |
가로/세로선 상자입니다. |
BARCODE |
바코드 블록입니다. |
BoundingPoly
인식된 이미지 주석의 경계 다각형입니다.
| 필드 | |
|---|---|
vertices[] |
경계 다각형의 꼭짓점입니다. |
normalized_vertices[] |
경계 다각형의 정규화된 꼭짓점입니다. |
EntityAnnotation
감지된 항목 특성 세트입니다.
| 필드 | |
|---|---|
mid |
불투명한 항목 ID입니다. 일부 ID는 Google Knowledge Graph Search API에서 확인할 수 있습니다. |
locale |
항목 텍스트 |
description |
|
score |
결과의 전체 지수입니다. 범위 [0, 1] |
confidence |
지원 중단되었습니다. 대신 |
topicality |
이미지에 대한 ICA(이미지 콘텐츠 주석) 라벨의 관련성입니다. 예를 들어 각 이미지에 타워가 있을 확률이 동일하더라도 멀리 있는 고층 빌딩이 감지된 이미지보다는 '에펠탑'이 감지된 이미지와 '타워'의 관련성이 더 높습니다. 범위 [0, 1] |
bounding_poly |
이 항목이 속한 이미지 영역입니다. |
properties[] |
일부 항목에는 항목을 충족하는 점수 또는 문자열과 같이 사용자가 제공한 선택적 |
기능
수행할 Google Cloud Vision API 감지 유형과 해당 유형에 반환될 최대 결과 수입니다. features 목록에서 Feature 객체를 여러 개 지정할 수 있습니다.
| 필드 | |
|---|---|
type |
특성 유형입니다. |
model |
이 특성에 사용할 모델입니다. 지원되는 값은 'builtin/stable'(설정되지 않은 경우 기본값) 및 'builtin/latest'입니다. |
유형
추출할 Google Cloud Vision API 특성의 유형입니다.
| 열거형 | |
|---|---|
TYPE_UNSPECIFIED |
지정되지 않은 특성 유형입니다. |
TEXT_DETECTION |
텍스트 인식/광학 문자 인식(OCR)을 실행합니다. 텍스트 인식은 큰 이미지 내의 텍스트 영역에 최적화되어 있습니다. 이미지가 문서인 경우 DOCUMENT_TEXT_DETECTION을 대신 사용하세요. |
DOCUMENT_TEXT_DETECTION |
밀집된 텍스트 문서 OCR을 실행합니다. DOCUMENT_TEXT_DETECTION과 TEXT_DETECTION이 모두 존재하는 경우 우선 적용됩니다. |
이미지
Google Cloud Vision API 작업을 수행할 클라이언트 이미지입니다.
| 필드 | |
|---|---|
content |
바이트 스트림으로 나타낸 이미지 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 현재 이 필드는 BatchAnnotateImages 요청에서만 작동합니다. AsyncBatchAnnotateImages 요청에서는 작동하지 않습니다. |
ImageAnnotationContext
이미지가 파일(예: PDF)에서 생성된 경우 이 메시지는 이미지의 소스에 대한 정보를 제공합니다.
| 필드 | |
|---|---|
uri |
이미지를 생성하는 데 사용된 파일의 URI입니다. |
page_number |
파일이 PDF 또는 TIFF이면 이 필드는 이미지 생성에 사용된 파일 내의 페이지 번호를 제공합니다. |
ImageContext
이미지 컨텍스트 또는 기능별 매개변수입니다.
| 필드 | |
|---|---|
language_hints[] |
TEXT_DETECTION에 사용할 언어 목록입니다. 대부분의 경우에는 빈 값으로 두면 자동 언어 감지가 사용되어 최상의 결과를 얻을 수 있습니다. 라틴 알파벳을 사용하는 언어라면 |
text_detection_params |
텍스트 인식 및 문서 텍스트 인식을 위한 매개변수입니다. |
InputConfig
원하는 입력 위치 및 메타데이터입니다.
| 필드 | |
|---|---|
content |
바이트 스트림으로 나타낸 파일 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 현재 이 필드는 BatchAnnotateFiles 요청에서만 작동합니다. AsyncBatchAnnotateFiles 요청에서는 작동하지 않습니다. |
mime_type |
파일 유형입니다. 현재는 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다. 와일드 카드는 지원되지 않습니다. |
NormalizedVertex
꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 정규화된 꼭짓점 좌표는 원본 이미지를 기준으로 하며 범위는 0에서 1 사이입니다.
| 필드 | |
|---|---|
x |
X 좌표입니다. |
y |
Y 좌표입니다. |
페이지
OCR에서 감지된 페이지
| 필드 | |
|---|---|
property |
페이지에서 감지된 추가 정보입니다. |
width |
페이지 너비입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다. |
height |
페이지 높이입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다. |
blocks[] |
이 페이지에 있는 텍스트, 이미지 등의 블록 목록입니다. |
confidence |
페이지에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1] |
단락
특정 순서로 단어 수를 나타내는 텍스트의 구조적 단위
| 필드 | |
|---|---|
property |
단락에 대해 감지된 추가 정보입니다. |
bounding_box |
단락의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
words[] |
이 단락의 모든 단어 목록입니다. |
confidence |
단락의 OCR 결과 신뢰도입니다. 범위 [0, 1] |
속성
Property는 사용자가 제공한 이름/값 쌍으로 구성됩니다.
| 필드 | |
|---|---|
name |
속성 이름입니다. |
value |
속성 값입니다. |
uint64_value |
숫자 속성의 값입니다. |
기호
단일 기호 표현
| 필드 | |
|---|---|
property |
기호에 대해 감지된 추가 정보입니다. |
bounding_box |
기호의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
text |
기호의 실제 UTF-8 표현입니다. |
confidence |
기호의 OCR 결과 신뢰도입니다. 범위 [0, 1] |
TextAnnotation
TextAnnotation에는 OCR 추출 텍스트의 구조화된 표현이 포함됩니다. OCR로 추출된 텍스트 구조의 계층 구조는 다음과 같습니다.
TextAnnotation -> 페이지 -> 블록 -> 단락 -> 단어 -> 기호
TextAnnotation.TextProperty 메시지 정의를 참고하세요.
| 필드 | |
|---|---|
pages[] |
OCR에서 감지한 페이지 목록입니다. |
text |
페이지에서 감지된 UTF-8 텍스트입니다. |
DetectedBreak
구조적 구성요소의 감지된 시작 또는 끝입니다.
| 필드 | |
|---|---|
type |
감지된 줄바꿈 유형입니다. |
is_prefix |
줄바꿈을 통해 요소가 맨 앞에 오는 경우 참입니다. |
BreakType
발견된 줄바꿈 유형을 나타내는 열거형입니다. 새 줄, 공백 등이 여기에 해당합니다.
| 열거형 | |
|---|---|
UNKNOWN |
알 수 없는 줄바꿈 라벨 유형입니다. |
SPACE |
일반 공백입니다. |
SURE_SPACE |
확실한 공백입니다(매우 넓음). |
EOL_SURE_SPACE |
줄바꿈입니다. |
HYPHEN |
텍스트에 없는 끝행 하이픈으로, SPACE, LEADER_SPACE 또는 LINE_BREAK와 함께 발생하지 않습니다. |
LINE_BREAK |
단락으로 끝나는 줄바꿈입니다. |
DetectedLanguage
구조적 구성요소의 감지된 언어
| 필드 | |
|---|---|
language_code |
BCP-47 언어 코드(예: 'en-US' 또는 'sr-Latn') 자세한 내용은 https://www.unicode.org/reports/tr35/#Unicode_locale_identifier를 참고하세요. |
confidence |
감지된 언어의 신뢰도입니다. 범위 [0, 1] |
TextProperty
구조적 구성요소에서 감지되는 추가 정보
| 필드 | |
|---|---|
detected_languages[] |
감지된 언어와 신뢰도 목록입니다. |
detected_break |
감지된 텍스트 세그먼트의 시작 또는 끝입니다. |
TextDetectionParams
텍스트 감지를 위한 매개변수입니다. TEXT_DETECTION 및 DOCUMENT_TEXT_DETECTION 기능을 제어하기 위해 사용됩니다.
| 필드 | |
|---|---|
enable_text_detection_confidence_score |
기본적으로 Cloud Vision API에는 DOCUMENT_TEXT_DETECTION 결과의 신뢰도 점수만 포함됩니다. TEXT_DETECTION의 신뢰도 점수도 포함하려면 플래그를 true로 설정합니다. |
advanced_ocr_options[] |
OCR 동작을 미세 조정하기 위한 고급 OCR 옵션 목록입니다. |
Vertex
꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 꼭짓점 좌표는 원본 이미지와 축척이 동일합니다.
| 필드 | |
|---|---|
x |
X 좌표입니다. |
y |
Y 좌표입니다. |
Word
단어 표현입니다.
| 필드 | |
|---|---|
property |
단어에 대해 감지된 추가 정보입니다. |
bounding_box |
단어의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
symbols[] |
단어 내 기호의 목록입니다. 기호의 순서는 자연스럽게 읽는 순서를 따릅니다. |
confidence |
단어의 OCR 결과 신뢰도입니다. 범위 [0, 1] |