- Representación JSON
- AudioEncoding
- SpeechAdaptation
- ABNFGrammar
- TranscriptNormalization
- Entrada
- SpeechContext
- SpeakerDiarizationConfig
- RecognitionMetadata
- InteractionType
- MicrophoneDistance
- OriginalMediaType
- RecordingDeviceType
Proporciona información al reconocedor que especifica cómo procesar la solicitud.
| Representación JSON |
|---|
{ "encoding": enum ( |
| Campos | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
Codifica datos de audio enviados en todos los mensajes de |
||||||||||||||||||
sampleRateHertz |
Tasa de muestreo en hercios de los datos de audio que se enviaron en todos los mensajes |
||||||||||||||||||
audioChannelCount |
La cantidad de canales en los datos de audio de entrada. SOLO configura esta opción para el reconocimiento MULTICANAL. Los valores válidos para LINEAR16, OGG_OPUS y FLAC son |
||||||||||||||||||
enableSeparateRecognitionPerChannel |
Debe establecerse en |
||||||||||||||||||
languageCode |
Obligatorio. El idioma del audio proporcionado como una etiqueta de idioma BCP-47. Ejemplo: “en_US”. Consulta Idiomas admitidos para obtener una lista de los códigos de idioma que se admiten por el momento. |
||||||||||||||||||
alternativeLanguageCodes[] |
Es una lista de hasta 3 etiquetas de idioma BCP-47 adicionales que indican los posibles idiomas alternativos del audio proporcionado. Consulta Idiomas admitidos para obtener una lista de los códigos de idioma que se admiten por el momento. Si se indican idiomas alternativos, el resultado del reconocimiento contendrá el reconocimiento en el idioma más probable detectado, incluido el idioma principal languageCode. El resultado del reconocimiento incluirá la etiqueta de idioma del idioma detectado en el audio. Nota: Esta función solo es compatible con los casos de uso de Comandos por voz y Búsqueda por voz, y el rendimiento puede variar en otros casos de uso (p.ej., la transcripción de llamadas telefónicas). |
||||||||||||||||||
maxAlternatives |
Es la cantidad máxima de hipótesis de reconocimiento que se devolverán. Específicamente, la cantidad máxima de mensajes |
||||||||||||||||||
profanityFilter |
Si se establece en |
||||||||||||||||||
adaptation |
La configuración de adaptación de voz mejora la precisión del reconocimiento de voz. Para obtener más información, consulta la documentación sobre la adaptación de voz. Cuando se establece la adaptación de voz, esta reemplaza el campo |
||||||||||||||||||
transcriptNormalization |
Opcional. Usa la normalización de transcripciones para reemplazar automáticamente partes de la transcripción por las frases que elijas. En el caso de StreamingRecognize, esta normalización solo se aplica a las transcripciones parciales estables (estabilidad > 0.8) y a las transcripciones finales. |
||||||||||||||||||
speechContexts[] |
Es un array de |
||||||||||||||||||
enableWordTimeOffsets |
Si es |
||||||||||||||||||
enableWordConfidence |
Si es |
||||||||||||||||||
enableAutomaticPunctuation |
Si se establece como "verdadero", agrega puntuación a las hipótesis de los resultados de reconocimiento. Esta función solo está disponible en algunos idiomas. Establecer este parámetro para solicitudes en otros idiomas no tiene ningún efecto. El valor predeterminado "false" no agrega puntuación a las hipótesis de los resultados. |
||||||||||||||||||
enableSpokenPunctuation |
Es el comportamiento de puntuación por voz para la llamada. Si no se configura, se usa el comportamiento predeterminado según el modelo elegido (p. ej., command_and_search habilitará la puntuación por voz de forma predeterminada). Si se establece como "verdadero", reemplaza la puntuación por voz por los símbolos correspondientes en la solicitud. Por ejemplo, "cómo estás signo de interrogación" se convierte en "¿Cómo estás?". Consulta https://cloud.google.com/speech-to-text/docs/spoken-punctuation para obtener asistencia. Si es "false", no se reemplaza la puntuación hablada. |
||||||||||||||||||
enableSpokenEmojis |
Es el comportamiento de los emojis por voz para la llamada. Si no se configura, se usa el comportamiento predeterminado según el modelo elegido. Si se establece en "verdadero", se agrega el formato de emojis por voz en la solicitud. De este modo, se reemplazarán los emojis por voz por los símbolos Unicode correspondientes en la transcripción final. Si es "false", no se reemplazan los emojis hablados. |
||||||||||||||||||
enableSpeakerDiarization |
Si es "true", habilita la detección de interlocutor para cada palabra reconocida en la alternativa principal del resultado de reconocimiento con una speakerLabel proporcionada en WordInfo. Nota: Usa diarizationConfig en su lugar. |
||||||||||||||||||
diarizationSpeakerCount |
Si se configura, especifica la cantidad estimada de oradores en la conversación. El valor predeterminado es "2". Se ignora, a menos que enableSpeakerDiarization esté configurado como verdadero. Nota: Usa diarizationConfig en su lugar. |
||||||||||||||||||
diarizationConfig |
Configuración para habilitar la identificación de interlocutores y establecer parámetros adicionales con el objetivo de que la identificación se adapte mejor a tu aplicación. Nota: Cuando esta opción está habilitada, enviamos todas las palabras desde el comienzo del audio para la alternativa principal en cada respuesta de STREAMING consecutiva. Esto se hace para mejorar nuestras etiquetas de orador a medida que nuestros modelos aprenden a identificar a los oradores en la conversación con el tiempo. En el caso de las solicitudes que no son de transmisión, los resultados de la diarización solo se proporcionarán en la alternativa superior del SpeechRecognitionResult FINAL. |
||||||||||||||||||
metadata |
Son los metadatos relacionados con esta solicitud. |
||||||||||||||||||
model |
Qué modelo debes seleccionar para la solicitud determinada Selecciona el modelo que mejor se adapte a tu dominio para obtener mejores resultados. Si no se especifica un modelo de forma explícita, seleccionamos de forma automática un modelo basado en los parámetros de RecognitionConfig.
|
||||||||||||||||||
useEnhanced |
Se establece en verdadero para usar un modelo mejorado para el reconocimiento de voz. Si Si |
||||||||||||||||||
AudioEncoding
La codificación de los datos de audio que se envía en la solicitud.
Todas las codificaciones admiten solo audio de 1 canal (mono), a menos que se configuren los campos audioChannelCount y enableSeparateRecognitionPerChannel.
Para obtener mejores resultados, la fuente de audio debe capturarse y transmitirse con una codificación sin pérdida (FLAC o LINEAR16). La precisión del reconocimiento de voz se puede reducir si se usan códecs con pérdida para capturar o transmitir audio, especialmente si hay ruido de fondo. Los códecs con pérdida incluyen MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3 y WEBM_OPUS.
Los formatos de archivo de audio FLAC y WAV incluyen un encabezado que describe el contenido de audio incluido. Puedes solicitar el reconocimiento de archivos WAV que contengan audio codificado en LINEAR16 o MULAW. Si envías el formato de archivo de audio FLAC o WAV en tu solicitud, no necesitas especificar un AudioEncoding; el formato de codificación de audio se determina a partir del encabezado del archivo. Si especificas un AudioEncoding cuando envías audio FLAC o WAV, la configuración de codificación debe coincidir con la codificación que se describe en el encabezado de audio. de lo contrario, la solicitud muestra un código de error google.rpc.Code.INVALID_ARGUMENT.
| Enums | |
|---|---|
ENCODING_UNSPECIFIED |
No especificado. |
LINEAR16 |
Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal). |
FLAC |
FLAC (códec de audio gratuito sin pérdida) es la codificación recomendada debido a que no tiene pérdida, por lo que el reconocimiento no se ve comprometido, y requiere solo la mitad del ancho de banda de LINEAR16. La codificación de transmisión FLAC admite muestras de 16 y 24 bits. Sin embargo, no todos los campos en STREAMINFO son compatibles. |
MULAW |
Las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711. |
AMR |
El códec adaptable de banda estrecha de varias tasas. sampleRateHertz debe ser 8,000. |
AMR_WB |
El códec adaptable de banda ancha de varias tasas. sampleRateHertz debe ser 16,000. |
OGG_OPUS |
Los marcos de audio codificados en Opus en un contenedor Ogg (OggOpus). sampleRateHertz debe ser de 8,000, 12,000, 16,000, 24,000 o 48,000. |
SPEEX_WITH_HEADER_BYTE |
Aunque no se recomienda el uso de codificaciones con pérdidas, se prefiere OGG_OPUS por sobre la codificación Speex si se requiere una codificación de tasa de bits muy baja. La codificación Speex compatible con la API de Cloud Speech tiene un byte de encabezado en cada bloque, como en el tipo de MIME audio/x-speex-with-header-byte. Es una variante de la codificación Speex RTP definida en RFC 5574. La transmisión es una secuencia de bloques, un bloque por paquete RTP. Cada bloque comienza con un byte que contiene la longitud del bloque, en bytes, seguido de uno o más marcos de datos Speex, que se rellenan con un número entero de bytes (octetos) como se especifica en RFC 5574. En otras palabras, cada encabezado RTP se reemplaza por un solo byte que contiene la longitud del bloque. Solo se admite banda ancha de Speex. sampleRateHertz debe ser 16,000. |
MP3 |
Audio en MP3 La codificación MP3 es una función beta y solo está disponible en v1p1beta1. Admite todas las tasas de bits de MP3 estándar (que van desde 32 hasta 320 kbps). Cuando se usa esta codificación, sampleRateHertz debe coincidir con la tasa de muestreo del archivo que se usa. |
WEBM_OPUS |
Marcos de audio codificados en Opus en un contenedor WebM (WebM). sampleRateHertz debe ser de 8,000, 12,000, 16,000, 24,000 o 48,000. |
ALAW |
Las muestras de 8 bits que comprimen las muestras de audio de 13 bits con la ley PCMU/a-law de G.711. |
SpeechAdaptation
Es la configuración de la adaptación de voz.
| Representación JSON |
|---|
{ "phraseSets": [ { object ( |
| Campos | |
|---|---|
phraseSets[] |
Es una colección de conjuntos de frases. Para especificar las sugerencias intercaladas, deja en blanco el campo |
phraseSetReferences[] |
Es una colección de nombres de recursos de conjuntos de frases para usar. |
customClasses[] |
Es una colección de clases personalizadas. Para especificar las clases intercaladas, deja en blanco el |
abnfGrammar |
La forma Backus-Naur aumentada (ABNF) es una notación de gramática estandarizada que se compone de un conjunto de reglas de derivación. Consulta las especificaciones en https://www.w3.org/TR/speech-grammar. |
ABNFGrammar
| Representación JSON |
|---|
{ "abnfStrings": [ string ] } |
| Campos | |
|---|---|
abnfStrings[] |
Todas las declaraciones y reglas de una gramática ABNF divididas en varias cadenas que terminarán concatenadas. |
TranscriptNormalization
Es la configuración de normalización de la transcripción. Usa la normalización de transcripciones para reemplazar automáticamente partes de la transcripción por las frases que elijas. En el caso de StreamingRecognize, esta normalización solo se aplica a las transcripciones parciales estables (estabilidad > 0.8) y a las transcripciones finales.
| Representación JSON |
|---|
{
"entries": [
{
object ( |
| Campos | |
|---|---|
entries[] |
Es una lista de entradas de reemplazo. Realizaremos el reemplazo con una entrada a la vez. Por ejemplo, la segunda entrada en ["cat" => "dog", "mountain cat" => "mountain dog"] nunca se aplicará porque siempre procesaremos la primera entrada antes que esta. Se pueden ingresar hasta 100 entradas. |
Entrada
Es un objeto de configuración de reemplazo único.
| Representación JSON |
|---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
| Campos | |
|---|---|
search |
Qué se reemplazará. La longitud máxima es de 100 caracteres. |
replace |
Es el valor con el que se reemplazará. La longitud máxima es de 100 caracteres. |
caseSensitive |
Indica si la búsqueda distingue mayúsculas de minúsculas. |
SpeechContext
Proporciona "pistas" al reconocedor de voz para favorecer palabras y frases específicas en los resultados.
| Representación JSON |
|---|
{ "phrases": [ string ], "boost": number } |
| Campos | |
|---|---|
phrases[] |
Una lista de strings que contienen palabras y frases “sugerencias” para que el reconocimiento de voz las reconozca. Esto se puede usar para mejorar la precisión de palabras y frases específicas, por ejemplo, si el usuario suele decir comandos específicos. También se puede usar para agregar palabras adicionales al vocabulario del reconocedor. Consulta los límites de uso. Los elementos de la lista también se pueden establecer en clases para grupos de palabras que representan conceptos comunes que ocurren en el lenguaje natural. Por ejemplo, en lugar de proporcionar sugerencias de frases para cada mes del año, usar la clase $MONTH mejora la probabilidad de transcribir correctamente el audio que incluye meses. |
boost |
Sugerencias potenciadas Un valor positivo aumentará la probabilidad de que se reconozca una frase específica por sobre otras frases de sonido similar. Cuanto mayor sea el refuerzo, mayor será la probabilidad de que se produzca un falso positivo. Los valores de refuerzo negativos corresponderían a la eliminación del sesgo. No se habilitó la reducción del sesgo, por lo que simplemente se ignorará el refuerzo negativo. Si bien |
SpeakerDiarizationConfig
Es la configuración para habilitar la identificación de interlocutores.
| Representación JSON |
|---|
{ "enableSpeakerDiarization": boolean, "minSpeakerCount": integer, "maxSpeakerCount": integer, "speakerTag": integer } |
| Campos | |
|---|---|
enableSpeakerDiarization |
Si es "true", habilita la detección de interlocutor para cada palabra reconocida en la alternativa principal del resultado de reconocimiento con una speakerLabel proporcionada en WordInfo. |
minSpeakerCount |
Cantidad mínima de oradores en la conversación. Este rango te brinda más flexibilidad, ya que permite que el sistema determine automáticamente la cantidad correcta de oradores. Si no se establece, el valor predeterminado es 2. |
maxSpeakerCount |
Cantidad máxima de oradores en la conversación. Este rango te brinda más flexibilidad, ya que permite que el sistema determine automáticamente la cantidad correcta de oradores. Si no se establece, el valor predeterminado es 6. |
speakerTag |
Solo salida. No usuado. |
RecognitionMetadata
Es la descripción de los datos de audio que se reconocerán.
| Representación JSON |
|---|
{ "interactionType": enum ( |
| Campos | |
|---|---|
interactionType |
Es el caso de uso que describe con mayor precisión el contenido de audio que se reconocerá. |
industryNaicsCodeOfAudio |
Es la vertical de la industria a la que más se aplica esta solicitud de reconocimiento de voz. Esto es lo que mejor indica los temas que se incluyen en el audio. Usa el código NAICS de 6 dígitos para identificar el sector vertical de la industria. Consulta https://www.naics.com/search/. |
microphoneDistance |
Es el tipo de audio que describe con mayor precisión el audio que se reconoce. |
originalMediaType |
Es el medio original en el que se grabó el discurso. |
recordingDeviceType |
Es el tipo de dispositivo con el que se grabó el discurso. |
recordingDeviceName |
Dispositivo usado para hacer la grabación. Por ejemplo, "Nexus 5X", "Polycom SoundStation IP 6000", "POTS", "VoIP" o "Micrófono cardioide". |
originalMimeType |
Tipo MIME del archivo de audio original. Por ejemplo, |
obfuscatedId |
ID ofuscado (con protección de la privacidad) del usuario, para identificar el número de usuarios únicos que usan el servicio. |
audioTopic |
Es la descripción del contenido. P. ej., "Grabaciones de las audiencias de la Corte Suprema Federal de 2012". |
InteractionType
Son las categorías de casos de uso con las que se puede describir la solicitud de reconocimiento de audio.
| Enums | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
El caso de uso es desconocido o es algo distinto de uno de los otros valores que se indican a continuación. |
DISCUSSION |
Varias personas en una conversación o debate Por ejemplo, en una reunión con dos o más personas que participan de forma activa. Por lo general, todas las personas que hablan principalmente estarían en la misma habitación (si no es así, consulta PHONE_CALL). |
PRESENTATION |
Una o más personas dando una conferencia o una presentación a otras, casi sin interrupciones. |
PHONE_CALL |
Llamada telefónica o videoconferencia en la que participan activamente dos o más personas que no están en la misma habitación |
VOICEMAIL |
Mensaje grabado para que lo escuche otra persona. |
PROFESSIONALLY_PRODUCED |
Audio producido de forma profesional (p. ej., Programa de TV, podcast). |
VOICE_SEARCH |
Transcribir preguntas y consultas habladas en texto |
VOICE_COMMAND |
Transcribir comandos por voz, por ejemplo, para controlar un dispositivo |
DICTATION |
Transcribir voz a texto para crear un documento escrito, como un mensaje de texto, un correo electrónico o un informe |
MicrophoneDistance
Enumera los tipos de parámetros de configuración de captura que describen un archivo de audio.
| Enums | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
No se conoce el tipo de audio. |
NEARFIELD |
El audio se capturó con un micrófono colocado cerca. Por ejemplo, un teléfono, un dictáfono o un micrófono de mano. Por lo general, si la bocina está a 1 metro del micrófono. |
MIDFIELD |
El interlocutor si está a menos de 3 metros del micrófono |
FARFIELD |
El altavoz está a más de 3 metros del micrófono. |
OriginalMediaType
Es el medio original en el que se grabó el discurso.
| Enums | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
Tipo de contenido multimedia original desconocido. |
AUDIO |
Los datos de voz son una grabación de audio. |
VIDEO |
Son los datos de voz que se grabaron originalmente en un video. |
RecordingDeviceType
Es el tipo de dispositivo con el que se grabó el discurso.
| Enums | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
Se desconoce el dispositivo de grabación. |
SMARTPHONE |
El discurso se grabó en un smartphone. |
PC |
El discurso se grabó con una computadora personal o una tablet. |
PHONE_LINE |
El discurso se grabó a través de una línea telefónica. |
VEHICLE |
Se grabó voz en un vehículo. |
OTHER_OUTDOOR_DEVICE |
La voz se grabó al aire libre. |
OTHER_INDOOR_DEVICE |
La voz se grabó en interiores. |