Usar bibliotecas de OpenAI con Vertex AI

La API Chat Completions funciona como un endpoint compatible con OpenAI, diseñado para facilitar la interacción con Gemini en Vertex AI mediante las bibliotecas de OpenAI para Python y REST. Si ya usas las bibliotecas de OpenAI, puedes usar esta API como una forma económica de cambiar entre las llamadas a modelos de OpenAI y a modelos alojados en Vertex AI para comparar la salida, el coste y la escalabilidad sin cambiar el código. Si aún no usas las bibliotecas de OpenAI, te recomendamos que uses el SDK de IA generativa de Google.

Modelos admitidos

La API Chat Completions admite tanto los modelos de Gemini como algunos modelos autodesplegados de Model Garden.

Modelos de Gemini

Los siguientes modelos admiten la API Chat Completions:

Modelos autodesplegados de Model Garden

Los contenedores Hugging Face Text Generation Interface (HF TGI) y Vertex AI Model Garden prebuilt vLLM admiten la API Chat Completions. Sin embargo, no todos los modelos implementados en estos contenedores admiten la API Chat Completions. En la siguiente tabla se incluyen los modelos admitidos más populares por contenedor:

HF TGI	vLLM
`gemma-2-9b-it` `gemma-2-27b-it` `Meta-Llama-3.1-8B-Instruct` `Meta-Llama-3-8B-Instruct` `Mistral-7B-Instruct-v0.3` `Mistral-Nemo-Instruct-2407`	Gemma Llama 2 Llama 3 Mistral-7B Mistral Nemo

Parámetros admitidos

En el caso de los modelos de Google, la API Chat Completions admite los siguientes parámetros de OpenAI. Para ver una descripción de cada parámetro, consulta la documentación de OpenAI sobre cómo crear finalizaciones de conversaciones. La compatibilidad con los parámetros de los modelos de terceros varía en función del modelo. Para ver qué parámetros se admiten, consulta la documentación del modelo.

`messages`	`System message` `User message`: se admiten los tipos `text` y `image_url`. El tipo `image_url` admite imágenes almacenadas en un URI de Cloud Storage o una codificación base64 con el formato `"data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>"`. Para obtener información sobre cómo crear un segmento de Cloud Storage y subir un archivo a él, consulta Descubrir el almacenamiento de objetos. La opción `detail` no está disponible. `Assistant message` `Tool message` `Function message`: este campo ha dejado de estar disponible, pero se admite para asegurar la retrocompatibilidad.
`model`
`max_completion_tokens`	Alias de `max_tokens`.
`max_tokens`
`n`
`frequency_penalty`
`presence_penalty`
`reasoning_effort`	Configura cuánto tiempo y cuántos tokens se usan en una respuesta. `low`: 1024 `medium`: 8192 `high`: 24576 Como no se incluye ningún pensamiento en la respuesta, solo se puede especificar uno de los siguientes elementos: `reasoning_effort` o `extra_body.google.thinking_config`.
`response_format`	`json_object`: se interpreta como el envío de "application/json" a la API de Gemini. `json_schema`. No se admiten esquemas totalmente recursivos. `additional_properties` se admite. `text`: se interpreta como si se pasara "text/plain" a la API de Gemini. Cualquier otro tipo MIME se transfiere tal cual al modelo, como "application/json".
`seed`	Corresponde a `GenerationConfig.seed`.
`stop`
`stream`
`temperature`
`top_p`
`tools`	`type` `function` `name` `description` `parameters`: especifica los parámetros mediante la especificación de OpenAPI. Esto es diferente del campo de parámetros de OpenAI, que se describe como un objeto de esquema JSON. Para obtener información sobre las diferencias entre las palabras clave de OpenAPI y JSON Schema, consulta la guía de OpenAPI.
`tool_choice`	`none` `auto` `required`: corresponde al modo `ANY` en `FunctionCallingConfig`. `validated`: corresponde al modo `VALIDATED` en `FunctionCallingConfig`. Esto es específico de Google.
`web_search_options`	Corresponde a la herramienta `GoogleSearch`. No se admiten subopciones.
`function_call`	Este campo está obsoleto, pero se admite para mantener la retrocompatibilidad.
`functions`	Este campo está obsoleto, pero se admite para mantener la retrocompatibilidad.

Si envía algún parámetro no admitido, se ignorará.

Parámetros de entrada multimodal

La API Chat Completions admite determinadas entradas multimodales.

input_audio

data: Cualquier URI o formato de blob válido. Admitimos todos los tipos de blobs, incluidos los de imagen, audio y vídeo. Se admite cualquier elemento compatible con GenerateContent (HTTP, Cloud Storage, etc.).
format: OpenAI admite tanto wav (audio/wav) como mp3 (audio/mp3). Con Gemini, se admiten todos los tipos de MIME válidos.

image_url

data: Al igual que input_audio, se admite cualquier URI o formato de blob válido.
Ten en cuenta que image_url como URL tendrá el tipo MIME image/* de forma predeterminada y que image_url como datos de blob se puede usar como cualquier entrada multimodal.
detail: Similar a resolución del contenido multimedia, determina el número máximo de tokens por imagen de la solicitud. Ten en cuenta que, aunque el campo de OpenAI es por imagen, Gemini aplica el mismo detalle en toda la solicitud. Si se transfieren varios tipos de detalles en una solicitud, se producirá un error.

En general, el parámetro data puede ser un URI o una combinación de tipo MIME y bytes codificados en Base64 con el formato "data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>". Para ver una lista completa de los tipos MIME, consulta GenerateContent. Para obtener más información sobre la codificación base64 de OpenAI, consulta su documentación.

Para ver cómo se usa, consulta nuestros ejemplos de entrada multimodal.

Parámetros específicos de Gemini

Hay varias funciones compatibles con Gemini que no están disponibles en los modelos de OpenAI. Estas funciones se pueden seguir transfiriendo como parámetros, pero deben estar incluidas en extra_content o extra_body. De lo contrario, se ignorarán.

Funciones de `extra_body`

Incluye un campo google para contener cualquier función específica de Gemini. extra_body

{
  ...,
  "extra_body": {
     "google": {
       ...,
       // Add extra_body features here.
     }
   }
}

`safety_settings`	Corresponde a `SafetySetting` de Gemini.
`cached_content`	Corresponde a `GenerateContentRequest.cached_content` de Gemini.
`thinking_config`	Corresponde a `GenerationConfig.ThinkingConfig` de Gemini.
`thought_tag_marker`	Se usa para separar los pensamientos de un modelo de sus respuestas en los modelos que tienen disponible la función Pensamiento. Si no se especifica, no se devolverán etiquetas en torno a las reflexiones del modelo. Si están presentes, las consultas posteriores eliminarán las etiquetas de pensamiento y marcarán los pensamientos de forma adecuada para el contexto. De esta forma, se mantiene el contexto adecuado para las consultas posteriores.

Funciones de `extra_part`

extra_part le permite especificar ajustes adicionales a nivel de Part.

Incluye un campo google para contener cualquier función específica de Gemini. extra_part

{
  ...,
  "extra_part": {
     "google": {
       ...,
       // Add extra_part features here.
     }
   }
}

`extra_content`	Campo para añadir contenido específico de Gemini que no se debe ignorar.
`thought`	Este campo marca explícitamente si un campo es una reflexión y tiene prioridad sobre `thought_tag_marker`. Ayuda a distinguir entre los diferentes pasos de un proceso de pensamiento, especialmente en situaciones de uso de herramientas en las que los pasos intermedios podrían confundirse con respuestas finales. Si etiquetas partes específicas de la entrada como reflexiones, puedes guiar al modelo para que las trate como razonamientos internos en lugar de respuestas orientadas al usuario.
`thought_signature`	Campo de bytes que proporciona una firma de pensamiento para validar los pensamientos devueltos por el modelo. Este campo es distinto de `thought`, que es un campo booleano. Para obtener más información, consulta Firmas de pensamientos.

Siguientes pasos

Consulta más información sobre la autenticación y las credenciales con la sintaxis compatible con OpenAI.
Consulta ejemplos de llamadas a la API Chat Completions con la sintaxis compatible con OpenAI.
Consulta ejemplos de llamadas a la API Inference con la sintaxis compatible con OpenAI.
Consulta ejemplos de llamadas a la API Function Calling con sintaxis compatible con OpenAI.
Más información sobre la API de Gemini
Consulta más información sobre cómo migrar de Azure OpenAI a la API de Gemini.