El modelo de pago por uso flexible (Flex PayGo) es una opción rentable para acceder a los modelos de Gemini para cargas de trabajo no esenciales que pueden tolerar tiempos de respuesta más largos y una mayor limitación. Flex PayGo ofrece un descuento del 50% en comparación con el modelo de pago por uso estándar.
Cuándo usar Flex PayGo
Flex PayGo es ideal para tareas síncronas, tolerantes a la latencia y no esenciales que no son urgentes. Estos son algunos casos de uso de ejemplo:
- Análisis sin conexión de texto, documentos, imágenes, audio y archivos de video
- Evaluación de la calidad del modelo
- Anotación y etiquetado de datos
- Traducción de documentos
- Creación de un catálogo de productos
Modelos y ubicaciones compatibles
Los siguientes modelos de Gemini en versión preliminar
admiten Flex PayGo solo en el extremo global. Flex PayGo no admite extremos regionales ni multirregionales.
Límite de la carga útil de la solicitud
Las solicitudes de Flex PayGo tienen un límite de tamaño total de carga útil de 20 MB. Para las cargas útiles que superen los 20 MB, proporciona un URI de Cloud Storage.
Usar Flex PayGo
Para enviar solicitudes a la API de Gemini con Flex PayGo, debes incluir el encabezado X-Vertex-AI-LLM-Shared-Request-Type en tu solicitud. Puedes usar Flex PayGo de dos maneras:
- Usa la cuota de capacidad de procesamiento aprovisionada (si está disponible) y, luego, usa Flex PayGo.
- Usa solo Flex PayGo.
Las solicitudes que usan Flex PayGo tienen una latencia esperada más larga que el modelo de pago por uso estándar.
Puedes establecer el tiempo de espera de la solicitud en un máximo de 30 minutos.
Usar Flex PayGo mientras se usa la capacidad de procesamiento aprovisionada como predeterminada
Para utilizar cualquier cuota de capacidad de procesamiento aprovisionada disponible antes de usar Flex PayGo, incluye el encabezado X-Vertex-AI-LLM-Shared-Request-Type: flex en tus solicitudes, como se muestra en los siguientes ejemplos.
Python
Instalar
pip install --upgrade google-genai
Para obtener más información, consulta la documentación de referencia del SDK.
Configura las variables de entorno para usar el SDK de IA generativa de Google con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_ENTERPRISE=True
Inicializa tu cliente de GenAI para usar Flex PayGo. Después de realizar este paso, no necesitarás hacer más ajustes en tu código para interactuar con la API de Gemini con Flex PayGo en el mismo cliente.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "flex" }, # timeout = 600000 # Timeout in milliseconds ) )
REST
Antes de usar cualquiera de los datos de solicitud a continuación, haz los siguientes reemplazos:
PROJECT_ID: Es tu ID del proyecto.MODEL_ID: Es el ID del modelo para el que deseas inicializar Flex PayGo.PROMPT_TEXT: Las instrucciones de texto que se incluirán en el mensaje. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Server-Timeout: 600" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}
Usar solo Flex PayGo
Para usar solo Flex PayGo, incluye los encabezados X-Vertex-AI-LLM-Request-Type: shared y X-Vertex-AI-LLM-Shared-Request-Type: flex en tus solicitudes, como se muestra en los siguientes ejemplos.
Python
Instalar
pip install --upgrade google-genai
Para obtener más información, consulta la documentación de referencia del SDK.
Configura las variables de entorno para usar el SDK de IA generativa de Google con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_ENTERPRISE=True
Inicializa tu cliente de GenAI para usar Flex PayGo. Después de realizar este paso, no necesitarás hacer más ajustes en tu código para interactuar con la API de Gemini con Flex PayGo en el mismo cliente.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "flex" }, # timeout = 600000 # Timeout in milliseconds ) )
REST
Antes de usar cualquiera de los datos de solicitud a continuación, haz los siguientes reemplazos:
PROJECT_ID: Es tu ID del proyecto.MODEL_ID: Es el ID del modelo para el que deseas inicializar Flex PayGo.PROMPT_TEXT: Las instrucciones de texto que se incluirán en el mensaje. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Server-Timeout: 600" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}
Verificar el uso de Flex PayGo
Puedes verificar si una solicitud utilizó Flex PayGo a partir del tipo de tráfico en la respuesta, como se muestra en los siguientes ejemplos.
Python
Puedes verificar si se usó Flex PayGo para una solicitud desde el campo traffic_type en la respuesta. Si tu solicitud se procesó con Flex PayGo, el campo traffic_type se establece en ON_DEMAND_FLEX.
sdk_http_response=HttpResponse( headers=) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason=<FinishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type=<TrafficType.ON_DEMAND_FLEX: 'ON_DEMAND_FLEX'> ) automatic_function_calling_history=[] parsed=None
REST
Puedes verificar si se usó Flex PayGo para una solicitud desde el campo trafficType en la respuesta. Si tu solicitud se procesó con Flex PayGo, el campo trafficType se establece en ON_DEMAND_FLEX.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}Cuota adicional para Flex PayGo
Además de las cuotas disponibles para las solicitudes de generación de contenido (incluida la cuota de capacidad de procesamiento aprovisionada para el tráfico de desbordamiento), las solicitudes que utilizan Flex PayGo están sujetas a la siguiente cuota:
| Descripción | QPM para cada modelo base en un proyecto |
|---|---|
| Cuota para cada modelo base en un proyecto que utiliza Flex PayGo | 3000 |