Controla los costos con cuotas de tokens
En este documento, se describe cómo puedes definir y administrar límites diarios en la cantidad de tokens de entrada y salida que consumen las funciones de IA generativa.Las funciones de IA generativa de BigQuery usan modelos de lenguaje grandes (LLM) para realizar análisis avanzados en tus consultas de SQL. Dado que el uso de LLM suele facturarse según la cantidad de tokens procesados, BigQuery proporciona cuotas de tokens para ayudarte a administrar y controlar los costos asociados con el uso de estas funciones.
Las cuotas de tokens se aplican a las funciones de SQL de BigQuery diseñadas para todas las tareas de inferencia de IA generativa que usan LLM de Gemini, como las funciones AI.CLASSIFY y AI.GENERATE.
Detalles de la cuota
BigQuery proporciona las siguientes cuotas diarias según el uso de tokens de LLM. El uso de tokens se correlaciona directamente con la facturación de Vertex AI para las funciones de IA generativa de BigQuery que usan modelos de Gemini. Estas cuotas se registran de forma global en todas las regiones.
Estas cuotas de tokens rigen la cantidad de tokens de entrada y salida que procesan los LLMs para las funciones de IA generativa:
- Tokens de entrada: Son los tokens que se envían al modelo para su procesamiento. Esto incluye los tokens en el texto de la instrucción y cualquier otro dato que se proporcione al modelo como entrada.
- Tokens de salida: Son los tokens que genera el modelo en su respuesta. Esto incluye los tokens en el texto generado (tokens candidatos) y los tokens generados durante los pasos de razonamiento interno (tokens de pensamiento).
| Nombre de la cuota | Métrica | Permiso | Valor predeterminado |
|---|---|---|---|
GenAiInputTokensPerDay |
Tokens de entrada que usa el LLM | Por día y por proyecto | 200,000,000,000 |
GenAiInputTokensPerUserPerDay |
Tokens de entrada que usa el LLM | Por día y por usuario | 40,000,000,000 |
GenAiOutputTokensPerDay |
Tokens de salida y pensamiento que usa el LLM | Por día y por proyecto | 20,000,000,000 |
GenAiOutputTokensPerUserPerDay |
Tokens de salida y pensamiento que usa el LLM | Por día y por usuario | 4,000,000,000 |
Estas cuotas se registran en incrementos de millones de tokens. Si bien puedes establecer límites precisos, es posible que los valores inferiores a unos pocos millones de tokens no se reflejen con total precisión debido a la naturaleza de los informes y la agregación de tokens.
Los tokens almacenados en caché no se incluyen en las cuotas.
Administrar las cuotas
Según el uso que hagas de los recursos, es posible que desees ver o ajustar los valores de cuota de tokens. Puedes usar la consola de Google Cloud para realizar las siguientes tareas:
En la consola de Google Cloud , ve a la página IAM y administración > Cuotas y límites del sistema.
Para filtrar las cuotas, ingresa
Service: BigQuery API.Busca una cuota específica en la lista (por ejemplo, busca
GenAiInputTokensPerDay).Haz clic en Editar.
Para aumentar o disminuir la cuota en el panel Cambios de cuota, ingresa un valor nuevo.
- Si tus cargas de trabajo requieren más capacidad de la que proporciona el límite predeterminado, puedes solicitar un aumento de cuota.
- Si deseas establecer un límite más estricto en tu uso para evitar excesos de presupuesto, puedes crear una anulación de cuota para limitar tu uso.
Haz clic en Enviar solicitud.
Comportamiento de la aplicación de cuotas
BigQuery supervisa el consumo de tokens en varias etapas de la ejecución de la consulta:
- Verificación previa a la ejecución: BigQuery verifica la cuota de tokens disponible antes de ejecutar una consulta que contiene funciones de IA generativa. Si la cuota pertinente (por ejemplo, los tokens de entrada diarios del proyecto) ya se agotó, se rechaza la búsqueda con un error
QuotaExceeded. - Durante la ejecución: Si una búsqueda se está ejecutando y consume tokens de tal manera que agota cualquiera de las cuotas configuradas (de entrada o salida, por proyecto o por usuario), se rechazan las nuevas llamadas al LLM dentro de esa búsqueda.
- Las filas restantes que dependen de las llamadas al LLM generan un error de agotamiento de la cuota.
- El resultado de la consulta depende del argumento
max_error_ratiosi se usa en funciones comoAI.IF. Si la proporción de errores permanece dentro del límite permitido, es posible que se muestren resultados parciales. De lo contrario, fallará toda la búsqueda. - Las consultas posteriores que intenten usar funciones potenciadas por IA generativa fallarán con un error
QuotaExceededhasta que se restablezca la cuota diaria.
Consideraciones importantes
- Cuotas globales: Las cuotas definidas son globales. El uso de tokens se agrega en todas las regiones en las que opera tu proyecto, lo que proporciona un mecanismo unificado de control de costos. Esto evita cargos inesperados por el uso en diferentes regiones.
- Capacidad de procesamiento aprovisionada: Si usas modelos de Vertex AI con capacidad de procesamiento aprovisionada, la facturación no se basa en el uso de tokens. Debes establecer estas cuotas de tokens de BigQuery en un valor alto para evitar bloquear innecesariamente tus consultas.
¿Qué sigue?
- Obtén más información para optimizar los costos de las funciones IA.
- Lee una descripción general de la IA generativa en BigQuery.