Qué debes tener en cuenta antes de comprar
Para ayudarte a decidir si deseas comprar la capacidad de procesamiento aprovisionada, considera lo siguiente:
No puedes cancelar tu pedido en medio del período.
Tu compra de rendimiento reservado es un compromiso, lo que significa que no puedes cancelar el pedido en medio del plazo. Sin embargo, puedes aumentar la cantidad de GSU compradas. Si compras un compromiso por accidente o hay un problema con tu configuración, comunícate con tu Google Cloud representante de cuenta para obtener ayuda.
Puedes renovar automáticamente la suscripción.
Cuando envíes tu pedido, podrás elegir renovar automáticamente la suscripción al final de su período de vigencia o dejar que la suscripción venza. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente período de vigencia.
Puedes configurar las suscripciones mensuales para que se renueven automáticamente cada mes. Las condiciones semanales no admiten la renovación automática.
Para obtener más información, consulta Cómo cambiar el orden de la capacidad de procesamiento aprovisionada. También puedes comunicarte con tu Google Cloud representante de cuenta para obtener asistencia.
Puedes cambiar el comportamiento de renovación automática, el modelo, la versión del modelo o la región con previo aviso.
Después de que elijas tu proyecto, región, modelo, versión del modelo y comportamiento de renovación automática, y se apruebe y active tu pedido, se habilitará la capacidad de procesamiento aprovisionada, sujeta a la capacidad disponible. Puedes cambiar el comportamiento, el modelo o la versión de la renovación automática con la consola de Google Cloud , que puedes usar para modificar tu pedido existente. Para obtener más información, consulta Cómo cambiar el orden de la capacidad de procesamiento aprovisionada.
Para cambiar la región, comunícate con tu Google Cloud representante de cuenta para obtener asistencia. Es posible que se requiera un pedido nuevo con una fecha de finalización de la suscripción nueva.
Todos los cambios se procesan de la mejor manera posible y, por lo general, se completan en un plazo de 10 días hábiles a partir de la solicitud inicial.
Los cambios de modelo se limitan a un publicador específico. Por ejemplo, puedes cambiar la asignación de modelos de la capacidad de procesamiento aprovisionada de Google Gemini 2.0 Pro a Google Gemini 2.0 Flash, pero no puedes cambiar de Google Gemini 2.0 Flash a Claude 3.5 Sonnet v2 de Anthropic.
De forma predeterminada, el excedente se factura como pago por uso.
Si tu capacidad de procesamiento supera el importe de tu pedido de capacidad de procesamiento aprovisionada, los excedentes se procesan y facturan como pago por uso estándar. Puedes controlar los excedentes por solicitud. Para obtener más información, consulta Cómo usar la capacidad de procesamiento aprovisionada.
Para obtener información sobre los precios, consulta Capacidad de procesamiento aprovisionada.
Compra la capacidad de procesamiento aprovisionada para modelos de versión preliminar
Puedes comprar el rendimiento reservado para modelos de Google en la versión preliminar, siempre que no se haya lanzado una versión general del modelo.
Si tienes un pedido activo de capacidad de procesamiento aprovisionada para un modelo preliminar y se lanza una versión disponible de forma general del modelo, puedes hacer lo siguiente:
Mueve el pedido a la versión de disponibilidad general del modelo. Ten en cuenta que, después de cambiar tu pedido al modelo de disponibilidad general, no podrás volver a cambiarlo al modelo de vista previa. Para obtener más información sobre cómo cambiar un pedido, consulta Cómo cambiar el pedido de capacidad de procesamiento aprovisionada.
Como alternativa, continúa usando la capacidad de procesamiento aprovisionada para la versión preliminar de un modelo, siempre que esta sea estable. Para obtener más información sobre los modelos estables y retirados, consulta Versiones de modelos y ciclo de vida.
Funciones y permisos
El siguiente rol otorga acceso completo para administrar la capacidad de procesamiento aprovisionada de Vertex AI:
roles/aiplatform.provisionedThroughputAdmin
: Puedes acceder a los recursos de rendimiento aprovisionado de Vertex AI.
Esta función incluye los siguientes permisos:
Permisos | Descripción |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
Envía un nuevo pedido de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.get |
Consulta un pedido de capacidad de procesamiento aprovisionada específico. |
aiplatform.googleapis.com/provisionedThroughputs.list |
Consulta todos los pedidos de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.update |
Modifica un pedido de capacidad de procesamiento aprovisionada. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
Cancelar un pedido o una actualización pendiente |
Cómo realizar un pedido de capacidad de procesamiento aprovisionada
Es posible que algunas funciones de Imagen no estén disponibles de forma pública. Para obtener más información, consulta Funciones de GA y vista previa restringidas.
Antes de realizar un pedido para usar MedLM-large-1.5, comunícate con tu Google Cloud representante de cuenta para solicitar acceso.
Si esperas que tu QPM supere los 30,000, para maximizar tu pedido de Capacidad de procesamiento aprovisionada, solicita un ajuste de cuota para tu cuota de sistema predeterminada de Vertex AI con la siguiente información:
- Servicio: La API de Vertex AI.
- Nombre:
Online prediction requests per minute per region
- Tipo de servicio: Es una cuota.
- Dimensiones: La región en la que solicitaste el uso de Capacidad de procesamiento aprovisionada.
- Valor: Este es el límite de tráfico de predicción en línea que elegiste.
Los pedidos de capacidad de procesamiento aprovisionada se procesan en función del tamaño del pedido y la capacidad disponible. Según la cantidad de GSU solicitadas y la capacidad disponible, el procesamiento de tu pedido puede tardar desde unos minutos hasta algunas semanas.
Sigue estos pasos para comprar la capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
- Para iniciar un pedido nuevo, haz clic en Nuevo pedido.
- Ingresa un Nombre de pedido.
- Selecciona el Modelo.
- Selecciona la Región.
Ingresa la cantidad de unidades de escalamiento de IA generativa (GSU) que debes comprar.
Opcional: Puedes usar la herramienta de estimación de unidades de escalamiento de IA generativa para estimar la cantidad de GSU que necesitarás. Para usar esta herramienta, haz lo siguiente:
- Haz clic en Herramienta de estimación.
- Selecciona tu Modelo.
Según el modelo seleccionado, ingresa los detalles para estimar la cantidad de GSU necesarias.
Para los modelos Gemini 2.5, ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de respuesta de salida por consulta
- Tokens de texto de razonamiento de salida por consulta
Para el modelo Gemini 2.5 Flash con la API de Live, ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de memoria de sesión de entrada por consulta
- Tokens de texto de salida por consulta
- Tokens de audio de salida por consulta
Para el modelo Gemini 2.5 Flash-Lite (versión preliminar), ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de texto de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de salida por consulta
Para los modelos Gemini 2.0, ingresa lo siguiente:
- Cantidad estimada de consultas por segundo que requieren garantía
- Tokens de entrada por consulta
- Tokens de imagen de entrada por consulta
- Tokens de video de entrada por consulta
- Tokens de audio de entrada por consulta
- Tokens de texto de salida por consulta
Para los modelos de Imagen, ingresa lo siguiente:
- Consultas por segundo
- Imágenes de salida por consulta
Si deseas usar los valores que ingresaste en la herramienta de estimación, haz clic en Usar calculado.
Selecciona el Plazo. Las siguientes opciones están disponibles:
- 1 semana
- 1 mes
- 3 meses
- 1 año
Opcional: Selecciona la Fecha y hora de inicio de tu período (versión preliminar).
Puedes proporcionar una fecha y hora de inicio dentro de dos semanas a partir de la fecha en que realizas el pedido. Si no especificas una fecha y hora de inicio, el pedido se procesará en cuanto haya capacidad disponible. Las fechas y horas de inicio solicitadas se procesan en la medida de lo posible, y no se garantiza que los pedidos se completen en esas fechas hasta que se apruebe el estado del pedido.
Si la fecha de inicio solicitada es muy cercana a la fecha actual, es posible que tu pedido se apruebe y active después de esa fecha. En este caso, la fecha de finalización se ajusta en función de la duración del período seleccionado, a partir de la fecha de activación. Para obtener información sobre cómo cancelar un pedido pendiente, consulta Cambia el pedido de capacidad de procesamiento aprovisionada.
En la lista Renovación, especifica si deseas renovar automáticamente el pedido al final del plazo. Puedes especificar la opción de renovación solo si seleccionas 1 mes, 3 meses o 1 año como el plazo.
Haz clic en Continuar.
En la sección Resumen, revisa las estimaciones de precio y capacidad de procesamiento de tu pedido. Lee los términos que se indican y vinculan en el formulario.
Para finalizar el pedido, haz clic en Confirmar.
El procesamiento de un pedido puede tardar desde unos minutos hasta algunas semanas, según el tamaño del pedido y la capacidad disponible. Después de que se procese el pedido, su estado en la Google Cloud consola cambiará a Activo. Solo se te facturará el pedido después de que esté activo.
Cómo cambiar el pedido de capacidad de procesamiento aprovisionada
En esta tabla, se describe cómo puedes modificar tus pedidos de rendimiento provisioned a través de la consola deGoogle Cloud según el estado de tu pedido y las condiciones existentes. La modificación de pedidos es una función en versión preliminar y solo está disponible para los pedidos en línea que se realizan a través de la consola. Si quieres realizar cambios en los pedidos sin conexión, comunícate con tu representante de cuenta deGoogle Cloud para obtener ayuda.
Además, los cambios que se realizan cuando se usa la consola de Google Cloud en tu modelo o versión del modelo modifican el pedido existente y conservan la misma fecha de finalización de la suscripción.
Estado del pedido | Acción | Nota | Pasos en Google Cloud console |
---|---|---|---|
Pendiente de revisión | Puedes cancelar tu pedido. |
Si tienes más cambios en tu pedido, cancela el pedido pendiente y realiza uno nuevo. Si tienes varios modelos, cada uno puede tener solo una revisión de pedido pendiente o un pedido pendiente a la vez. |
Para cancelar tu pedido pendiente en la Google Cloud consola, haz lo siguiente:
|
Fecha de aprobación | No puedes modificar tu pedido. | El pedido está pendiente de activación. No puedes realizar cambios en tu pedido en este momento. | No aplicable |
Activo | Las siguientes acciones solo se permiten si el pedido no vence en los próximos cinco días o se renueva automáticamente:
|
No puedes cambiar un pedido activo si vence en menos de cinco días y no está configurado para renovarse automáticamente. | Para cambiar tu pedido activo en la Google Cloud consola, usa uno de los siguientes métodos:
|
Comprobar estado del pedido
Después de enviar tu pedido de capacidad de procesamiento aprovisionada, el estado del pedido podría ser uno de los siguientes:
- Pendiente de revisión: Realizaste tu pedido. Como la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este se encuentra en espera de revisión y aprobación. Para obtener más información sobre el estado de tu pedido pendiente, comunícate con tu Google Cloud representante de cuenta.
- Aprobado: Google aprobó tu pedido, que está pendiente de activación. No puedes realizar cambios después de que se apruebe el pedido.
- Activo: Google activó tu pedido y, luego, comienza la facturación.
- Vencido: Tu pedido venció.
Cómo ver los pedidos de capacidad de procesamiento aprovisionada
Sigue estos pasos para ver tus pedidos de capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud , ve a la página Capacidad de procesamiento aprovisionada.
- Selecciona la Región. Aparecerá tu lista de pedidos.