Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用选项

Gemini Enterprise Agent Platform 提供了多种选项，供您在使用生成式模型时获取和使用计算资源。这些消费选项旨在满足任何工作负载的需求，从初始原型设计到生产部署。选择合适的选项对于平衡性能、可靠性和成本至关重要。

本指南详细介绍了可用的消费选项，可帮助您将这些选项与特定的工作负载要求相匹配，并提供优化延迟时间、可用性和费用的策略。

使用选项

Gemini Enterprise Agent Platform 提供五种消费选项，可根据不同的流量模式和业务需求量身定制：

使用选项		说明	适用场景	价格
预配吞吐量		在合约期内提供有保证的吞吐量	需要 SLA 的关键、稳定状态、始终运行的工作负载	承诺期方案（提供 1 周、1 个月、3 个月和 1 年期方案）
PayGo	Standard	灵活的按用量付费方案，无需预先做出承诺	适用于日常使用场景的默认选项，可灵活应对多变的网络流量需求	按 token 收费（标准费率）
	优先级	通过优先处理提供更高的可靠性，同时保持 PayGo 灵活性	需要比标准 PayGo 方案更高的可靠性和限额的重要工作负载	按 token 收费（高级费率）
	Flex	适用于容忍延迟的工作负载，经济实惠	可以容忍响应时间较慢和节流程度较高，但价格较低的任务	按 token 收费（折扣价）
批量推理		针对大批量异步处理进行了费用优化	需要在较长时间内获得结果的大规模作业	按 token 收费（折扣价）

如需了解价格，请参阅价格页面。

为工作负载选择合适的选项

以下部分将指导您根据工作负载的具体要求和特征选择最合适的消费选项。

对延迟敏感的工作负载

组织在选择合适的消费模式时，往往需要在可靠性和成本之间做出权衡。虽然预配吞吐量可提供最高的可靠性，但如果流量出现峰值，可能会导致利用率不足。同样，PayGo 可能提供最大的灵活性，但无法保证服务质量。以下部分介绍如何以最佳方式组合使用这些机制，以实现最佳效果：

使用预配吞吐量覆盖基准流量。这样可以提高预留容量的利用率，在经济实惠的同时，为核心流量提供可靠的保障。如需实现这一点，请执行以下操作：
- 分析分钟级或秒级流量模式。
- 确定要通过预配吞吐量覆盖的流量。该流量应为最高优先级流量。
使用标准随用随付或优先随用随付管理溢出流量：默认情况下，超出预配吞吐量基准的流量（称为溢出流量）由标准随用随付处理。如果您发现超出 TPM 限制的请求的性能变化较大，可以通过优化来缓解这种变化。优先随用随付可让您以较高的价格获得可靠的性能，但需遵守升幅限制。

异步高容量工作负载

如果您有大量积压的请求（例如，有数百万份文档需要总结），并且不担心延迟时间，则应通过将请求制定为 JSON 文件或电子表格来提交批量作业。这对于图片标签、批量文档处理或历史数据情感分析等使用情形非常有用。

对于大规模推理而言，这是最具成本效益的选项。

容忍延迟、对成本敏感的工作负载

如果您需要处理应用可以等待响应的请求，但降低成本是首要考虑因素，则应使用 Flex PayGo。Flex PayGo 针对不需要立即执行的请求提供更低的每令牌价格。此选项适用于离线分析、数据注解、产品目录构建或翻译等使用情形。

优化策略

选择使用模式后，您可以使用以下策略进一步优化延迟时间、可用性和费用。

延迟时间

在构建交互式应用时，延迟时间在用户体验中起着至关重要的作用。延迟时间是指模型处理输入提示并生成相应的输出回答所需的时间。检查模型延迟时间时，请考虑以下事项：

第一个 token 的时间 (TTFT)：模型在收到提示后生成回答的第一个 token 所需的时间。TTFT 对流式应用尤其重要，因为在流式应用中，提供即时反馈至关重要。
最后一个词元 (TTLT) 的时间：模型处理提示并生成回答所需的总时间。

如需针对延迟时间进行优化，请执行以下操作：

根据您的使用情形选择合适的模型：Gemini Enterprise Agent Platform 提供各种模型，这些模型具有不同的功能和性能特征。请仔细评估您对速度和输出质量的要求，选择最符合您的使用情形的模型。如需查看可用模型列表，请参阅 Model Garden。
缩减提示大小：精心设计清晰简洁的提示，有效传达您的意图，避免不必要的细节或冗余信息。提示越短，从提示到生成第一个 token 的时间就越短。
限制输出 token 数：
- 使用系统说明控制回答的长度。指示模型提供简洁的答案，或将输出限制为特定数量的句子或段落。此策略可以缩短从发出提示到获得最后一个 token 的时间。
- 通过设置限制来限制输出。使用 max_output_tokens 参数对生成的回答长度设置上限，以防止输出过长。延迟时间与生成的词元数量成正比；生成的词元数量越少，回答速度越快。但是要小心，因为这可能会导致句子中的回答被截断。
使用预配吞吐量：如需获得最稳定的性能，请使用预配吞吐量。这样可以消除“冷启动”或排队（在 PayGo 模式下，高流量期间偶尔会发生这种情况）造成的变动。
限制思考预算：如果您使用的模型支持思考，则可以通过减少思考预算来缩短延迟时间。通过限制模型在回答之前生成的内部推理 token，您可以缩短总处理时间。不过，您必须确保预算足以应对任务的复杂性，以免降低回答质量。
使用流式传输来生成回答：流式传输可增强感知到的回答速度，并打造更具互动性的用户体验。借助流式传输，模型会在生成完整输出之前开始发送其回答。这样一来，您就可以实时处理输出，从而立即更新界面并执行其他并发任务。

可用性

如需针对可用性进行优化，请执行以下操作：

实现重试逻辑：针对 429 错误实现指数退避算法，尤其是在使用标准即用即付方案时。
使用混合实现：如为工作负载选择合适的选项中所述，不要仅依赖按需付费来运行关键的生产应用。结合使用预配吞吐量和随用随付，可提供最可靠的保障，避免出现资源耗尽（429 错误）的情况。
管理预配吞吐量配额：定期监控 TPM 消耗量，并在预期流量事件（例如产品发布）发生之前增加 PT GSU。您可以使用提醒政策来自动执行监控。
使用全球端点：使用全球端点可利用 Google 的全球容量池，最大限度地减少因区域容量限制而导致的节流。
尽可能平稳流量，以减少峰值：较高的 PayGo 流量费率（每分钟流量费率）往往与较高的节流率相关联。
将流量转移到非高峰时段：模型使用情况总体上遵循昼夜模式。将工作负载转移到非高峰时段或周末可以显著提高可用性。

费用

如需优化费用，请执行以下操作：

合理调整预配吞吐量：您通常不需要预配 PT 来满足高峰需求。为高峰需求预配 PT 会降低总体利用率并增加费用。根据您的风险承受能力，预配 PT 以满足特定百分位的流量，其余流量则由标准 PayGo 和优先 PayGo 处理。
购买长期预配吞吐量：1 年期预配吞吐量承诺的价格比 1 个月期预配吞吐量低 26%，可大幅节省费用。您可以随时更改与所购预配吞吐量 GSU 相关联的模型，以利用我们最新的模型功能。
使用 Flex PayGo：确定流水线中对延迟不敏感的任何部分（例如，后台总结、数据提取），并将其移至 Flex PayGo，以将成本降低约 50%。
使用批处理：对于处理大型数据集等异步作业，批处理比使用标准按需付费按顺序处理请求便宜得多 (50%)。
使用上下文缓存：上下文缓存有助于降低包含重复内容的请求的费用并缩短延迟时间。通过将大型常见内容放在提示的开头，并在短时间内发送具有相似前缀的请求，可提高缓存命中率。
选择价格较低的模型：如果您的使用场景允许，请使用我们较小的模型之一，例如 Flash-Lite，其每个令牌的价格比我们功能齐全的重型模型更低。

使用选项 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用选项

为工作负载选择合适的选项

对延迟敏感的工作负载

异步高容量工作负载

容忍延迟、对成本敏感的工作负载

优化策略

延迟时间

可用性

费用

使用选项