Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Gemini 进行批量推理

借助 Gemini 的批量推理（以前称为批量预测），您可以异步、高吞吐量且经济高效地进行推理，满足大规模数据处理需求。本指南将详细介绍批量推理的价值、运作方式、限制以及可获得最佳效果的最佳实践。

为何使用批量推理？

在许多实际应用场景中，您不需要语言模型立即做出回答。相反，您可能需要高效且经济实惠地处理大量提示数据集。这正是批量推理的优势所在。

主要优势包括以下各项：

经济高效：与实时推理相比，批处理的费用可享受 50% 的折扣，非常适合大规模的非紧急任务。对于 Gemini 2.5 和 Gemini 3 模型，隐式缓存默认处于启用状态。与标准输入 token 相比，隐式缓存可为缓存的 token 提供 90% 的折扣。但是，缓存和批处理折扣不叠加。90% 的缓存命中率折扣优先于批量折扣。
高速率限制：与实时 Gemini API 相比，以更高的速率限制在单个批量中处理数十万个请求。
简化工作流程：您无需管理复杂的实时请求流水线，只需提交一个批量作业，并在处理完成后检索结果。该服务将处理格式验证、并行处理请求以实现并发处理，并自动重试，力求在 24 小时内完成处理，从而实现高完成率。

批量推理针对大规模处理任务进行了优化，例如：

以下基础 Gemini 模型和调优的 Gemini 模型支持批量推理：

批量推理支持为基础 Gemini 模型使用全球端点。它不支持经过调优的 Gemini 模型的全球端点。

全球端点可使用您所用模型支持的任何区域来处理请求，从而有助于提高整体可用性。请注意，它不支持数据驻留要求。如果您有数据驻留要求，请使用区域端点。

虽然批量推理功能强大，但请务必注意以下限制。

配额：您的用量没有预定义的配额限制。相反，批量服务提供对大型共享资源池的访问权限，并根据资源的可用性和该模型在所有客户中的实时需求动态分配资源。当更多客户处于活跃状态并使我们的容量达到饱和时，您的批量请求可能会因容量不足而排队。
排队时间：当我们的服务遇到高流量时，您的批量作业将排队等待容量。作业在过期之前最多会在队列中保留 72 小时。
请求限制：单个批量作业最多可包含 20 万个请求。如果您使用 Cloud Storage 作为输入源，文件大小上限也为 1 GB。
处理时间：批量作业是异步处理的，不适合实时应用。大多数作业会在开始运行后 24 小时内完成（不包括排队时间）。24 小时后，未完成的作业将被取消，您只需为已完成的请求付费。
已取消的作业：您可以随时取消批量推理作业。取消作业后，系统会取消所有剩余的工作，并返回所有已完成的工作。您只需为已完成的工作付费。
不支持的功能：批量推理不支持预配吞吐量、显式缓存或 RAG。Gemini 2.0 Flash 或 Gemini 2.0 Flash-Lite 不支持批量推理隐式缓存。
图片输出：批量推理仅限于默认的 1K 分辨率。不支持 2K 和 4K 输出。

为了充分利用 Gemini 进行批量推理，我们建议您遵循以下最佳实践：

合并作业：为了最大限度地提高吞吐量，请在系统限制范围内将较小的作业合并为一个较大的作业。例如，提交一个包含 20 万个请求的批量作业，比提交 1,000 个各包含 200 个请求的作业可实现更高的吞吐量。
监控作业状态：您可以使用 API、SDK 或界面监控作业进度。如需了解详情，请参阅监控作业状态。如果作业失败，请检查错误消息，以诊断和排查问题。
优化费用：对于不需要立即响应的任务，可利用批量处理带来的费用节省优势。