使用 Gemini 进行批量推理

借助 Gemini 的批量推理(以前称为批量预测),您可以异步、高吞吐量且经济高效地进行推理,满足大规模数据处理需求。本指南将详细介绍批量推理的价值、运作方式、限制以及可获得最佳效果的最佳实践。

为何使用批量推理?

在许多实际应用场景中,您不需要语言模型立即做出回答。相反,您可能需要高效且经济实惠地处理大量提示数据集。这正是批量推理的优势所在。

主要优势包括以下各项:

  • 经济高效:与实时推理相比,批处理的费用可享受 50% 的折扣,非常适合大规模的非紧急任务。对于 Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite,隐式缓存默认处于启用状态。与标准输入 token 相比,隐式缓存可为缓存的 token 提供 90% 的折扣。但是,缓存和批处理折扣不叠加。90% 的缓存命中率折扣优先于批量折扣。
  • 高速率限制:与实时 Gemini API 相比,以更高的速率限制在单个批量中处理数十万个请求。
  • 简化的工作流程:您无需管理复杂的单个实时请求流水线,只需提交单个批量作业,并在处理完成后检索结果。该服务将处理格式验证、并行处理请求以实现并发处理,并自动重试,力求在 24 小时内完成处理,从而实现高完成率。

批量推理针对大规模处理任务进行了优化,例如:

  • 内容生成:批量生成商品说明、社交媒体帖子或其他创意文本。
  • 数据注释和分类:对用户评价进行分类、对文档进行归类,或对大量文本语料库执行情感分析。
  • 离线分析:总结文章、从报告中提取关键信息或大规模翻译文档。

支持批量推理的 Gemini 模型

以下基础 Gemini 模型和调优的 Gemini 模型支持批量推理:

全球端点模型支持

批量推理支持为基础 Gemini 模型使用全球端点。它不支持经过调优的 Gemini 模型的全球端点。

面向全球端点的批量推理支持公开预览版不支持将 BigQuery 表用作输入或输出。

全球端点可使用您所用模型支持的任何区域来处理请求,从而有助于提高整体可用性。请注意,它不支持数据驻留要求。如果您有数据驻留要求,请使用区域端点。

配额和限制

虽然批量推理功能强大,但请务必注意以下限制。

  • Quota:您的用量没有预定义的配额限制。相反,批量服务提供对大型共享资源池的访问权限,并根据资源可用性和该模式的所有客户的实时需求动态分配资源。当有更多客户处于活跃状态且我们的容量达到饱和时,您的批量请求可能会排队等待容量。
  • 排队时间:当我们的服务遇到高流量时,您的批量作业将排队等待容量。作业在队列中最多保留 72 小时,之后会过期。
  • 请求限制:单个批量作业最多可包含 20 万个请求。如果您使用 Cloud Storage 作为输入,文件大小上限为 1 GB。
  • 处理时间:批量作业是异步处理的,不适合实时应用。大多数作业会在开始运行后 24 小时内完成(不包括排队时间)。24 小时后,未完成的作业将取消,您只需为已完成的请求付费。
  • 不支持的功能:批量推理不支持显式缓存RAG。Gemini 2.0 Flash 或 Gemini 2.0 Flash-Lite 不支持批量推理隐式缓存。

最佳做法

为了充分利用 Gemini 进行批量推理,我们建议您遵循以下最佳实践:

  • 合并作业:为了最大限度地提高吞吐量,请在系统限制范围内将较小的作业合并为一个较大的作业。例如,提交一个包含 20 万个请求的批量作业,比提交 1,000 个各包含 200 个请求的作业可实现更高的吞吐量。
  • 监控作业状态:您可以使用 API、SDK 或界面监控作业进度。 如需了解详情,请参阅监控作业状态。如果作业失败,请检查错误消息,以诊断和排查问题。
  • 优化费用:对于不需要立即响应的任务,可利用批量处理带来的费用节省优势。

后续步骤