借助“比较”功能,您可以了解不同的提示、模型或参数设置对模型输出有何影响。您可以并排查看每个提示及其回答,以便通过以下方式进行比较和分析:
- 使用新的提示。
- 使用其他已保存的提示。
- 使用标准答案。
准备工作
如需访问“比较”功能,请按以下步骤操作:
在 Google Cloud 控制台中,前往创建提示页面。
选择比较。 系统会显示比较页面。
在比较功能中创建提示
在比较页面上,您可以先创建提示,然后再选择另一个提示来比较结果。
如需创建提示,请按照以下步骤操作:
在新建提示字段中,输入您的提示。
点击提交提示。 模型的回答会显示在您输入的提示文本下方。
点击另存为新报告。 系统会显示保存提示对话框。
在提示名称字段中输入新提示的名称。
在区域字段中选择您的区域,或将其保留为默认区域。
如果客户管理的加密密钥 (CMEK) 适用,请执行以下操作:
- 选中客户管理的加密密钥 (CMEK) 复选框。
- 从选择 Cloud KMS 密钥字段中选择一个密钥。
点击保存,系统会将您的提示保存在提示列表中,以便在比较已保存的提示页面上使用。
点击提交提示,比较提示及其回答。
您可以更新提示,并将更新后的版本另存为新提示。
使用新提示进行比较
如需将已保存的提示与新提示进行比较,请按以下步骤操作:
- 点击比较新提示。系统会显示比较窗格。
- 可选:点击切换模型,使用不同于默认模型的其他模型。
- 可选:展开输出。
- 可选:如果您希望模型以特定格式(例如 JSON)输出,请点击结构化输出切换开关。选择结构化输出后,接地选项会关闭,因为结构化输出不支持接地。
- 可选:将思考预算更改为以下选项之一:
- 自动:模型仅在需要时才会思考。模型会根据当时的需要调整思考或分析情况的程度。
- 手动:您可以调整思考预算 token。
- 关闭:不使用思考或预算。
输出:
- 可选:展开工具。
- 从下列选项中选择一项:
- 接地:Google:依托 Google 搜索或 Google 地图进行接地。
- 接地:您的数据:使用 Vertex AI RAG Engine、Vertex AI Search 或 Elasticsearch 进行接地。
- 如果您选择接地:您的数据,请选择要使用的数据源。
工具:
- 可选:展开高级:
- 选择区域。
- 选择安全过滤设置。随即会出现一个对话框。 保留默认的关闭,也可以为以下每个选项指定屏蔽少部分、屏蔽部分或屏蔽大部分:
- 仇恨言论:针对身份或受保护属性的负面或有害评论。
- 危险内容:宣传或允许访问有害商品、服务和活动。
- 露骨色情内容:包含对性行为或其他淫秽内容的引用。
- 骚扰性内容:针对其他人的恶意、恐吓、欺凌或辱骂性评论。
- 点击保存以保存设置并关闭对话框。
- 从温度字段中选择温度。温度可以控制 token 选择的随机性。当您期望得到真实或正确的回答时,温度越低越好。 较高的温度可能会引发多样化或意想不到的结果。
- 从输出 token 限制字段中选择输出 token 限制。输出 token 限制决定了一条提示的最大文本输出量。一个 token 约为 4 个字符。
- 从最大回答数字段中选择最大回答数。 模型针对每个提示生成的回答数量上限。回答仍可能因安全过滤条件或其他政策而被阻止。
- 从 Top-P 字段中选择一个值。Top-p 可更改模型选择输出 token 的方式。
- 点击流式传输模型回答字段中的切换开关。如果选择此选项,系统会在生成回答时输出回答。
- 在添加停止序列字段中输入停止序列。添加每个序列后按 Enter 键。
高级:
- 点击保存以保存对设置所做的更改。
- 点击应用。
- 点击提交提示,比较提示及其回答。
如需详细了解每种模型的 token 限制,请参阅控制思考预算。
与其他已保存的提示进行比较
如需将已保存的提示与另一条已保存的提示进行比较,请按以下步骤操作:
- 点击比较已保存的提示。系统随即会显示现有提示窗格。
选择最多两个现有提示进行比较。
- 选择一个提示名称。如果您的列表中有很多提示,请点击过滤条件字段,然后选择要用于过滤的属性。输入一个值,然后按 Enter 键。
- 点击应用。比较页面会显示您选择的提示,以及您创建或选择的其他用于比较的提示。
点击提交提示,比较提示及其回答。
与标准答案进行比较
标准答案是针对提示的首选答案。系统根据标准答案评估所有其他模型回答。
如需将已保存的提示与标准答案进行比较,请按以下步骤操作:
- 点击标准答案。系统随即会显示标准答案窗格。
- 输入标准答案,以生成更多评估指标。
- 点击保存以保存标准答案。
- 点击提交提示,比较提示及其回答。
将提示与标准答案进行比较时生成的评估指标不受您选择的区域的影响。
后续步骤
- 在问题库中探索更多问题示例。
- 如需详细了解如何评估模型,请参阅 Gen AI Evaluation Service 概览。